-
田毅
大数据平台研发部经理
北京Spark Meetup创始人,从2010年起,尝试独立编写分布式的业务处理平台。2011年开始全面使用hadoop平台,早期设计开发利用MapReduce构建可视化数据处理平台,后逐步转向研究使用Hive分担电信行业传统数据仓库的复杂计算。从2013年开始关注Spark,目前致力于利用Spark技术的特性拓展电信行业的业务模式。从2011年到2014年,鉴证了Hadoop技术在电信行业中从小范围探索,到大规模推广使用,从6-7台机器组成的小集群,到现在数百台的大数据处理平台。先后使用HBase实现了电信业务场景中的单据类数据即时查询业务,使用Shark实现了准实时用户标签统计分析平台。2014年7月创建北京Spark Meetup小组,目前已经成功举办3次,参与人数在全世界的Spark Meetup排名第7,历次活动中邀请了来自Databricks,亚信,京东,Intel等多个知名企业的员工分享了Spark实践中的经验与教训。
演讲主题:Spark介绍与应用案例分析
Apache Spark作为新一代大数据分析平台,以全能分析闻名,可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、 图计算等多种分析范式,是搭建一体化大数据流水线的极佳选择。在部署Spark集群、设计Spark应用时有哪些方面的问题需要考量?目前Spark适合 应用在哪些场景? 哪些场景不适合Spark使用? 本演讲试图通过亚信科技在Spark平台上的应用案例与经验教训为上述问题提供参考。
联系我们
扫一扫
微信号:CSDNcloud
时时关注
云计算官方频道官微
扫一扫
微信号:CSDNbigdata
时时关注
大数据官方频道官微