首页 > 演讲嘉宾 > 演讲嘉宾详情> 田毅

田毅

大数据平台研发部经理

北京Spark Meetup创始人，从2010年起，尝试独立编写分布式的业务处理平台。2011年开始全面使用hadoop平台，早期设计开发利用MapReduce构建可视化数据处理平台，后逐步转向研究使用Hive分担电信行业传统数据仓库的复杂计算。从2013年开始关注Spark，目前致力于利用Spark技术的特性拓展电信行业的业务模式。从2011年到2014年，鉴证了Hadoop技术在电信行业中从小范围探索，到大规模推广使用，从6-7台机器组成的小集群,到现在数百台的大数据处理平台。先后使用HBase实现了电信业务场景中的单据类数据即时查询业务，使用Shark实现了准实时用户标签统计分析平台。2014年7月创建北京Spark Meetup小组，目前已经成功举办3次，参与人数在全世界的Spark Meetup排名第7，历次活动中邀请了来自Databricks，亚信，京东，Intel等多个知名企业的员工分享了Spark实践中的经验与教训。

演讲主题：Spark介绍与应用案例分析

Apache Spark作为新一代大数据分析平台，以全能分析闻名，可以在单个软件栈内混合批处理、流式计算、以机器学习为代表的迭代型计算、关系查询、交互式查询、图计算等多种分析范式，是搭建一体化大数据流水线的极佳选择。在部署Spark集群、设计Spark应用时有哪些方面的问题需要考量？目前Spark适合应用在哪些场景? 哪些场景不适合Spark使用? 本演讲试图通过亚信科技在Spark平台上的应用案例与经验教训为上述问题提供参考。