演讲嘉宾

中国Spark技术峰会

程 浩

英特尔亚太研发有限公司Spark Core团队研发经理

2012年加入Intel大数据技术团队,Apache Spark开源社区活跃开发者,同时也领导Intel Spark Core团队,优化Spark在IA(Intel Architecture)平台的执行性能,充分发挥硬件特性,并回馈给开源社区。

演讲主题

Spark SQL之上的快速交互式查询引擎

Spark SQL 在业内已经得到了广泛使用,在过去和大量客户的合作交流中,我们发现大数据上的低延迟查询需求很强烈,尽管Spark SQL底层提供了非常优雅的Data Source API接口扩展以及快速的查询执行,然而对于很多应用场景仍然不满足其需求。Spinach项目提供了基于内存的、与Spark SQL的数据类型完全耦合的Data Source扩展实现,并提供用户自定义索引功能,她期待运行在Spark ThriftServer进程内,支持多租户,100%兼容Spark SQL的标准语法;实现上,她扩展了HiveContext,加入SQL DSL来辅助用户创建索引;除此之外,为充分使用内存、SSD以及HDD的硬件特性,她还提供进程内的层次化的数据、索引缓存机制,避免某些外部内存缓存方案的进程间通信所带来的额外开销。在一个简单的全表扫描案例中,Spinach比原生Spark SQL快 30-50倍,单条记录的过滤选取要快100倍以上。本次分享,我们将剖析Spinach的设计实现,以及未来的开发计划。