中国云计算技术大会

演讲嘉宾

中国Spark技术峰会

程浩

英特尔亚太研发有限公司Spark Core团队研发经理

2012年加入Intel大数据技术团队，Apache Spark开源社区活跃开发者，同时也领导Intel Spark Core团队，优化Spark在IA（Intel Architecture）平台的执行性能，充分发挥硬件特性，并回馈给开源社区。

演讲主题

Spark SQL之上的快速交互式查询引擎

Spark SQL 在业内已经得到了广泛使用，在过去和大量客户的合作交流中，我们发现大数据上的低延迟查询需求很强烈，尽管Spark SQL底层提供了非常优雅的Data Source API接口扩展以及快速的查询执行，然而对于很多应用场景仍然不满足其需求。Spinach项目提供了基于内存的、与Spark SQL的数据类型完全耦合的Data Source扩展实现，并提供用户自定义索引功能，她期待运行在Spark ThriftServer进程内，支持多租户，100%兼容Spark SQL的标准语法；实现上，她扩展了HiveContext，加入SQL DSL来辅助用户创建索引；除此之外，为充分使用内存、SSD以及HDD的硬件特性，她还提供进程内的层次化的数据、索引缓存机制，避免某些外部内存缓存方案的进程间通信所带来的额外开销。在一个简单的全表扫描案例中，Spinach比原生Spark SQL快 30-50倍，单条记录的过滤选取要快100倍以上。本次分享，我们将剖析Spinach的设计实现，以及未来的开发计划。

演讲嘉宾

程 浩

演讲主题

程浩