演讲嘉宾

中国Spark技术峰会

范文臣

Apache Spark committer,Databricks 软件工程师

Apache Spark Committer, Spark SQL 开发团队的一员。2013年从浙江大学毕业后,一直在进行分布式系统相关的工作。2014年开始接触 Spark,并成为最活跃的代码贡献者之一。2015年正式加入 Databricks,目前在杭州以远程协作的模式参与 Spark,主要是 SQL 模块的开发。

演讲主题

Dataset in Spark SQL

Dataset 是在 Spark 1.6 引入的新的实验性的API。它可以看成是 DataFrame 的扩展,在 DataFrame 的基础上,提供了一套强类型的编程接口。和 DataFame 类似,Dataset 也是运行在 Catalyst 优化器之上,数据也是按照 Tungsten 的编码方式存放在内存中。这意味着,Dataset 在提供编译期类型安全的同时,仍能够享受到 Spark SQL 带来的性能提升,可以算做是一种 New RDD。 本次演讲将从源头开始,阐述创建 Dataset 的动机,Dataset 实现的一些细节,Dataset 的使用场景的介绍,以及 Dataset 在 Spark 2.0 中的新变化,包括与 DataFrame 的合并,性能上的改进等。