首页 理论教育 DataFrame编程模型优化措施

DataFrame编程模型优化措施

时间:2023-06-25 理论教育 版权反馈
【摘要】:Spark SQL允许Spark执行用SQL语言、HiveQL语言或者Scala语言表示的关系查询。而在Spark 1.3中,引入了DataFrame来重命名SchemaRDD类型,在Spark1.3中,Dat-aFrame是一个以命名列方式组织的分布式数据集,在概念上类似于关系型数据库中的一个表,也相当于R/Python中的Data Frames。DataFrame可以由结构化数据文件转换得到,或从Hive中的表得来,也可以转换自外部数据库或现有的RDD。DataFrame编程模型具有的功能特性有:1)从KB到PB级的数据量支持。

DataFrame编程模型优化措施

Spark SQL允许Spark执行用SQL语言、HiveQL语言或者Scala语言表示的关系查询。在Spark 1.3之前,这个模块的核心是SchemaRDD类型。SchemaRDD由行(Row)对象组成,行对象通过scheme来描述行中每一列的数据类型。

而在Spark 1.3中,引入了DataFrame来重命名SchemaRDD类型,在Spark1.3中,Dat-aFrame是一个以命名列方式组织的分布式数据集,在概念上类似于关系型数据库中的一个表,也相当于R/Python中的Data Frames。DataFrame可以由结构化数据文件转换得到,或从Hive中的表得来,也可以转换自外部数据库或现有的RDD。

DataFrame编程模型具有的功能特性有:

1)从KB到PB级的数据量支持。

2)多种数据格式和多种存储系统支持。(www.xing528.com)

3)通过Spark SQL的Catalyst优化器进行先进的优化,生成代码。

4)为Python、Java、Scala和R语言(SparkR)提供API。

注意:目前DataFrame API支持Scala、Java以及Python。以下章节的实践基于Scala语言。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈