首页 理论教育 Spark基本对象运行原理解析

Spark基本对象运行原理解析

时间:2023-06-29 理论教育 版权反馈
【摘要】:根据前面的阐述可知,RDD其实就是Spark运行的基本对象。关于RDD的定义和运行机制,在第1章和第2章分别给予了详细阐述。这里重新总结下RDD的一些重要特征和创建方式,以方便后面对整个Spark调度器的运行机制的理解。RDD是一种数据模型,与分布式的共享内存类似。与数据多副本的备份方式不同,RDD的恢复可以通过重复执行变换操作得到。·从其他RDD上通过变换操作创建。当初决定用Scala就是因为用它写的代码简单明了。

Spark基本对象运行原理解析

根据前面的阐述可知,RDD其实就是Spark运行的基本对象。关于RDD的定义和运行机制,在第1章和第2章分别给予了详细阐述。这里重新总结下RDD的一些重要特征和创建方式,以方便后面对整个Spark调度器(Scheduler)的运行机制的理解。

RDD是一种数据模型,与分布式的共享内存类似。RDD有以下几个特征。

·是只读的内存数据,但可以持久化。

·是可以分区的数据集合。

·是一个对象,可以调用它的方法执行一些变换操作(Transformation),如flagMap、filter等。

·是可恢复的。与数据多副本的备份方式不同,RDD的恢复可以通过重复执行变换操作(Transformation)得到。(www.xing528.com)

·变换操作(Transformation)是延迟操作,只有在真正需要时才执行。有下列两种方式可以创建RDD。

·从持久化的数据上创建,如硬盘和HDFS上的文件。

·从其他RDD上通过变换(Transformation)操作创建。

说明:RDD本身是与编程语言无关的,既可以用Scala语言实现,也可以用Java、Python等其他编程语言实现。当初决定用Scala就是因为用它写的代码简单明了。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈