首页 理论教育 解析RDD API的应用案例

解析RDD API的应用案例

时间:2023-06-25 理论教育 版权反馈
【摘要】:在RDD提供的各种API中,重点理解各个API的输入参数和返回值,对其中的函数参数,也是一样,要理解该函数的输入和返回值的具体含义,理解这些内容后,结合分布式概念就可以完全理解该API的功能了。RDD间/扩展RDD间的API是指对两个或两个以上的RDD之间进行操作的API。这部分内容主要是给出在开发调试场景下,如何去实践案例,并在实践过程中加深对RDDAPI的理解的方法。

解析RDD API的应用案例

这部分主要是解析RDD隐式转换后的类型的常用API应用案例。在解析过程中,首先描述API的功能及在官网API上的定义,并基于API的定义给出一些案例,对于比较重要的API,会给出一些常用的应用场景说明。

RDD是一个分布式的数据集,这里分布式的概念,我们可以从另一个角度来理解,就是对大数据集的操作可以转换为对分布式存放的小数据的操作。在RDD提供的各种API中,重点理解各个API的输入参数(包含函数参数)和返回值(注意各自对应的类型信息),对其中的函数参数,也是一样,要理解该函数的输入和返回值的具体含义(尤其是类型信息),理解这些内容后,结合分布式概念就可以完全理解该API的功能了。

理解API功能后,就是该是如何使用了,刚开始使用时,可以先构建出API的各个参数,尤其是函数参数,然后传入该API并执行,执行结果验证无误后,可以试着简化代码,多尝试这种从复杂到简化的过程后,这种简化的函数式的编程方式就很容易理解和使用了。

对某些复杂的API,会先提供易于理解的代码编写风格,然后用简化的Scala函数式编程方式进行重新编写,使非函数式编程的开发者能更容易过渡到函数式风格的编写。

在解析API时,对API做了一些分类,包括针对RDD/扩展RDD的API、RDD间/扩展RDD间的API等。RDD间/扩展RDD间的API是指对两个或两个以上的RDD之间进行操作的API。

这部分内容主要是给出在开发调试场景下,如何去实践案例,并在实践过程中加深对RDDAPI的理解的方法。(www.xing528.com)

准备工作包括以下两部分:

一、使用交互式方式进行API实践及解析

启动交互式工具spark-shell,解析API实践的代码及其输出结果。如何启动交互式工具spark-shell请参考章节2.2.2交互式工具的启动。

二、控制日志信息输出

在解析过程中,为了专注于API的代码及其输出信息,在交互式工具spark-shell的控制界面上输入下面代码(仅针对“org.apache.Spark”部分的日志信息),提高日志输出等级或关闭日志信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈