首页 理论教育 SparkSQL数据加载优化技巧

SparkSQL数据加载优化技巧

更新时间:2025-01-11 工作计划 版权反馈
【摘要】:Spark SQL加载数据是通过load函数实现的,下面就通过具体案例动手实践load函数的用法。实验的前提是启动HDFS、Spark集群,并且以集群的方式运行Spark-Shell命令行。通过在Web控制台输入URL:http://Master:50070/explorer.html#/,或者直接输入Mas- ter的IP地址,如:http://xxx.xxx.xxx.xxx:50070/explorer.html#/,即可进入HDFS的Web控制台界面,如图3-1所示。图3-1 HDFS Web控制台界面3.文件传入确认目录创建好之后,将Spark系统中自带的examples\src\main\resource中的peo-ple.json文件上传到HDFS的examples目录下。

Spark SQL加载数据是通过load函数实现的,下面就通过具体案例动手实践load函数的用法。实验的前提是启动HDFS、Spark集群,并且以集群的方式运行Spark-Shell命令行。

1.创建目录

首先,在HDFS文件系统中创建examples目录,操作如下:

978-7-111-59197-9-Chapter03-1.jpg

2.目录查询与确认

第一步的目录创建完成之后,可以通过HDFS的Web控制台界面,来查询新建目录是否已经创建成功。

通过在Web控制台输入URL:http://Master:50070/explorer.html#/,或者直接输入Mas- ter的IP地址,如:http://xxx.xxx.xxx.xxx:50070/explorer.html#/,即可进入HDFS的Web控制台界面,如图3-1所示。由此可以确认上一步中新建的目录examples已经创建成功。

978-7-111-59197-9-Chapter03-2.jpg

图3-1 HDFS Web控制台界面

3.文件传入(www.xing528.com)

确认目录创建好之后,将Spark系统中自带的examples\src\main\resource中的peo-ple.json文件上传到HDFS的examples目录下。具体操作如下:

[root@Master resources]#hdfs dfs-put people.json/examples

4.文件读取

将文件传至新目录examples下后,可以通过以下操作读取HDFS目录下的examples中的people.json文件。

978-7-111-59197-9-Chapter03-3.jpg

5.数据显示

读取文件之后,可以使用show命令将文件中的数据显示出来。具体实现如下:

978-7-111-59197-9-Chapter03-4.jpg

978-7-111-59197-9-Chapter03-5.jpg

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈