SparkSQL数据加载优化技巧

更新时间：2025-01-11 工作计划版权反馈

【摘要】：Spark SQL加载数据是通过load函数实现的，下面就通过具体案例动手实践load函数的用法。实验的前提是启动HDFS、Spark集群，并且以集群的方式运行Spark-Shell命令行。通过在Web控制台输入URL：http：//Master：50070/explorer.html#/，或者直接输入Mas- ter的IP地址，如：http：//xxx.xxx.xxx.xxx：50070/explorer.html#/，即可进入HDFS的Web控制台界面，如图3-1所示。图3-1 HDFS Web控制台界面3.文件传入确认目录创建好之后，将Spark系统中自带的examples\src\main\resource中的peo-ple.json文件上传到HDFS的examples目录下。

Spark SQL加载数据是通过load函数实现的，下面就通过具体案例动手实践load函数的用法。实验的前提是启动HDFS、Spark集群，并且以集群的方式运行Spark-Shell命令行。

1.创建目录

首先，在HDFS文件系统中创建examples目录，操作如下：

2.目录查询与确认

第一步的目录创建完成之后，可以通过HDFS的Web控制台界面，来查询新建目录是否已经创建成功。

通过在Web控制台输入URL：http：//Master：50070/explorer.html#/，或者直接输入Mas_- ter的IP地址，如：http：//xxx.xxx.xxx.xxx：50070/explorer.html#/，即可进入HDFS的Web控制台界面，如图3-1所示。由此可以确认上一步中新建的目录examples已经创建成功。

图3-1 HDFS Web控制台界面

3.文件传入(www.xing528.com)

确认目录创建好之后，将Spark系统中自带的examples\src\main\resource中的peo-ple.json文件上传到HDFS的examples目录下。具体操作如下：

[root@Master resources]#hdfs dfs-put people.json/examples

4.文件读取

将文件传至新目录examples下后，可以通过以下操作读取HDFS目录下的examples中的people.json文件。

5.数据显示

读取文件之后，可以使用show命令将文件中的数据显示出来。具体实现如下：

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作思路

策划书

留守儿童

关工委

内部审计

爱国卫生

业务员

信息技术

教研员

心理教育

居委会

社区学校

公司安全

部门月度

区安全

公司工会

乡镇基层

劳动保障

经理年度

内科年度

教学个人

前台个人

个人月度

配班个人

SparkSQL数据加载优化技巧

相关推荐

SparkSQL数据加载优化技巧

有关Spark SQL大数据实例开发教程的文章

相关推荐