首页 理论教育 如何用SparkShell测试Spark集群

如何用SparkShell测试Spark集群

时间:2026-01-23 理论教育 小谭同学 版权反馈
【摘要】:此时查看一下Web控制台,可以发现文件已经成功上传上去了:图2-20 HDFS中保存的README.md文件在启动Spark Shell之后,会看到一个sc,这个sc指的是SparkContext,它是把代码提交到集群或者本地的通道。Spark Shell启动的时候会自动帮我们生成sc。在Spark Shell下编写代码,运行刚上传到HDFS的“README.md”文件。

该示例是在Spark Shell中,对从HDFS文件系统加载进来的README.md文件进行一系列的操作,最终求出“Spark”这个单词在文件中一共出现了多少次。详细操作步骤如下:

(1)启动Spark集群和Spark Shell。

(2)在SparkMaster重新开启一个命令终端,把Spark安装目录下的“README.md”文件复制到HDFS系统的data文件目录下。

图示

此时查看一下Web控制台,可以发现文件已经成功上传上去了(如图2-20所示):

图示

图2-20 HDFS中保存的README.md文件

(3)在启动Spark Shell之后,会看到一个sc,这个sc指的是SparkContext,它是把代码提交到集群或者本地的通道。Spark Shell启动的时候会自动帮我们生成sc。

图示

(4)在Spark Shell下编写代码,运行刚上传到HDFS的“README.md”文件。(https://www.xing528.com)

图示

从执行结果中,可以看到“Spark”这个词一共出现了21次。

此时查看Spark Shell的Web控制台(如图2-21所示),可以看到我们提交了一个任务并成功完成。

图示

图2-21 任务运行状况

单击这个完成的任务的Description选项,可以看到它执行的详细情况(如图2-22所示)。

图示

图2-22 任务执行的详细情况

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈