【摘要】:此时查看一下Web控制台,可以发现文件已经成功上传上去了:图2-20 HDFS中保存的README.md文件在启动Spark Shell之后,会看到一个sc,这个sc指的是SparkContext,它是把代码提交到集群或者本地的通道。Spark Shell启动的时候会自动帮我们生成sc。在Spark Shell下编写代码,运行刚上传到HDFS的“README.md”文件。
该示例是在Spark Shell中,对从HDFS文件系统加载进来的README.md文件进行一系列的操作,最终求出“Spark”这个单词在文件中一共出现了多少次。详细操作步骤如下:
(1)启动Spark集群和Spark Shell。
(2)在SparkMaster重新开启一个命令终端,把Spark安装目录下的“README.md”文件复制到HDFS系统的data文件目录下。

此时查看一下Web控制台,可以发现文件已经成功上传上去了(如图2-20所示):

图2-20 HDFS中保存的README.md文件
(3)在启动Spark Shell之后,会看到一个sc,这个sc指的是SparkContext,它是把代码提交到集群或者本地的通道。Spark Shell启动的时候会自动帮我们生成sc。

(4)在Spark Shell下编写代码,运行刚上传到HDFS的“README.md”文件。(https://www.xing528.com)

从执行结果中,可以看到“Spark”这个词一共出现了21次。
此时查看Spark Shell的Web控制台(如图2-21所示),可以看到我们提交了一个任务并成功完成。

图2-21 任务运行状况
单击这个完成的任务的Description选项,可以看到它执行的详细情况(如图2-22所示)。

图2-22 任务执行的详细情况
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
