交互式工具的启动方式

时间：2023-06-25 理论教育版权反馈

【摘要】：Spark 1.3版本在交互式工具spark-shell启动后，自动构建了这两个实例，通常用SparkContext代表Driver Program。图2.4Driver Program监控界面其中，driverhost为交互式工具启动节点的hostname。

交互式工具的启动方式

一、交互式工具的启动

进入Spark部署目录，基于单机模式启动spark-shell应用，在命令行提示符$后面输入命令./bin/spark-shell--master。如下所示：

之后出现如下信息，这些信息中包含了交互式工具运行的环境信息（如是否带Hive等）以及预构建的一些实例（如预构建的SparkContext和SQLContext实例等）：

最后会生成SparkContext和SQLContext两个实例，这两个实例对应的名称分别为sc和sqlContext。Spark 1.3版本在交互式工具spark-shell启动后，自动构建了这两个实例，通常用SparkContext代表Driver Program。

在实例中将直接使用sqlContext进行操作，生成SparkContext和SQLContext两个实例见下面日志信息：

回车后就可以进入Spark应用程序的交互式界面，可以进行Spark应用程序的交互式开发、调试了。交互式界面上，输入命令的提示以scala>开头，执行输入的命令后会给出命令执行的日志和反馈信息。

当前交互式工具spark-shell使用了默认值--deploy-mode，即以客户端（Client）部署模式启动，因此，启动的Driver Program在提交节点上运行。通过启动节点的http：//driv-er：4040地址可以打开Driver的Web Interface界面。

二、交互式工具的多次启动

（一）在Spark 1.3之前的版本

在Spark1.3之前的版本时，若要在相同节点上启动多个Spark应用程序时（特指部署模式为“Client”的情况下，Spark应用程序的Driver Program在启动节点上运行），比如用交互式工具的方式多次启动Spark应用程序时，系统会报以下错误，如图2.3所示：

这种情况下，后启动的Spark应用程序的Driver仍然使用了默认的4040端口，以致启动时地址被占用，进而最终Spark应用程序启动失败。

对应的解决方法如下：

1.查看代码：SparkUI.scala

图2.3 Driver Program启动时地址被占用的界面

2.修改配置，添加spark.ui.port属性。如提交时，添加：--conf＂spark.ui.port＂=4041即可。

注意：Spark的属性配置可以通过三种方式进行设置：

1）可以在程序部署时的提交命令的--conf选项中通过设置Spark的配置文件（如conf/spark-defalut.conf）进行设置。

2）可以在Spark的环境变量文件中的java启动选项（如在conf/spark-env.sh文件中的环境变量Spark_DAEMON_JAVA_OPTS）里添加Spark的属性配置。

3）可以通过指定配置文件等方式进行设置。

如果spark.ui.port的值设置为0，系统就会随机选取一个端口号。参考源码：java.net.ServerSocket：ServerSocket对象的绑定端口为0，getLocalPort方法返回一个随机的端口（这类端口被称为匿名端口）。

（二）Spark 1.3版本

Spark1.3版本可在一个节点上多次启动Spark应用程序，如多次运行交互式工具spark-shell。具体方式是，Spark1.3在已启动应用程序的计算机上再次启动应用时，如果启动应用的命令没有指定Driver Progam的Web Interface的端口号的话，启动的应用会先从默认的端口4040开始启动，由于该端口已经被占用，因此首次启动时会报错，如下面的日志所示：