首页 理论教育 使用Spark Shell导入数据并设置日志级别为WARN

使用Spark Shell导入数据并设置日志级别为WARN

时间:2023-07-02 理论教育 版权反馈
【摘要】:为方便查看数据结果,这里设置日志级别为“WARN”,简化Spark的日志输出:2)在Spark Shell导入数据。

使用Spark Shell导入数据并设置日志级别为WARN

本节将生成模拟日志数据,记录行数为100万行,日志大小约为500 MB,然后我们需将模拟日志数据导入到Hive中,数据导入Hive的三种不同方式:

●在Hive中操作加载数据库表userLogs的数据。

●在Spark Shell中使用sqlContext操作加载数据到Hive的表userLogs中。

●使用spark-sql应用工具将数据导入hive的表userLogs。

(1)方式一:在Hive中操作加载数据库表userLogs的数据

第一步:将userLog.log文件复制到hadoop集群的本地机器的/home/hadoop/目录;

第二步:通过Hive将日志数据导入到Hive数据仓库中。

1)启动Hive MetaStore。

2)启动hive。

3)在hive表userLogs中加载测试数据。

●show databases:查询hive数据库。

●use website:使用website数据库。

●descuserLogs:查看userLogs表结构信息。

●load data local inpath/home/hadoop/userLog.loginto table userLogs:加载本地数据文件到hive数据库userLogs表中。

●select count(∗)from userLogs:查询数据库表userLogs的记录行数。

以下为相应的代码。

①在Hive中查询数据库。

②输入use website命令,使用website数据库。

③在website数据库中创建表userLogs:

④查询表userlogs的表结构。

⑤加载本地数据文件到userlogs表。

⑥查询userlogs表的记录数。

(2)方式二:在Spark Shell中使用sqlContext操作加载数据到Hive的表userLogs中。(www.xing528.com)

1)启动sparkShell。

日志中显示“Created sql context(with Hive support)”,表明sqlContext已经默认支持Hive。Spark中的日志级别对应于log4j的日志级别,优先级从高到低依次为:OFF、FATAL、ERROR、WARN、INFO、DEBUG、TRACE、ALL。为方便查看数据结果,这里设置日志级别为“WARN”,简化Spark的日志输出:

2)在Spark Shell导入数据。

●sqlContext.sql("show databases").show:查询数据库。

●sqlContext.sql("use website"):使用website数据库。

●sqlContext.sql("show tables").show:查询数据库中的表。

●sqlContext.sql("drop table userLogs"):删掉数据库中表userLogs。

●sqlContext.sql("load data local inpath/home/hadoop/userLog.loginto table userLogs"):

加载本地数据文件到数据库表userLogs中。

●sqlContext.sql("select count(∗)from userLogs").show:查询数据库表userLogs的记

录数。

(3)方式三:使用Spark-Sql应用工具将数据导入hive的表userLogs。通过Spark SQL,将数据导入到hive数据仓库中

●spark-sql:启动spark-sql应用,以下操作在spark-sql中执行。

●show databases:查询数据库。

●use website:使用数据库website。

●show tables:查询数据库表。

●drop table userLogs:删除数据表userLogs。

●create table userLogs:创建数据库表userLogs。

●load data local inpath/home/hadoop/userLog.loginto table userLogs:加载本地文件到数据库表userLogs。

●select count(∗)from userLogs:查询数据库表userLogs的记录数。

通过执行上述代码,可查询验证表userlogs中有1000000条记录。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈