需要将Flume 安装到每台使用此功能的机器上。
(1)安装软件准备
①Java 运行环境,Java 1.8 或者更高版本。
②具有充分大的内存和磁盘空间的机器。
③分配读写权限。
④Linux 运行环境。
(2)安装相关软件
1)安装JDK
下载JDK 之后解压在相关目录下面。安装JDK 之后,然后右键单击“我的电脑”,在快捷菜单中单击“属性”后,在出现的页面中找到“高级系统设置”并单击,进入“系统属性”对话框,单击“环境变量”,找到原本就有的Path 变量单击“编辑”,然后更改Path 变量值,直接添加“D:\jdk\bin;”。更改完成后测试:单击“开始”按钮,在搜索文件框中输“CMD”,进入Dos 对话框,键入“java -version”,可以查看到当前JDK 的版本信息。
2)安装Flume
从官方网站上下载最新的二进制包,因本安装示例采用的Flume 为1.6.0 版本,所以下载的安装文件为“apache-flume-1.6.0-bin.tar.gz”。
①将文件上传至服务器上,进行解压操作。
②修改配置文件。
②修改配置文件。
③在“flume-env.sh”配置文件中,新增如下的配置参数。
③在“flume-env.sh”配置文件中,新增如下的配置参数。
④通过查看Flume 版本信息,验证安装是否成功。
④通过查看Flume 版本信息,验证安装是否成功。
注意:所有Flume 服务器均需要完成上述安装配置。
3)配置Flume
①Agent 配置
注意:所有Flume 服务器均需要完成上述安装配置。
3)配置Flume
①Agent 配置
在此文件中,配置如下:
在此文件中,配置如下:
②Collector 配置(www.xing528.com)
②Collector 配置
在此文件中,配置如下:
在此文件中,配置如下:
重要参数解释:
“hdfs.rollSize = 100000 #”:每10 KB 滚动生成一个新的文件,“0”表示不基于文件大小滚动。
“hdfs.rollInterval = 0 #”:基于时间滚动生成新文件,“0”表示不基于时间(s)滚动。
“hdfs.idleTimeout=300 #”:300 s 后这个文件还没有被写满数据,就会关闭它。
“hdfs.batchSize = 10 #”:批量提交大小,10 次提交才写文件。
4)启动Flume
通过如下语句,启动Agent 服务。
重要参数解释:
“hdfs.rollSize = 100000 #”:每10 KB 滚动生成一个新的文件,“0”表示不基于文件大小滚动。
“hdfs.rollInterval = 0 #”:基于时间滚动生成新文件,“0”表示不基于时间(s)滚动。
“hdfs.idleTimeout=300 #”:300 s 后这个文件还没有被写满数据,就会关闭它。
“hdfs.batchSize = 10 #”:批量提交大小,10 次提交才写文件。
4)启动Flume
通过如下语句,启动Agent 服务。
通过如下语句,启动Collector 服务。
通过如下语句,启动Collector 服务。
每一个Flume 服务称为一个Agent。
5)查看HDFS 输出文件
查看HDFS 输出文件,下载日志文件,并查看日志目录。
每一个Flume 服务称为一个Agent。
5)查看HDFS 输出文件
查看HDFS 输出文件,下载日志文件,并查看日志目录。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。