首页 理论教育 Mahout测试-优化你的大数据算法

Mahout测试-优化你的大数据算法

更新时间:2025-01-09 工作计划 版权反馈
【摘要】:终端执行shell命令:mahout-help,检查Mahout是否安装完好,是否列出了一些算法。1)进入官网下载文件synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下,下载地址为http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data。2)建立输入文件的目录testdata,要想测试mahout自带的kmeans的例子,输入数据的目录名称必须为testdata。并将synthetic_control.data上传到HDFS上。hadoop jar/usr/local/hadoop/mahout-distribution-0.9/mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job4)查看结果。因此,可通过mahout clusterdump查看kmeans算法输出结果。

(1)启动hadoop:$HADOOP_HOME/bin/start-all.sh。

(2)终端执行shell命令:mahout-help,检查Mahout是否安装完好,是否列出了一些算法。

(3)测试Kmeans算法。

1)进入官网下载文件synthetic_control.data,并把这个文件放在$MAHOUT_HOME目录下,下载地址为http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data。

2)建立输入文件的目录testdata,要想测试mahout自带的kmeans的例子,输入数据的目录名称必须为testdata。并将synthetic_control.data上传到HDFS上。

1.hadoop fs-mkdir testdata

2.hadoop fs-put/usr/local/hadoop/synthetic_control.data testdata

3)终端执行kmeans算法。

hadoop jar/usr/local/hadoop/mahout-distribution-0.9/mahout-examples-0.

9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

4)查看结果。(www.xing528.com)

hadoop fs-cat/user/xuhui/output/data/part-m-00000

注意:直接通过hadoop fs-cat方式查看的话,会出现乱码,mahout的最新版本查看结果的方式是通过下面三种方式:

①mahout seqdumper:将SequenceFile文件转成可读的文本形式;

②mahout vectordump:将向量文件转成可读的文本形式;

③mahout clusterdump:分析最后聚类的输出结果。

因此,可通过mahout clusterdump查看kmeans算法输出结果。

mahout clusterdump--input/user/hadoop/output/data/part-m-00000--

output kmeans_result.txt

其中,--inpput表示的是输入参数;--output表示的是转化成本地可读的文件。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈