【摘要】:Hadoop包含很多子项目,一般,Hadoop主要包含三个组件:Hadoop Common,HDFS以及MapReduce。Hadoop的运行需要Linux Shell支持并且需要安装SSH等相关Linux组件。准备好Linux虚拟机后,请读者参考Hadoop文档自行安装Hadoop。下面以Hadoop自带的程序包为例,在Hadoop上运行,如下所示。通过这个例子,可以看出Hadoop可以读取文件,并对单词作计数处理,把结果存放到文件中。
Hadoop包含很多子项目,一般,Hadoop主要包含三个组件:Hadoop Common,HDFS以及MapReduce。其官方网站(http://hadoop.apache.org)提供打包下载,本书使用的版本是Hadoop 0.20.2。Hadoop的运行需要Linux Shell支持并且需要安装SSH等相关Linux组件。虽然在Windows操作系统中也可以通过安装类似的软件来创建与Linux相似的工作环境,但这显然并不是Windows下程序的一般使用方式,显然Hadoop更倾向于在Linux操作系统中运行,故笔者建议读者在Linux下安装与使用Hadoop,而SSH,Linux Shell更是Linux系统默认安装的工具包。很多读者可能没有安装Linux环境,现在就是一个好机会来使用之前提到的虚拟化技术,比如利用VMware Server创建一个Linux虚拟机(参见第2章中创建虚拟机的例子)。
准备好Linux虚拟机后,请读者参考Hadoop文档自行安装Hadoop。
Hadoop的最简安装提供了一个在本地运行的例子,我们以这个例子为参考,开始Ha-doop的学习。
下面以Hadoop自带的程序包为例,在Hadoop上运行,如下所示。(www.xing528.com)
如果运行顺利的话,会得到如下结果。
通过这个例子,可以看出Hadoop可以读取文件,并对单词作计数处理,把结果存放到文件中。这个例子也是搜索中常用的功能——统计关键字并对关键字计数,最后将关键字按照出现的频率进行排序。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。