大数据的采集工具往往根据数据对象及数据类型的不同而采用不一样的工具,涉及数字对象分析、数据结构和算法模型等多个方面。其中在图情领域中占绝大多数的主要是各种各样的文本数据,文本数据的采集工具主要有IBM DB2 Intelligent Miner、SAS Enterprise Miner、SPSS Text Mining和DMC Text Filter等。
IBM DB2 Intelligent Miner采用了多种统计方法和挖掘算法,既能处理结构化数据,也能处理部分非结构化和半结构化的数据。它采用C/S结构,并且它的API提供了C++的类和方法。Intelligent Miner还提供了一整套分析数据库的挖掘过程、统计函数和查看、解释挖掘结果的可视化工具。另外,它使实时数据挖掘分析成为可能,满足了应用程序开发、配置的快速增长,使应用程序的速度更快。但是不足之处就是连接DB2以外的数据库时需要安装DataJoiner作为中间软件。
SAS Enterprise Miner不但支持SAS统计模块,并且还通过大量的数据挖掘算法进行了增强。另外,它的GUI界面是数据流驱动,易于理解和使用,且支持多种模型。它也是采用C/S模式,并允许把服务器配置成一个数据服务器、计算服务器或两者的综合。它是一个提供包括关联、聚类、决策树、神经元网络和统计回归在内的广阔模型的数据挖掘工具。(www.xing528.com)
SPSS Text Mining是世界上最早的统计分析软件,是一款用于统计学分析、数据挖掘、预测分析和决策,支持多任务的软件产品及相关服务的总称。它操作简单、界面友好、输出的结果美观漂亮,并且能够读取并输出多种格式的文件。
DMC Text Filter是纯文本抽出通用程序库产品,可以从各种各样的文档格式的数据中,完全除掉特殊控制信息,快速抽取文本数据信息,便于用户实现对多种文档数据资源进行统一管理、编辑、检索和浏览。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。