在现实世界中,可获取的大部分信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增长,文本挖掘已经成为信息领域的研究热点。
文本数据库中存储的数据可能是高度非结构化的,如WWW上的网页;也可能是半结构化的,如E-mail和一些XML页面;而其他的则可能是良结构化的。良结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和内容。通常,具有较好结构的文本数据库可以使用关系数据库系统来实现,而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。
文本挖掘是一个交叉的研究领域,它涉及数据挖掘、信息检索、自然语言处理、机器学习等多个领域的内容,不同的研究者从各自的研究领域出发,对文本挖掘的含义有不同的理解,具有不同应用目的的文本挖掘项目也有各自的侧重点,因此,对文本挖掘的定义也有多种,其中被普遍认可的文本挖掘的定义如下:
文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。(www.xing528.com)
直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就成为文本挖掘。
文本挖掘也称为文本数据挖掘[30]或文本知识发现[31],文本挖掘的主要目的是从非结构化文本文档中提取有趣的、重要的模式和知识。可以看成是基于数据库的数据挖掘或知识发现的扩展[32]。
文本挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘具有其独特之处,主要表现在:文档本身是半结构化或者非结构化的,无确定形式,并且缺乏机器可理解的语义,而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。