首页 理论教育 文本挖掘与相近领域在信息内容安全中的应用

文本挖掘与相近领域在信息内容安全中的应用

时间:2023-11-23 理论教育 版权反馈
【摘要】:表2-6 自然语言处理与文本挖掘的区别2.信息检索与文本挖掘信息检索是与数据库技术并行发展多年的领域,其中以文本为对象的文本信息检索以非结构或半结构化数据为处理对象,研究大量文本的信息组织和检索问题。文本挖掘任务则与之正好相反,它需要自动发现那些IE中给定的模式。图2-8 基于IE的文本挖掘系统框架

文本挖掘与相近领域在信息内容安全中的应用

1.自然语言处理与文本挖掘的区别

文本挖掘与自然语言处理有着千丝万缕的联系,但也存在明显的不同:

(1)文本挖掘通过归纳推理发现知识,而传统的自然语言理解多采用演绎推理的方法,很少使用归纳推理方法。

(2)文本挖掘在大规模文本集而不是少数文本中发现知识,其目的不在于改善对文本的理解而是发现文本中的关系。虽然自然语言处理的两个新兴领域信息检索(Information Retrieval,IR)和信息提取(Information Extraction,IE)也是以大规模文本集为对象,但只要使用严格的演绎推理,那么就不能称为文本挖掘。主要原因是他们没有发现任何知识,只是发现符合某种约束条件的文本而不是知识本身。自然语言处理与文本挖掘的区别见表2-6。

表2-6 自然语言处理与文本挖掘的区别

978-7-111-33166-7-Chapter02-14.jpg

2.信息检索与文本挖掘

信息检索是与数据库技术并行发展多年的领域,其中以文本为对象的文本信息检索以非结构或半结构化数据为处理对象,研究大量文本的信息组织和检索问题。

文本信息检索主要发现与用户检索要求(如关键词)相关的文本。例如,基于关键词的文本检索使用相关度量计算文本与用户查询间的相关性并按相关程度高低排序获得的文档。

近年来,基于自然语言处理技术发展起来的智能检索技术包含了对歧义信息的检索处理,如“苹果”,究竟是指水果还是电脑品牌;“华人”与“中华人民共和国”的区分,这类检索通过歧义知识描述库、全文索引、上下文分析以及用户相关反馈等技术实现文本信息检索的智能化。与文本挖掘不同,智能信息检索仍然只是关注从文本集中更有效地识别和提取相关文档,而不发现任何新的信息或知识。(www.xing528.com)

3.信息提取与文本挖掘

信息提取(IE)是指提取文本集中预定义的事件或任务信息的过程,例如关于恐怖事件信息的提取,可以包括事件时间、地点、恐怖分子、受害者、恐怖分子采用的手段等。其目的在于发现文本中的结构模式。主要过程是先根据需要确定结构模式,然后从文本中提取相应的知识填进该结构模式。文本挖掘任务则与之正好相反,它需要自动发现那些IE中给定的模式。

4.文本挖掘与相关领域的交叉

虽然以上介绍的研究领域与文本挖掘存在明显的不同,但它们在某种程度上也存在交叉。最典型的交叉就是通过技术和方法的互相借鉴为各自领域提供新的有效的方法,如许多文本挖掘系统中采用的预处理方法就是最先在信息检索领域中提出并使用的。除此之外,还有其他的例子,如:

(1)基于文本挖掘的汉语词性自动标注。利用文本挖掘研究词及词性的序列模式对词性的影响是非常有新意的研究,这与人在根据上下文对词性进行判断的方法是一致的,不但根据上下文的词和词性,而且可以根据二者的组合来判断某个词的词性。国内从数据挖掘的角度对汉语文本词性标注规则的获取进行了研究。其方法是在统计语料规模较大的情况下,利用关联规则发现算法和词性标注规则。只要规则的置信度足够高,获得的规则就可以用来处理兼类词的情况。该过程完全是自动的,而获取的规则在表达上是明确的,同时又是隐含在数据中、用户不易发现的。

(2)基于信息抽取的文本挖掘。为将非结构化的自然语言文档表示成结构化形式以便直接利用传统的数据挖掘技术来进行文本挖掘。已有多种结构化方法被提出,如前面提到的文本特征表示方法就是最典型的一种。此外,随着信息抽取技术的不断发展,它在文本挖掘领域扮演着日益重要的角色。信息抽取的主要任务是从自然语言文本集中查找特别的数据段,然后将非结构化文档转化为结构化的数据库,以便更容易地理解文本。图2-8所示为基于信息抽取的文本挖掘系统框架,在这个系统中,IE模块负责在原始文本中捕获特别的数据段,并生成数据库提供给知识发现模块进一步挖掘。

978-7-111-33166-7-Chapter02-15.jpg

图2-8 基于IE的文本挖掘系统框架

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈