首页 理论教育 综合集成法指导的新闻信息处理技术

综合集成法指导的新闻信息处理技术

时间:2023-11-23 理论教育 版权反馈
【摘要】:和新闻分析技术密切相关的几项研究是信息检索、信息抽取、信息过滤和自然语言处理相关问题,它们之间既相互关联,又存在着一定的差异。下文以信息检索和自然语言处理两部分为例,来说明综合集成方法对新闻信息处理的指导作用。目前信息检索技术主要分三类,全文检索技术,分类查询技术,以及最近刚刚提出的概念检索技术。

综合集成法指导的新闻信息处理技术

新闻信息分析是系统工程领域中一个新的研究方向,已经成为一门专门的边缘性交叉学科,涉及语言学、数学和计算机学,横跨文科、理科和工科三大知识领域。它是信息检索和信息过滤等技术发展的共同产物,但同时又具有自身的特点而和这些技术存在一定的区别,它们有着共同的目标,就是按照用户模板提供给用户最有价值的信息,并帮助用户节省时间。和新闻分析技术密切相关的几项研究是信息检索、信息抽取、信息过滤和自然语言处理相关问题,它们之间既相互关联,又存在着一定的差异。下文以信息检索和自然语言处理两部分为例,来说明综合集成方法对新闻信息处理的指导作用。

1.利用综合集成法对信息检索相关技术进行改进

信息检索是网络应用及研究的一个重要方面。而且搜索引擎本身就是人机结合以人为主的体现。一般是通过人输入的关键词为基准进行检索。这个过程是由人的智慧参与的。首先由人通过自身需求总结得到一个关键词,然后输入搜索引擎从而得到他需要的相关答案。如果他对答案不满意,则会继续修改关键词,直到得到必要的答案为止。人在这个过程中起到了最关键的作用。下面做进一步的说明。

目前信息检索技术主要分三类,全文检索技术,分类查询技术,以及最近刚刚提出的概念检索技术。

全文检索技术是通过在全文中检索关键字串来查询信息的。这种关键字的机械式的匹配,其固有的缺点是参与匹配的只有字的外在表现形式,而非它们所表达的概念语义,因此常出现答非所问、检索不全的结果。查询结果完全依赖于用户给出的关键字,系统和用户之间并无进一步的交互,也是造成检索效果比较差的原因之一。

主题分类查询实现查询的关键是对网页进行分类。对网页分类的方法主要有两种:一种是自动分类,另一种是手工分类,二者各有利弊。自动分类的优点是处理数据的速度快,可迅速对大量网页进行分类,缺点是需要事先有一个有标记的训练集才能训练出自动分类器,而这个训练集需要有大量的人力才能建立;手工分类的优点是分类的准确率高,缺点是需要大量的人力才能建立和维护一个大型的分类查询系统。

信息检索实质上是语义检索,而传统的信息检索模型都是基于词索引。事实是,独立的字、词集合不能完全、准确地反映文档和查询语义。因此,改善传统信息检索系统性能的一个途径就是让用户根据文本的概念主题或者说语义来进行信息检索。概念检索的主要内容包括两个方面,即同义词扩展检索和相关概念联想检索。前者能够提高检索的查准率,而后者能够加强系统与人的交互,使其具有一定程度的智能。概念检索的实现方法多种多样,可采用人工智能中的专家系统的构造技术,通过创建专家知识库实现特定领域的概念检索。知识库本身实际上是形成了一个概念空间语义网络。然而因为人的知识、特别是常识性知识数量上的浩瀚无际,在质量上又有高度的不确定性和模糊性,要建立一个知识网络是极端困难的。但是我们可以通过求解目标的方法,针对具体的搜索引擎需求,建立相应的知识库(或称概念库),这里的知识库是对因特网的一种近似,一种局部实现。针对某一领域、甚至某一站点所有网页所反映的知识来构造一个局部的小知识库是相对容易实现的。它的知识在数量和质量上虽然不能与理想的因特网相比,对具体搜索任务却是实用的,知识库里的知识还可以使用中不断改进,数量上不断增加,质量上不断提高。这就使基于知识库或概念库的检索方法具有了可行性和可研究性,知识库的建立可以通过人来完成,也可以使用机器学习等手段来实现。但其中都需要人的参与,而且人起到决定性的作用。

从信息检索相关技术方面。信息检索核心技术包括文本预处理、索引、排序、自动文摘、个性化等。这些技术都是在无形之中应用到了系统学的方法。例如排序基于动力学特点,通过挖掘链接中隐藏的信息,将其看作一个民主投票的过程,根据网页被链接次数进行加权计分,从而进行网页排序,著名的HITS和PAGERANK都是基于这种方法。而现在的排序多借助于自然语言理解来处理检索结果的内容,从而得到排序结果。自然语言处理多为基于规则的方法,即定性分析。并结合一些定量分析,例如借助于TF×IDF方法进行排序优化,而且用户点击也可使得网页排名靠前,在搜索引擎中,当用户给出查询并得到一个返回结果列表之后,绝大多数的情况下他们都是扫描一下前面几个条目的摘要,感觉有他需要的内容,则点击对应的链接,去阅读网页全文。对来自于不同用户的同一个查询词来说,若某个链接虽然在返回结果表上出现的位置不太靠前,但被选取点击的次数比较多,于是系统应该感到该链接是比较受欢迎的,其位置应该往前调。这些都是人机结合产生的定性与定量结合的结果,比原始的仅仅借助定量计算产生的结果更加符合人的要求。因而人与网络的交互是影响信息检索性能的一个重要因素。

信息检索结果处理方面,现在的查询结果完全依赖于用户给出的关键字,系统和用户之间并无进一步的交互,这是造成检索效果比较差的原因之一。这也是信息检索的一个难题——个性化问题。即在综合集成思想下,实现检索系统与用户之间的交互,从而提高检索性能。现在运用人机交互的方式比较繁琐,大多是在人提出问题之后,计算机根据已存储的信息对用户返回一系列的问题,例如:用户查询词为“苹果”,检索系统返回查询相关问题“电脑?”、“水果?”,然后用户根据自己需求回答这些问题,从而帮助检索系统检索他们需要的答案。这些繁琐的工作,浪费了大量的人力和时间。而如果采用基于智能Agent的综合集成思想[6],这个问题就很容易可以得到解决。智能Agent是一类在特定环境下能感知环境,并能灵活自主的运行以实现一系列设计目标的,自主的计算实体或程序。智能Agent作为自主的个体在一定的目标驱动下并具有某种对其自身行为和内部状态的自我控制能力,能够不受人或者其他智能Agent的直接干预,并尽可能准确的理解用户的真实意图,包括帮助用户方便准确的描述和表达任务意图,采取各种由目标驱动的,积极主动的行为如社交、学习、推理、合作等,感知、适应并运行于复杂和不断变化的动态环境,有效地利用环境中各种可能利用数据、知识、信息和计算资源,为用户提供迅捷、准确和满意的帮助。智能Agent具有自主性、社会性、反应性、主动性等特性,这使它表现出类似人的特征,而这为计算机科学与人工智能所面临的复杂问题的求解提供了新的途径。因而我们可以利用智能Agent的相关属性,设计开发适合用于信息检索性能改进的智能A-gent系统,利用其来模拟人的工作,既节省了人力又提高了系统性能。基于智能Agent的检索系统,可以根据已经记录的用户的相关信息,比如研究领域,兴趣爱好,用户日志等信息,自动与检索系统进行交互,并从检索结果中选择比较符合要求的结果项返回给用户。这样不仅提高了检索结果的相关度,而且为用户节省了更多的时间。基于关键词的信息检索示意图如图8-1所示,基于智能Agent的搜索引擎的流程图如图8-2所示。(www.xing528.com)

978-7-111-33166-7-Chapter08-1.jpg

图8-1 基于关键词的信息检索示意图

978-7-111-33166-7-Chapter08-2.jpg

图8-2 基于智能Agent的搜索引擎的流程图

个性化是信息检索技术中最能体现以人为中心这个思想的一项技术,但是这项技术却至今没有取得很好的进步。原因之一是大多数的方法没有真正的做到以人为中心。现在的个性化技术主要是由搜索引擎根据用户搜索的历史记录,来返回更适合这个用户的搜索结果。这些搜索历史记录包括用户所搜索的关键词,在搜索结果中的点击情况,在各个网站的访问情况,书签情况等。但是个性化搜索存在一个很大的疑虑就是隐私权问题,要想返回有针对性的结果,搜索引擎就必然要记录更多用户信息。一旦搜索记录泄漏便会造成隐私权危险。而基于智能Agent的搜索系统会很好的解决这点。用户有用的信息是存储于智能Agent客户端的,每次检索时,由智能Agent跟搜索引擎进行交互,并由智能Agent根据存在于其上的用户的信息调整检索词,在保证用户信息安全的同时达到满足用户检索需求的目的。

2.利用综合集成法对自然语言处理相关问题进行研究

新闻信息分析实质上是语义分析,其主要技术的研究越来越多的借助于基于自然语言处理的内容分析。例如信息抽取,社会网络抽取,自动文摘,分类、聚类,信息内容安全研究等。自然语言处理,顾名思义就是让计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命浪潮中占有十分重要的地位。自然语言理解是一门新兴的边缘学科,内容涉及语言学、心理学逻辑学、声学、数学和计算机科学,而以语言学为基础。目前已经存在有各种类型的语言计算模型,如分析模型、概率统计模型、混合模型等,这些模型各具特色,并存在其自身的局限性。不管这些模型表现形式是如何不同,但他们的本质都是相同的,都是要模拟人的进行语言理解时的过程。因而只有采取以人为主的思想才能得到比较理想的效果。而在现实应用研究中都已经无形中加入了综合集成的思想。从计算的角度看,自然语言处理是一个强不适定问题,因此简单的建模方法,无论是确定性的,还是不确定性的都无法解决其全部。根据不适定问题的求解原理,只有通过提供大量的“约束”(包括知识,经验等),才能使之成为适定性的、可解的问题。因此出路是通过计算机科学、语言学、心理学、认知科学和人工智能等多学科的通力合作,将人类认知的威力与计算机的计算能力结合起来,才可能提供丰富的“约束”[7],从而解决自然语言处理的难题,即采用定性与定量相结合的综合集成法。例如基于规则的统计方法,这是近年来在自然语言处理某些领域中比较热门的方法,这种方法一般是通过用户指定特征或者规则,利用机器学习的方法进行对问题的分析。特征规则的制订过程通常是一个人工的过程,由人根据经验或者需要制订。之后的机器学习则主要是利用计算机进行定量的计算,根据某些值对问题进行分析。自然语言处理的其他方法也是如此。而且这些工作都是为了服务于人的,在以后的工作中,应该一直采纳综合集成的思想,贯彻以人为中心的原则,才会取得更大的进步。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈