文本自动过滤技术是信息检索领域的重要研究课题,在大规模文本信息处理中具有很重要的意义。从信息处理的角度上看,文本过滤有如下几个应用领域[6]:
(1)提供选择性信息服务的企事业单位可以根据用户的信息需求过滤新闻信息,并且把用户可能感兴趣的内容发送给用户。这类似于图书馆和科技情报机构等提供的定题服务。
(2)在档案管理领域,文本过滤系统可自动地确定档案所属的类别。
(3)对终端用户而言,可以用具有文本过滤功能的代理程序来接收原始文本流(如E-mail和Newsgroup),并从中选择用户可能感兴趣的内容。
(4)研究与开发具有自主版权的信息过滤系统,对于提高我国的网络和人工智能的研究和应用水平、保障国家信息安全、促进因特网技术在我国的健康发展也有着重要的意义。
文本过滤随着计算机应用的发展而从设想成为现实,并不断地完善自身的功能,经历了很长的发展时期,并在因特网日益普及的今天,在信息发掘方面发挥着越来越大的作用[24,25]。
1958年,Luhn提出了“商业智能机器”的设想,在这个概念框架中,图书馆工作人员建立了每个用户的需求模型,然后通过精确匹配的文本选择方法,为每个用户产生一个符合用户信息需求的新文本清单。这个设想为文本过滤的发展提供了有效的启发。
1969年,美国信息科学协会进行了对SDI(Selective Dissemination of Informa-tion,选择性信息分发系统)的研究。但是研究大都遵循Luhn模型,只有很少的系统能够自动更新用户需求模型,其他大多数系统仍然依靠专门的技术人员或者由用户自己维护。SDI兴起的两个主要的原因是实时电子文本的可用性和用户需求模型与文本匹配计算的可实现性。(www.xing528.com)
1982年,Denning提出了“信息过滤”的概念,他的目的在于拓宽传统的信息生成与信息收集的讨论范围。他描述了一个信息过滤的需求的例子,对于实时的电子邮件,利用过滤机制,识别出紧急的邮件和一般例行邮件。他采用了一个“内容过滤器”来实现过滤。其中采用的主要技术有层次组织的邮箱、独立的私人邮箱、特殊的传输机制、阈值接收、资格验证等。
1987年,Malone等人发表较有影响的论文,并且研制了系统“Information Lens”。提出了三种信息选择模式,即认知、经济、社会。所谓的认知模式相当于Denning的“内容过滤器”,即基于内容的过滤(Content-based Filtering);经济模式来自于Denning的“阈值接收”思想;社会模式是他最重要的贡献,目前也称为“合作过滤”。在社会过滤中,文本的表示是基于以前读者对于文本的标注,通过交换信息,自动识别具有共同兴趣的团体。
1989年,信息过滤获得了大规模的政府赞助。由美国DARPA资助的“Mes-sage Understanding Conference”,极大地推动了信息过滤的发展。他将信息抽取技术用于信息的选择,在将自然语言处理技术引入文本过滤研究方面进行了积极的探索。1990年,DARPA建立了TIPSTER计划,目的在于利用统计技术进行消息预选,然后再进行复杂的自然语言处理,这个文本预选过程称之为“文本检测”。
20世纪90年代以来,情况有了很大的改变,著名的文本检索会议(Text Re-trieval Conference,TREC)和主题检测和跟踪会议(Topic Detection and Tracking,TDT)都把文本过滤作为主要研究内容之一,这就在很大程度上促进了文本过滤的发展。下面将着重介绍文本检索会议及其在文本过滤方面所做的工作。
文本检索会议,是由美国国家标准和技术局(National Institute of Standards and Technology,NIST)和国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)组织召开的一年一度的国际会议,从1992年至今已经召开了12次,是文本检索领域最权威的国际会议之一,代表了当今世界文本检索领域的最高水平。
TREC会议的宗旨主要有三条:通过提供规范的大规模语料(GB级)和对文本检索系统性能的客观、公正的评测,来促进技术的交流、发展和产业化;促进政府部门、学术界、工业界间的交流和合作,加速技术的产业化;发展对文本检索系统的评测技术。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。