随着计算机的应用和发展,信息过滤技术从设想变为现实,并不断地完善自身的功能。在因特网日益普及的今天,信息过滤技术在因特网信息查询、个性化信息服务和网络安全的维护等方面发挥着越来越大的作用。
1958年,Luhn提出了“商业智能机器”的设想[1]。在这个概念框架中,图书馆的工作人员为每个用户建立用户配置文件,然后这些配置文件被应用到一个自动文档选择系统中,系统为每个用户产生一个符合用户信息需求的新文本清单,同时记录下用户所订阅的文本用于更新用户的需求模型。虽然缩微胶片和打印机技术的发展,使得实现的物理细节有所不同,但其工作涉及了信息过滤系统的每一个方面,为信息过滤的发展奠定了有力的基础。
1969年,选择性信息分发(Selective Dissemination of Information,SDI)系统引起了人们的广泛兴趣,致使美国信息科学协会成立了选择性信息分发系统兴趣小组(SIG-SDI)。当时大多数系统都遵循Luhn模型,只有很少的系统能够自动更新用户需求模型,其他大多数仍然依靠专门的技术人员或者由用户自己维护。SDI兴起的两个主要原因是实时电子文本的可用性和用户需求模型与文本匹配计算的可实现性。
1982年3月,Denning在《美国计算机学会通讯》杂志中正式提出了“信息过滤”的概念[2],他的目的在于拓宽传统的信息生成与信息收集的讨论范围。他描述了一个信息过滤的需求例子,对于实时的电子邮件,利用过滤机制,识别出紧急邮件和一般例行邮件。他采用了一个“内容过滤器”来实现过滤。其中采用的主要技术有层次组织的邮箱、独立的私人邮箱、特殊的传输机制、阈值接收和资格验证等。
1987年,Malone等人发表了较有影响的论文[3],并且研制了系统信息透镜(Information Lens)。提出了三种信息选择模式,即认知、经济和社会模式。所谓的认知模式相当于Denning的“内容过滤器”,即基于内容的过滤;经济模式来自于Denning的“阈值接收”思想;社会模式是他最重要的贡献,目前也称之为“合作过滤”。在社会过滤系统中,信息的表示是基于以前读者对于信息的标注,通过交换信息,自动识别具有共同兴趣的团体。
1989年,在这个时期信息过滤获得了大规模的政府赞助。由美国国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)资助的消息过滤会议(Message Understanding Conference,MUC)极大地推动了信息过滤的发展。它对将信息抽取技术支持信息的选择、将自然语言处理技术引入信息过滤研究等方面进行了积极的探索。1990年,DARPA建立了TIPSTER计划,以支持许多消息过滤会议参与者的研究。(www.xing528.com)
1992年,美国国家标准和技术研究所(National Institute of Standards and Technology,NIST)与美国国防部高级研究计划局联合赞助了每年一次的国际文本检索会议——TREC会议(Text Retrieval Conference,TREC),对于文本检索和文本过滤倾注了极大的热忱[4]。TREC会议有两个基本的任务:一是类似于信息检索的Ad hoc任务,另一个是过滤(Filtering)的任务。过滤任务包括三个子任务:分流子任务(Rooting Task)、批过滤子任务(Batch Filtering Task)和自适应过滤子任务(Adaptive Filtering Task)。TREC在最近的几次会议中,着重于文本过滤的理论和技术研究以及系统测试评价方面的工作,对文本过滤的形成和发展提供了强有利的支持。
目前随着因特网的迅速发展,需求的不断增加,在信息过滤及其相关技术方面,取得了长足的进展,成为了信息产业新的增长点。Belkin和Croft阐述了“用户角色”(包括用户兴趣及兴趣表示)在信息过滤系统中的地位及其在交互中的作用;Lam等人设计了个人兴趣漂移探测算法;Yang和Chute实现了基于实例和最小平方利益的线性模型文本分类器。Mosafa构造了智能信息过滤的多层次分解模型。一些信息过滤系统也相继问世,目前国外研制的一些主要信息过滤系统有:斯坦福大学的Tak W.Yah和Hector Garcia-Molina开发的基于内容的过滤系统SIFT[5]、Stevens研制的lnfoScope系统、Nichols等人研制的Tapestry系统、麻省理工学院Miller等人开发的GroupLensIs[6]和Brewer等人开发的URN系统。
信息过滤是当前国际上信息检索领域研究的热点之一。英文信息过滤的研究开展较早,人们在用户模板、信息的比较和选择、自适应学习、共享评注和文档的可视化等方面都进行了一定的研究,但仍有较大的提升空间。中文信息过滤的研究起步较晚,目前中文信息过滤和推送系统主要还是基于关键词规则的过滤,真正的文本过滤特别是自适应过滤的研究很少。这一方面是限于中文文本的表示和处理的难度,另一方面也是因为缺少适当的、有说服力的评测集和评测标准。
近些年来,以TREC会议提供的较为成熟的评测过滤系统的指标为契机,国内的中科院软件所、清华大学、复旦大学、哈工大、东北大学以及微软亚洲研究院等机构相继开展了信息过滤技术特别是面向中文的信息过滤技术的研究,积累了很多宝贵的经验,也取得了一些不错的成绩。中国科学院软件研究所阮彤提出了一种基于贝叶斯网络的信息过滤模型BMIF(BMIF描述了信息过滤的基本结构),并在BMIF定义的基础上提供了它的各种使用方法[7]。清华大学计算机科学与技术系的田范江等人对进化式信息过滤方法进行了研究[8],清华大学自动化系卢增祥等对信息过滤中用户需求的表示进行了研究,并提出了一种用固定文章集表示用户需求的新方法[9]。复旦大学的吴立德教授和黄萱菁博士等人研制的基于向量空间模型的文本过滤系统参加了2000年举行的第9次文本检索会议(TREC-9)的评测,取得了良好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%[10]。东北大学的姚天顺教授和林鸿飞博士等人进行了中文文本过滤的研究,他们提出了基于示例的中文文本过滤模型,在该模型中,用户需求采用基于示例文本的主题词表示,文本表示采用向量空间模型,需求与文本的匹配度采用向量夹角余弦来衡量[11]。
中文语言上的特殊性和其特有的复杂性、灵活性,给中文信息过滤技术的研究工作带来了较大的困难。在借鉴国外信息过滤技术成果的基础上,对中文信息过滤技术进行深入的研究并开发出适合我国国情的中文信息过滤系统成为了我国信息化进程的一种迫切需要。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。