首页 理论教育 概率推理模型:面向信息内容安全的新闻信息过滤技术

概率推理模型:面向信息内容安全的新闻信息过滤技术

时间:2023-11-23 理论教育 版权反馈
【摘要】:概率推理模型通过计算文档和用户请求的页面之间的相似性来进行信息过滤的。

概率推理模型:面向信息内容安全的新闻信息过滤技术

信息过滤就是根据用户的信息需求,在动态信息流中,搜索用户感兴趣的信息,屏蔽无用和不良的信息。信息过滤技术是以一种系统化的方法,将用户需求与动态信息流进行匹配计算,从信息流中抽取出符合用户个性化需求的信息并将其传送给用户。信息过滤的原理如图3-1所示。

信息过滤的主要步骤如下:

1.构建用户需求模板

(1)用户信息需求的获取。按照用户需求获取主动方的不同可分为三种情况:一是用户通过主动填写感兴趣的关键词的方式表达信息需求。其优点是简单、经济,系统开销小;缺点在于加重了用户的负担,用户信息需求不清晰影响过滤的准确性,不能保证服务的及时性和有效性。二是通过用户对所提供信息的显式评价来获取用户兴趣,即通过显式反馈学习方法分析用户需求,这类方法能避免用户选取关键词的困难,能够更有效地表达用户潜在的信息需求。三是在用户没有明确参与的情况下,系统通过跟踪用户行为得到用户的兴趣,即通过隐式反馈来学习用户的兴趣。系统跟踪用户的各种行为,并对于用户的不同行为赋予不同的权重,从而判断用户对哪些文献真正感兴趣,在此基础上建立用户模板。

978-7-111-33166-7-Chapter03-1.jpg

图3-1 信息过滤的原理

(2)用户需求模板的描述。用户需求模板可以用关键词、规则或分类的方法来描述,一般说来,用户需求模板的描述与网络信息文档的描述、匹配算法是紧密联系的,每一个用户需求模板都可以看做是一个信息文档,通过一定的形式组织起来存放在客户端、代理端或者服务器端

2.描述网络信息文档

(1)布尔模型(Boolean Logical Model)。布尔模型是根据关键词之间的关系,利用布尔运算符描述文档特征的方法。

(2)向量空间模型(Vector Space Model)。在向量空间模型中,以特征项(由字、词或短语组成)作为描述文档的基本单位,文档被定义为一系列特征项的集合。每个文档可以用一个向量来表示,向量的维数就是特征项的个数,从而将文档信息的表示与匹配转化为空间向量的表示与匹配问题。根据空间向量的特性,两个文档之间的相似度可以用两个向量之间的夹角来度量,夹角越小说明相似度越大。

(3)概率推理模型(Probabilistic Inferential Model)。概率推理模型通过计算文档和用户请求的页面之间的相似性来进行信息过滤的。

3.匹配算法(www.xing528.com)

匹配算法和用户需求模板描述方法、信息的揭示方法是相互关联的,常见的匹配算法有布尔模型、向量空间模型、概率模型、聚类模型等,主要任务是过滤不相关的信息,选取相关的信息并按相关性的大小提供给用户。

当用户要访问网络信息文档时,信息过滤系统会运用相应的匹配算法比较用户需求模板与信息文档。现有的系统一般采用关键词、规则或分类的方法描述用户的信息需求,描述方法不同,匹配算法也不同。例如对于采用关键词描述的系统,适合用布尔模型、向量空间模型或概率推理模型等进行匹配;对于采用规则描述的系统,可以通过规则推算出用户虽然没有浏览过但可能会感兴趣的信息;对于采用分类描述的系统,可以用自动分类的方法如:TFIDF分类器和Bay分类器等进行匹配。

4.反馈机制

反馈模块主要用于处理用户的反馈信息并依据反馈信息进一步精化用户模型,并保存以便下一次用户注册登录时直接读取到精化后的模型。用户对返回的文档集进行评估,由系统根据这些反馈信息进一步修改用户感兴趣的文件,以利于下一次的过滤。

由于用户的信息需求有一个逐渐明确的过程,而且处于动态变化过滤中,因此必须通过一定的反馈机制跟踪用户需求的变化,及时调整用户需求模板,这便是用户需求模板的学习过程。在信息过滤系统中,学习的主要方式有:

(1)直接学习。用户根据过滤的结果直接修改需求模板,如增加关键词、补充一些规则等,这是在现有技术条件下最为有效的一种学习方法。

(2)半直接学习。系统根据用户对过滤结果的评价调整需求模板。

(3)间接学习。系统不要求用户提供信息,而从用户的浏览行为中收集信息。

(4)协作学习。把具有相同或相似兴趣的用户组成一组,其中每个成员需求的变化都可以对其他成员起着推荐作用。

除了上面介绍的方法外,国内外学者也不断推出新方法,如将人工智能和机器学习的方法引入到信息过滤中,通过遗传算法神经网络方法、最近相邻方法(KNN)和支持向量机(SVM)等方法,用于判断用户信息需求与文档的相似性,动态地反馈用户需求的变化,提高过滤的效率

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈