首页 理论教育 泛在知识环境下图书馆的相似文章推荐技术及应用

泛在知识环境下图书馆的相似文章推荐技术及应用

时间:2023-08-08 理论教育 版权反馈
【摘要】:相似文章的推荐基于会话ID。那么程序会在置信度表中找到与i1相关的置信度大于等于0.5的文章,即i2、i3、i5,但是只取其中的两条。而后程序根据i2、i3、i5出现的频次降序排列,取其中的前两位,但i2、i3出现的频次相同,那么根据文章题名的ASCII值升序排列,因此选取i5、i2。即与《我国法院调解制度的发展与规范》相似度最高的文章有两篇,分别为《论我国大调解机制的构建》和《司法ADR与我国法院调解制度的新发展》。

泛在知识环境下图书馆的相似文章推荐技术及应用

相似文章的推荐基于会话ID。会话ID是由服务器端产生的,不同的电子资源数据库产生会话ID的标准不一致,得到的会话ID长度和内容都不一样,其重复概率几乎为零。所以会话ID具有唯一性,一个会话只能代表一个用户。那么同一会话ID中的所有文章是由一个用户产生的,对于这个用户而言,这些文章之间具有联系。

找出与某一篇文章题名关联度较强的前5位的相似文章,需要使用Apriori算法

由于会话ID和文章题名较长,直接阅读难以理解,因此此处用简单的标识替换,不影响结果:本章选用数据库中的5篇文章,分别为i1(我国法院调解制度的发展与规范)、i2(司法ADR与我国法院调解制度的新发展)、i3(司法ADR之研究)、i4(我国法院调解的定位与发展方向)、i5(论我国大调解机制的构建),这5篇文章分布于4个会话ID中,分别为t1(mvzqso450oc4j5mog2qjnx3e)、t2(oitncu45jdluarfu53d5fs45)、t3(ttwawv55rrxcquavkgqmve45)、t4(0yxactefndgavl45upgkx155)。

(1)存储同一会话事务

由相同会话ID产生的一系列事务称为同一会话事务。存储同一会话事务,就是将同一会话ID的文章题名存入数据库的过程,存储格式如表4-6。

表4-6 同一会话事务存储结果表

(续表)

(2)存储项目关联次数。

根据(1)的结果,将每个题名的出现次数统计出来,并存入数据库中,如表4-7。

表4-7 项目频次结果表

(www.xing528.com)

(3)存储项目关联次数。

根据(1)的结果,将两篇文章题名之间的关联次数计算出来,并按照降序排列存入数据库中。关联次数的计算基于会话ID,只有在同一个会话ID中出现的文章题名才有关联,比如t1这个会话ID中,用户查询了i1、i2、i3三篇文章,则这三篇文章之间具有关联性,那么计i1和i2关联一次、i1和i3关联一次、i2和i3关联一次。将所有的会话ID中具有相同文章题名的关联次数相加,便得到所有项目的关联次数,如表4-8。

表4-8 项目关联次数结果表

(4)计算置信度

根据(2)和(3)的结果,计算出置信度。比如i1i2的置信度=i1-i2关联次数/i1的频次,即2/3;而i2i1的置信度=i2-i1关联次数/i2的频次,即3/3=1。计算结果如表4-9所示。

表4-9 置信度结果表

(5)计算置信度。

假如用户点击了i1这篇文章,那么程序首先到项目关联次数表中找出与i1相关的文章题名放入内存中,即i2、i3、i4、i5这四篇文章。

而后程序会根据关联次数按照降序排列,关联次数越高,说明与文章i1的关系越强,相同的关联次数按照文章题名的ASCII(美国信息交换标准代码)值升序排列,那么内存中的文章顺序变为i2、i3、i5、i4。

最后程序根据预先设定好的置信度阈值和Web页面显示数量阈值,确定最终显示的推荐文章。这里设置置信度阈值为0.5,Web页面显示数量阈值为2。那么程序会在置信度表中找到与i1相关的置信度大于等于0.5的文章,即i2、i3、i5,但是只取其中的两条。而后程序根据i2、i3、i5出现的频次降序排列,取其中的前两位,但i2、i3出现的频次相同,那么根据文章题名的ASCII值升序排列(通过程序计算,i2的ASCII值小于i3的ASCII值),因此选取i5、i2。即与《我国法院调解制度的发展与规范》相似度最高的文章有两篇,分别为《论我国大调解机制的构建》和《司法ADR与我国法院调解制度的新发展》。

如果某用户点击了一篇文章,此文章没有和任何其他一篇文章有任何关联,那么这篇文章将不显示相关的推荐信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈