学科热门文章的推荐基于文章的分类号。ERU系统在采集数据时,已将100多个数据库中所有文章(包括中文和英文)的分类号映射为中图法分类号,若分类号字段为空则归为“其他”类。因此,以文章分类号为基础,找出学科热门文章适用于具有分类号的中、英文文章。
实现学科热门文章推荐功能,按照学科二级大类统计每一类访问量排在前5位的学科热门文章,需要使用词频分析方法,步骤如下。
(1)分类入库并频次计算。
分类入库,指的是将待分析数据的题名和分类号字段,按照中图法二级大类,放入对应的表中并进行映射处理,若分类号字段为空的归为“其他”类。如果一篇文章同时属于多个分类,那么应该在相应的二级分类数据库表中各放一份,例如《论资本维持原则和公司资产的保护》这篇文章,它的二级分类有两个,分别为“D9”和“F8”,那么在D9类和F8类访问记录表中均应存在。数据分类入库,可以提升Web页面动态获取统计数据的效率,缩短响应时间。如果直接从待分析数据中进行统计,多个用户并发访问时,会大大加重服务器负担,容易造成服务器的崩溃。
频次计算是程序根据各类访问记录表中的题名字段,在后台对数据库进行group by(分组)操作,按照降序从多到少排列出每个类别文章题名的访问次数。
分类入库和频次计算后的D9和F8类数据库表结构如表4-3、表4-4。
表4-3 D9类访问记录表(部分)(www.xing528.com)
表4-4 F8类访问记录表(部分)
(2)判断并展示。
根据步骤(1)的结果,当用户点击了《论资本维持原则和公司资产的保护》这篇文章时,程序会根据此文章所属类别去访问相应的数据库访问记录表,并发起group by操作,计算出最新的频次统计结果,后综合考虑频次和类别因素,按照频次(降序)→分类号(升序)→题名(升序)的判断流程对结果进行排序,选出符合某频次阈值条件的文章,这里选取的阈值为9,那么频次大于等于9的文章都会被显示出来,如表4-5。
表4-5 统计结果表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。