社会化因素成为个性化推荐的一部分是因为用户根据共同的兴趣自发进入一定的社会领域。在为用户提供个性化推荐服务时需要解决的两个首要问题是如何构建社会属性类别和识别用户的社会属性。前者可以通过考虑用户的基本认知情况以及文献自有类别的专业性,集合用户自建的文献组织结构,对文献建立适合大众的主题集合(即主题云)来构建文献的社会化属性类别,后者可以通过分析用户的研究兴趣来获得用户的社会归属情况。在获得对应的社会领域后,我们的思路是利用对专业学术网络的分析向用户推荐该主题下有影响力的文献。
(1)在线构建文献主题云和文献归类
尽管科技文献存在专业的分类方式,但是由于在科学研究过程中,学科之间不断融合,进行交叉研究的趋势逐渐明显,以往只适用于某一学科的知识随着领域交汇可能为其他学科所用。从读者的研究角度出发为文献分类可以体现学科交叉研究的特点。
①识别主题类别。
用户凭借自己的知识在文献管理器中将文献归类,分层管理的学习单元、文献夹名称等区域显示用户主题认知的信息。收集所有用户的主题结构数据形成主题标签云。
由于用户的认知、关注点以及文字描述的差异等造成的同一主题不同名称的情形需要根据经验按照领域知识来构建共享的概念模型,可以采用本体的方法来构建。基于Guarino和Giaretta[35]所给的概念,本体被定义为知识领域的概念,它的组成元素(例如实体、属性、关系和定理)能够以人类理解并且机器能够翻译的方式来表达。此外,Hendler同样给出本体的描述[36]:本体被认为是知识名词(包含词汇、语义互连、一些简单规则的推理和一些特殊主体的逻辑)的组合。按照Hendler的定义,实体间的关系同样有丰富的语义解释能力。所以,在利用集体智慧进行主题构建时,先利用本体Agent的方法建立人类与应用系统相互作用的统一的概念框架,进行规范化描述,然后将相同语义的对象纳入同一种表述中,建立层次化的主题结构模型。
不同层次的主题描述都可以作为文献类别放入主题云中。例如,存在包含多个子类型的复合式的主题结构A=(a1,a2,a3,…,an)。显然如果用户对A感兴趣,那么应综合其所有子类型主题下的信息进行推荐,而如果用户的研究兴趣非常深入,就需要更加细化的识别主题,不仅要识别主题A,而且要能够识别用户对何种具体的类别感兴趣,然后进行相应的文献推荐。可以设置子类别优先推荐的方式来保证推荐的主题深度。
②文献归类。
统计所有用户对文献的组织情况来获得文献的主题类别。本节通过主题下文献出现的次数与文献可能出现的最多次数的比值来衡量文献在主题中的重要性,作为文献归属判断的依据。设m位用户关注某一主题,该主题下文献d出现的次数为cd,则文献d属于该主题的概率如公式(6-1)所示:
其中,pd∈[0,1]。显然,如果关注该主题的m位用户都认为文献d属于该主题,那么pd=1。在获得文献的社会属性后,往往需要对边缘的文献进行过滤,去除由于用户的认知偏差造成的文献被不适当归类的情况。一般可以通过设定阈值δ确定文献的归属状况,见公式(6-2):
随着用户对文献信息的更新,需要对主题云和文献类别进行更新,例如当主题中某文献出现的次数达到一定的阈值时进行更新或者定期进行更新。
(2)用户主题偏好识别
个性化推荐的核心思想是计算用户与对象之间的相似性,寻找共通的因素来运用知识规则产生推荐。这里以基于内容的个性化推荐方法作为例子来构建用户主题偏好识别的模型。用户主题偏好识别方法采用信息检索领域经典的TF-IDF方法[37]分别对用户的偏好类型和主题构建配置文件,再根据配置文件中的关键词计算两者的匹配度,识别用户潜在的主题偏好。
①用户偏好类型和主题特征描述。
a.用户偏好文献提取。
文献管理软件中用户阅读文献所留下的记录越多,则表示用户越偏爱该文献。针对用户不同的行为类型,根据重要性程度统一设置对应的权重参数,通过量化这些行为来描述用户对文献的偏好程度。设用户u阅读的行为类型集合为A,行为类型aj∈A,相应的行为类型的次数为caj,类型权重为waj,则对于文献集合D=<d1,d2,…,di,…,dz>,用户u对文献di的偏好程度可以通过公式(6-3)[38]计算:
为了消除文章因难易程度不同而对用户u形成的影响,公式(6-3)对用户的阅读行为进行了归一化处理。公式(6-4)中tdi表示用户u阅读文献di的总时间。由于一篇文献可能多次被阅读,表示第k次阅读时文献被关闭的时间点,表示第k次阅读时文献被打开的时间点,n为阅读该文献的总次数。
将所有文献的被偏好程度按照降序排列,根据阈值或者Top-N的方式选择用户偏好的文献集合D=<d1,d2,…,dl>。每位用户偏好的文献集合代表一种偏好类型,所以用户与偏好类型是一一对应的关系。
另外,为了反映用户对偏好类型喜好的整体水平,这里用偏好文献集合中所有偏好值的平均值来表示,所以用户ui对其偏好类型pi的偏好程度为:
其中l表示用户偏好的文献集合中的文献的数目。
b.偏好类型的特征表示和主题的特征表示。(www.xing528.com)
词频—反转文件频率(Term Frequency-Inverse Document Frequency,TFIDF)方法经常被用于分析用户感兴趣的文献,是建立或更新用户配置文件的常用方法。其中关键的技术是特征选取,即要求表征对象的关键词最好且数量最少。然后利用TF-IDF方法通过关键词的权重表示用户的偏好特征或者主题类别特征。
对于前面获得的用户偏好的文献集合D,其中任意的文献dj可以用k组关键词表示其特征,为dj=<w1j,w2j,…,wij,…,wkj>,而关键词对文献的重要性可通过公式(6-6)来衡量:
公式(6-6)中,。fij表示关键词ki在第j篇文献dj中出现的频次,通过文献dj中出现的频次最高的关键词出现的次数来消除关键词偏向于长文献的影响。idf是一个衡量词语普遍重要性的度量。因此,用户对应的偏好类型可以通过用户偏好的l篇文献的特征D=<d1,d2,…,dl>来表征。运用同样的方法可以描述主题的特征。
②用户主题偏好识别。
在获得用户偏好类型特征和主题特征之后,下面需要计算主题和用户偏好类型的相似性来识别用户潜在偏好的研究方向。用户的偏好类型p的配置文件UserPre(p)可以用关键词的权重向量Wp=<w1p,w2p,…,wip>表示,其中每个分量表示关键词ki对用户偏好类型p的重要性。相应地,主题t的配置文件Topic(t)用Wt=<w1t,w2t,…,wjt>表示,其中每个分量表示关键词kj在主题t中的重要程度。通过两者在关键词上的匹配性可以获得用户的主题偏好。在基于内容的推荐系统中,通过计算两者的相似性,用户的主题偏好rp,t可以表示为:
rp,t可以利用向量Wp,Wt表示成一个值,例如夹角余弦方法:
余弦的值越大,相似度越大。根据公式(6-8)将匹配度最高的主题作为对应用户的研究方向。用户在获得主题类型后就相当于成为该主题社会网络中的一员。
(3)基于社会网络分析的学者推荐
知识的传播可以通过引文网络来体现。一篇文献被引用的次数越多,表明其思想传播的范围越广,对应作者的影响力也越大。将文献引用形成的网络抽象为作者粒度的网络模型,有助于我们分析领域中作者的影响力。文献之间因引用而形成的网络常被称为引文网络,它是引文分析的研究对象,指被施引文献与引用文献之间因引用关系而形成的一种网络,包含图书、论文等之间的参考、援引关系。根据网络节点的不同,引文网络可以分为期刊引文网络、文献引文网络和作者引文网络。网络由“节点”和“边”组成,边代表节点之间的连接。这里将作者视为节点,将文献引用所形成的作者之间的连接视为边,建立作者引文网络。将网络转化为图的结构,只要作者A在其文献中参考或引用作者B的文献,图中就建立一条作者A指向B的边。由此,建立了一个作者引文网络的有向图模型。
在一个社会网络中,如果一个行动者与其他行动者存在直接的关联,该行动者就居于中心地位,在该网络中拥有较大的“权力”和影响力。根据这个思想,为了比较作者相对于网络中其他作者的影响力,本节引入“相对点度中心度”[39]的概念来衡量作者在学术领域中的影响力:
其中,Degree(a)表示作者a的度,包含“入度”(网络中指向作者a的其他学者的数量)和“出度”(网络中作者a指向其他学者的相关学者的数量)。m为网络中所有作者的数量,(m-1)表示该网络中节点的最大可能的单向连接数,即除了作者自身之外的其他作者的数量。显然,a与其他学者的连接越多,Influence(a)的值越倾向1,即影响力越大。网络中经常用“入度”来表示一个人在社会网络中的受尊敬的程度[40],而本节在衡量学者的影响力时考虑学者的“出度”是因为学术活跃度也可以作为评定一个学者影响力的重要因素。
(4)基于主题的社会化推荐模型
①推荐模型描述。
前面通过TF-IDF方法分别提取用户偏好和主题特征,利用余弦定理计算两者相似性获得用户的主题偏好,然后通过社会网络分析方法分析主题网络中作者的影响力。通过上述两个部分的结合可以获得特定主题网络中学者的影响力模型。考虑到学术网络中学者之间的引用可能不止出现一次,即可能出现一篇文献中多次引用某一作者的多篇文献,也可能在不同的文献中引用某作者的同一篇文献的情况。所以整合上述所有因素时需要引入“文献被引量”来区别同一作者发表的不同文献的影响力。
本节提出的基于社会网络的个性化推荐方法根据用户相应的主题偏好,依赖领域中作者的影响力来进行文献推荐。产生推荐的基本思想有三个:越接近用户兴趣的主题越值得被推荐;作者影响力越大的文献越值得被推荐;被引量越高的文献越值得被推荐。涉及四种关系:用户与偏好类型之间的关系、偏好类型与主题类型之间的关系、主题类型与作者之间的关系和作者与文献之间的关系。假设使用软件的用户集合U=<u1,u2,…,ue>,对应的用户偏好类型集合P=<p1,p2,…,pe>,主题网络的类型集合T=<t1,t2,…,tn>,作者集合A=<a1,a2,…,am>,文献集合D=<d1,d2,…,dl>,用Pe×e表示用户—偏好矩阵,R e×n表示偏好—主题的相似性矩阵,In×m表示主题—作者影响力矩阵,Cm×l表示作者—文献被引量矩阵,则根据用户的研究兴趣,通过矩阵连接的方式获得的文献被推荐价值为:
公式(6-10)中四种矩阵的表示方法如下:用户—偏好矩阵Pe×e=,其中行代表用户,列代表偏好类型,矩阵中每一个元素根据公式(6-5)计算用户对偏好类型的偏好值,因为用户偏好的文献集合存在很大的差异性,所以基本上每一位用户对应一种偏好类型;偏好—主题的相似性矩阵,其中行代表偏好类型,列代表主题类型,矩阵中每一个元素根据公式(6-8)计算偏好类型和主题的相似度;主题—作者影响力矩阵,其中行代表主题,列代表作者,矩阵中的元素根据公式(6-9)计算,表示作者在某主题下的影响力,如果作者在某主题下没有发表文章,则表示其在该主题下的影响力为0;作者—文献被引量矩阵,其中行代表作者,列代表文献,矩阵中的元素表示作者ai的第j篇文献dj的被引量,如果作者ai没有发表文献dj,则引文量cai,dj=0。
通过公式(6-10)获得文献的推荐价值后,对其排序,将价值量高的文献优先推荐给用户。这种方法保证了主题下的核心文献被优先推荐给用户的可能性。
②模型解释。
公式(6-10)表示按照用户所属学术社会网络向读者进行文献推荐的方法。首先识别用户偏好的文献,然后将用户对该偏好文献集合(偏好类型)的喜好转变为一个数值,用在第一个矩阵(用户—偏好矩阵)中来表示用户对该偏好类型的偏好程度,如果用户A喜好偏好类型B,那么就按照公式(6-5)来计算偏好值,否则喜好程度为0。第二个矩阵(偏好—主题相似性矩阵)根据偏好类型和主题的配置文件来计算两者之间的相似性,匹配度高的主题具有被优先推荐的可能。第三个矩阵(主题—作者影响力矩阵)计算作者在学术网络中的影响力,这个矩阵能很好地反映交叉领域研究学者的影响力。第四个矩阵(作者—文献被引量矩阵)直接载入作者文献被引用的情况,作为文献推荐的基础数据。前两个矩阵的乘积可以识别用户的研究兴趣,并找到用户归属的学术社会网络,后面两个矩阵的乘积是为了获得网络中最合适的文献来产生推荐。通过公式(6-10)的矩阵连接的方式可以根据每一种偏好类型、每一个主题、每一位作者以及每一篇文献来为用户进行个性化文献推荐。
本节提出的模型在识别学术社会网络时以一种灵活组合的方式呈现,即根据用户的研究方向识别个性化的学术社会网络。由于用户的研究深度和角度不一样,任意两个人不可能被归为完全相同的学术社会网络中,所以即使两个人的研究兴趣相似,识别出来的网络仍然会不同,从而推荐的文献也会存在差别。显然,这种方法需要强大的运算能力的支撑,因为对于所有使用文献管理软件的用户而言,处理次数为e、e、n、m、l,其中不乏对同一篇文献的多次计算。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。