协同过滤算法作为计算机智能推荐领域最成功的一项技术,最早是由Palo Alto研究中心提出的,主要用于邮件系统的过滤与分类,帮助不同的用户找到其最需要优先的邮件。在信息爆炸时代,随着协同过滤的思想和概念的提出,推荐系统日益受到学术研究和商业领域的重视,成为解决用户信息过载的重要手段,在新闻阅读、电子商务和社交网络等在线服务平台中得到了广泛的应用。
图8-1 协同过滤算法示意图
协同过滤和推荐算法的核心思想是计算用户喜好相似程度来生成个性化的推荐,根据相似度计算的目标不同分为两类:基于项目的协同过滤(Item-based CF)和基于用户的协同过滤(User-based CF)。前者根据用户对不同物品的偏好评分来发现物品与物品之间的相似度,然后根据用户对物品的使用频率或者偏好产生推荐;后者则根据用户的使用偏好或者物品的使用频率,找到和目标用户相似的用户群,再从此用户群的使用记录中产生推荐或者预测用户对某个物品的可能评价。两者的区别主要在于应用场景的不同,前者可以避免当系统增加新用户或者新项目时因数据稀疏导致的推荐不准确问题,后者在用户数据充足的情况下推荐成功率较高。(www.xing528.com)
由于商业需要,协同过滤和推荐技术在教育行业发展非常迅速,以推荐系统研究领域的顶级会议ACM RecSys为例,2014年年会的论文有很多集中在了知识推荐、论文评议和在线学习等方面。例如Pedro等人针对协作问答互动社区的应用场景提出了有监督的基于贝叶斯方法的问答推荐模型,该模型能够总结分析每个负责咨询的专家最擅长的知识领域,并且迅速地为提问者匹配和推荐最合适的咨询专家,从而减少用户的等待时间[79]。Liu Xiang则构建了一个基于稀疏图的论文审阅推荐模型,通过评价论文所属的专业知识领域以及审阅专家在不同领域的权威程度产生论文的最佳审稿人推荐,并且还能提高同行之间学术评价的可信度[80]。Bauman则设计了一个学习资料推荐系统,通过综合分析不同的考试或者训练的评价结果来比较学生之间的学习差距,了解每个学生的具体学习状况,并推荐难度合适的学习资料[81]。
在网络教育和在线学习领域,学习资源相对于商品化的图书和多媒体资料有着更复杂的结构,其表现形式包括课件、试题、教案和多媒体等多种形式,其数据存储结构通常是无序的、非结构化的。目前针对学习资源的整理思路主要是将所有的数据资源进行结构化的重组和描述,一般采用基于Web 3.0当中的语义网概念,通过对学习资源加入计算机所能理解的语义“元数据”(Meta Data),使学习资源之间的关系逻辑化,帮助学习者对学习资源进行检索和获取。这种无结构化的学习资源到结构化关联数据的过程需要语义信息抽取软件进行帮助,通过资源描述框架(Resource Description Framework,RDF)完成复杂推理,由OWL(Web本体语言)进行描述,最终形成一个复杂的知识网络。
然而教育语义网络的推理过程一般需要人工或半自动的方式进行监督和处理,目前主要用来实现小规模的知识关联规则的提取和发现,在处理教育大数据时显得力不从心。本书主要从知识系统中的知识本体、语义分析、本体关联、知识表示、自动语义标注等技术领域进行研究,同时结合大数据处理中的机器学习、数理统计和数据挖掘相关的算法并应用于推荐系统中。最终的研究结果将能够依托于知识本体概念对学习资源进行了关联和分类,通过用户对学习资源的评价和使用信息进行数据分析并最终产生个性化的学习资源推荐。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。