首页 理论教育 知识发现技术在图形情感领域的应用

知识发现技术在图形情感领域的应用

时间:2023-08-08 理论教育 版权反馈
【摘要】:尽管Bibliomining一词未在业内得到广泛的使用,相关文献主要集中在2003~2006年,但基于这一概念所提出的一系列理论推动了数据挖掘和知识发现在图书情报领域的应用和发展。Lorena Siguenza-Guzman等人基于一个四象限的整体评估矩阵,对以数据挖掘和知识发现技术在学术图书馆中应用的文章进行了很好的梳理分类[30]。个性化服务也是知识发现技术在高校图书馆应用中的重要内容。

知识发现技术在图形情感领域的应用

20世纪90年代后期,国际图书馆界开始关注并研究数据挖掘技术在图书馆领域的应用,图书馆学专家提出面向图书馆的数据挖掘技术应用理论与方法。2003年,美国纽约雪城大学信息科学学院(Syracuse University School of Information Studies)的Scott Nicholson和Jeffrey Stanton提出Bibliomining的概念,该词由“Bibliometrics(文献计量学)”和“Data Mining(数据挖掘)”组合而来,指代应用于图书馆的数据挖掘技术。两位作者将Bibliomining定义为对图书馆数据记录进行数据挖掘的研究工作[28]。尽管Bibliomining一词未在业内得到广泛的使用,相关文献主要集中在2003~2006年,但基于这一概念所提出的一系列理论推动了数据挖掘和知识发现在图书情报领域的应用和发展。例如,Scott Nicholson指出Bibliomining实质上是以理解图书馆服务为目标的数据存储、数据挖掘和文献计量的综合体,其工作过程如图1-1所示[29]

图1-1 图情领域一般知识发现过程

设定方向是第一步,方向可以是图书馆的某个具体问题,也可以是需要探究和决策的一般领域。确定数据源是第二步,这里的数据源包括两类:内部数据源是指已经在图书馆系统中的数据,如用户数据库、借还数据、网络服务器日志等;外部数据源则是图书馆系统中所没有的数据,如与高校网络中心或人事管理系统中某个ID对应的人员信息。数据源包含文献类数据、用户搜索数据及外部数据。第三步则是创建数据仓储,将采集、清洗和经过匿名化处理的数据存入其中。第四步是选择合适的分析工具。第五步是数据挖掘,描述和预测是其中的主要内容。最后则是测试和实施。

Lorena Siguenza-Guzman等人基于一个四象限的整体评估矩阵,对以数据挖掘和知识发现技术在学术图书馆中应用的文章进行了很好的梳理分类[30]。其中象限1是过程和服务分析,主要是对图书馆所提供服务及有关过程的分析;象限2是质量分析,主要是用户对资源和服务的评估;象限3是资源分析,主要是评估图书馆资源的有用性;象限4是使用分析,主要是对用户利用图书馆系统时信息行为的评估。所有这些象限的评估都基于一个共同的目标,即全面彻底了解图书馆的用户和服务。图书馆数据挖掘能发现用户信息行为相关的事项,能预测资源建设的未来趋势,能基于共同兴趣建立用户群体。基于知识发现的类型,数据挖掘功能可被分为无监督算法(Unsupervised Algorithms)和有监督算法(Supervised Algorithms)。前者发现未分类数据汇总的关系,后者需要对数据进行分类,进而解释这些关系。根据这两类功能类型,象限外围将数据挖掘算法分为关联、聚类、分类和回归四类。

基于上述模型,Lorena Siguenza-Guzman等人分析发现,数据挖掘技术在已发表英文文献中的图书馆案例研究中,主要被应用于使用情况的分析,在这类分析中,日志数据被用于分析用户对数字图书馆和图书馆网站的信息搜索行为,而日志数据的来源主要是OPAC系统、数字图书馆系统、图书馆网站等,一些文章用到了统计软件,一些文章采用了数据的逻辑分析。相比其他三个象限,更多成熟的数据挖掘技术被运用到了使用情况的分析中,包括关联规则、线性回归、K-means(K均值)算法及聚类模型。除了不同的研究兴趣,对于不同内容的挖掘,研究人员也采取了不同的数据挖掘技术,其中逻辑回归是最常被使用的数据挖掘方法,其次是关联规则、决策树、线性回归和数据的逻辑分析,除此之外,日志分析、K-means算法、模式聚类、统计分析、层次聚类算法、神经网络、信息计量分析、记忆基础推理、回归分析都得到了运用。

数据挖掘技术是国内外在该领域共同的研究热点,但相比国外研究,国内图书馆界在知识发现领域的研究起步较晚。基于CNKI(中国知网)数据库中的相关文献,有研究分析指出,数据挖掘技术在图情领域的应用主要分布在数字图书馆及个性化服务、Web和信息服务、信息资源及参考咨询、图书馆及信息检索、高校图书馆及图书采购、情报学领域六个方面[31]。同样是基于CNKI的相关数据,另一研究发现,在2011年以前,只有不足三成图书馆数据挖掘研究的文献是针对具体实践应用的。关联分析、聚类分析和决策树是这部分文献的三个主要研究方向[32]。(www.xing528.com)

个性化服务也是知识发现技术在高校图书馆应用中的重要内容。如文献[33]基于图书馆数据库中的网站描述文件及网站日志文件,取得用户浏览网站时的行为模式,进行图书馆网页相关性分析,为用户推荐关联度高的页面。文献[34]通过分析挖掘相关知识库、图书馆历史数据、借阅数据、读者日志、用户反馈数据,为用户制定个性化的服务策略,并提供相应的服务更新。文献[35]基于某高校图书馆连续的流通数据,建立时间序列模型、关联规则模型和流通量统计表,为图书馆个性化服务工作提供决策依据。

在数据方面,针对静态数据如各类电子资源数据库的知识发现,国内外大量文献聚焦在文献计量学、信息计量学、科学计量学等领域,通过对数据库中期刊论文的计量分析来发现某学科某一阶段的研究热点和趋势、国家和机构学科竞争力排名、著者关系分析等,如文献[36][37][38][39][40]。日志是重要的动态数据,国外高校针对图书馆日志的知识发现研究,侧重于了解用户的一般使用模式[41]、搜索特征[42]、网页的使用率[43],从而用于改进图书馆主页、OPAC检索和服务器维护。国内图书馆针对日志的研究文献,集中在主页日志分析、日志的技术理论研究[44]、电子资源使用统计分析[45]、对流通日志和电子资源的访问统计辅助馆藏资源建设等[46]。日志在商业智能信息安全领域很早就得到了关注和研究,国内外主流网络设备厂商和软件开发企业均提出了相应行业解决方案,如CISCO(思科)、华为提供的网络信息监控设备在日志分析、网络数据复原技术领域相对成熟,但在图书馆界尚未有实质性的应用。

对国内外的文献调研表明,目前的知识发现技术和应用有以下三点不足:

(1)无论数据来源是静态还是动态,均侧重于单个电子数据库系统或者数据库日志模型的研究,没有考虑多系统、多数据库日志的统一建模,无法解决泛在知识环境下图书馆的异构系统和异构数据库问题;

(2)宏观层面的统计分析较多,如用户访问资源的点击量、检索关键词的数量统计,缺乏语义层面的深入知识发现研究,如对检索关键词的关联规则的挖掘;

(3)未将静态数据(如电子资源数据库的文献数据)和动态数据(如用户访问的日志数据)进行关联分析和趋势预测。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈