首页 理论教育 大数据时代图书馆信息系统的研究背景及长尾理论应用

大数据时代图书馆信息系统的研究背景及长尾理论应用

时间:2023-07-31 理论教育 版权反馈
【摘要】:“二八定律”带来了马太效应,于是在学术界,相关学者更多关注头部学者在高影响因子期刊的研究成果。在数字图书馆领域,目前主要使用场景为“二八定律”,长尾理论的使用场景较少,这和图书馆的职责定位密切相关。过于创新但是存在研究风险的论文则更多只能通过预印模式发布。[51]赵蓉英基于长尾理论研究了国外图书馆的众包服务模式。[54]笔者在相关学者研究的基础上,基于长尾理论对关键词进行了研究。

大数据时代图书馆信息系统的研究背景及长尾理论应用

意大利经济学家菲尔弗雷多·帕累托在1897年归纳出一个统计结论,即20%的人口享有80%的财富,即“二八定律”。“二八定律”带来了马太效应,于是在学术界,相关学者更多关注头部学者在高影响因子期刊的研究成果。

另一方面,《连线》杂志的主编克里斯·安德森在2004年提出了长尾理论[38]。长尾理论的原理是:“只要存储和流通的渠道足够大,需求不旺或销量不佳的产品所共同占据的市场份额可以和那些少数热销产品所占据的市场份额相匹敌,甚至更大。”

长尾理论在互联网搜索引擎行业和互联网广告营销行业有巨大的应用前景[39],常被用于搜索引擎优化(Search Engine Optimization,SEO),例如,百度搜索引擎排在第一页的往往是百度竞价广告排名中出价高的公司。而如果通过长尾理论优化网页元数据中的关键词标签,即Meta标签,就可以占领百度搜索结果页中的第二页结果以及后面结果页的排名。尽管百度搜索的主要流量在结果页的第一页,但是第二页至末尾页均有自然流量。这种长尾理论的优化在互联网早期很流行,现在通常被视作一种搜索引擎优化的作弊方式,即俗称的“黑帽SEO”。

在数字图书馆领域,目前主要使用场景为“二八定律”,长尾理论的使用场景较少,这和图书馆的职责定位密切相关。图书馆作为全校的教辅机构,服务全校师生和大学建设。大学排名是大学建设中的一个风向标,而对于大学排名,科研成果主要通过论文指标进行计算。如软科世界大学学术排名中,SCI论文(含SSCI论文)数和高水平论文占40%的权重。这直接导致图书馆会重点采购Web of Science数据库,经费不足的图书馆不会去采购其他数据库。即使这样,对于SCI数据库也会进行影响因子(IF)打分,相关学者如果要发高水平论文,就要更多的是国外的研究热点,尤其是《科学》(Science)和《自然》(Nature)等期刊的外国研究热点。这也会进一步加大马太效应。

同时,马太效应还会带来另一个负面作用,对于学术期刊,杂志社的目的是提高自身期刊的引用因子,而对于过于创新的研究方向,论文可以引用的参考文献却不足,但参考文献的数量和网络是计算学术期刊的重要指标。因此,选择国外成熟但国内还未成熟的研究主题,是相关学术期刊最保守、最严谨的主题选择。过于创新但是存在研究风险的论文则更多只能通过预印模式发布。这种循环会进一步增强马太效应。

对于国内,数字图书馆领域和互联网领域相对比,其中有很多类似的产业结构。图书馆的数字资源和互联网均是网页,用户入口均是搜索(如百度搜索和Google搜索)。近10年来,互联网的搜索引擎用户体验有巨大的提升,但是数字图书馆的搜索引擎(即学术搜索,如南京大学CSSCI检索)的用户体验不如互联网公司。

一方面,互联网公司的搜索引擎并不限制网页数据来源,网站可以通过网站地图(Sitemap)机制自动提交给互联网搜索引擎的爬虫。但是对于图书馆检索的数据资源,均需要经过严格的审查和发布,均需要有相关的刊号(ISSN),而不同出版社因为竞争,对于非开放期刊,并不会给学术搜索公司完整摘要元数据的授权,这直接导致学术搜索的可检索数据资源不够。

另一方面,对于有限的数据量,互联网搜索引擎会在后台监测用户行为,并在前台提供交互式的关键词推荐。通过这些关键词推荐系统,用户对结果进行标记,互联网搜索引擎会对用户进行画像,来进一步优化学术搜索的质量。基于读者活动的个性化图书馆推荐系统已有相关研究[40],但并不多。(www.xing528.com)

笔者目前测试相关的国内学术搜索,如CSSCI检索,均不提供可交互的标记,而是根据论文关键词相关性来给用户返回数据结果或基于参考文献的引用网络[41]。但是小众的新兴科研领域因为关键词太少,很难出现在搜索结果列表中的前列,导致学者忽略相关文献,只看知名学者的文章,进一步增强马太效应。

而对于国内非数字资源的馆藏,马太效应表现得更明显,陈锦红指出:“由于图书馆二八定律的关系,图书馆在馆藏建设方面实行三线典藏制。用户觉得馆藏资源不能满足个性化需要,但图书馆因文献使用率不高而苦恼。”[42]

目前,国内学者利用长尾理论来优化图书馆的服务,且已有不少研究。周军兰研究了图书馆数据资源没形成的原因[43]。Van Borm结合版权保护,研究了出版领域的长尾理论,为出版社出版图书和图书馆收藏书提供了参考。[44]

国内有不少学者利用长尾理论研究科研数据,如廖鹏飞基于长尾关键词分析CNKI数据库来构建领域新兴前沿探寻模型;[45]欧阳进良基于长尾理论对国家科技计划管理体系提出优化措施的建议;[46]杨平研究了科研中长尾关键词的共享和保存机制;[47]赵艳枝研究了科研中的长尾数据;[48]杨滟研究了基于生命周期管理的长尾数据。[49]

王玉晶指出,需要研究每个读者,研究读者的长尾需求,提高图书馆的服务质量。[50]唐铭杰建议公共图书馆基于长尾理论提供数字参考咨询服务(Digital Reference Service,DRS)。[51]赵蓉英基于长尾理论研究了国外图书馆的众包服务模式。[52]由于存在80%的数据资源长尾,通过众包服务模式加工图书馆馆藏的数据资源。周欢研究了长尾理论视角下的图书馆全民阅读推广策略。[53]

在长尾关键词提取中,要判断长尾关键词的标准,需要对关键词进行聚类分析。聚类中最常见的是K-Means算法,即根据欧式距离计算质心,然后按K维聚类。刘晨晨基于有向图的聚类算法(Directed Graph Clustering Algorithm,DCA)研究了长尾关键词视角的图书推荐,并和K-Means算法进行了对比。[54]

笔者在相关学者研究的基础上,基于长尾理论对关键词进行了研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈