通过本书的预处理、词库建模及可视化处理,可以将过去20年的自然科学基金立项数据进行绘制,并可以采用时间维度和依托单位维度进行分类。不论从时间维度还是依托单位维度,建立起的关键词映射关系都是一个巨大的稀疏矩阵,但是可以通过预处理过滤掉无效词,并且基于词频建立起领域词库,最后利用t-SNE算法对高维度矩阵进行降维。降维之后,实现了自动分类,有利于在微观层面为“双一流”大学提供学科建设的科学决策支撑,同时,在宏观层面为科技行政主管部门提供宏观决策支持及总结经验,这是本书的主要研究成果。
但是,本书的方法也存在一定的局限性,主要原因是国家自然科学基金委员会的网站在不断升级,很多历史数据并不合规。在词库建立上,鉴于中文词义的复杂性,本身很难提供一个足够通用的词库。在降维处理上,本书只研究了二维关键词和三维关键词,并且采用的分析数据是基金立项时的关键词列表。如果对基金的标题或者全文进行词库生成和分析,则研究的信息量比纯基金申报关键词精准。在词库处理上,如果对词语本身的上位词和下位词进行分析,则有利于减少词库的条数和降维。
本书研究可视化建模的学科意义与主要贡献在于,国家自然科学基金项目关键词反映了国内科研的趋势,是有重要学术研究价值的目标数据源。但是,直接分析国家层面资助的海量项目会带来“维度灾难”。数据可视化的降维方法是众多降维研究中最清晰、直观的研究点。
本书基于t-SNE的研究方法是对海量自然科学基金数据的可视化分类方法的研究。而同行主要基于VOSViewer或者CiteSpace进行研究。VOSViewer或者CiteSpace的研究,国家自然科学基金数据的方法是需要人工干预的交互式研究。而本书采用的t-SNE方法研究是一种无监督学习的研究方法。本方法在处理海量数据时,从作者角度来说,能降低研究者进行数据分类的工作量,让研究者更关心业务,而不是技术。另外,相关学者也可以在本研究基础上进一步建模和编程,如进行交互式的可视化建模,对海量项目数据进行快速定位,提高科研效率。从图书馆角度通过对长尾关键词进行可视化,优化长尾关键词,有利于提高图书馆的馆藏资源利用率,提高用户搜索效率,帮助用户发现冷门文献,更好地分享科研成果。
【注释】
[1]李杰.CiteSpace中文版指南[Z/OL].2017.http://blog.sciencenet.cn/blog-554179-1066981.html.
[2]孙学军,曹祺.基于知识图谱的图书馆微信服务研究现状分析[J].情报科学,2019,37(09):164-169.
[3]曹祺.基于t-SNE算法的双一流大学基金立项关键词降维的可视化建模研究[J].农业图书情报学报,2020,32(2):47-57.
[4]陈冬玲.基于SPSS实证分析的高校图书馆微信公众平台内容运营策略研究[J].图书馆杂志,2018,37(04):51-57.
[5]王杰.情报学核心期刊中社会化媒体相关研究的定量分析:“决策论坛——决策理论与方法研究学术研讨会”论文集(下)[C],2016.
[6]冯焕华,任博.基于文献计量的微信公众平台研究热点分析[J].中国教育信息化,2017(3):13-15.
[7]朱松挺.图书馆微信应用研究论文的文献计量分析[J].图书情报导刊,2014(18):125-127.王梦萦.国内图书馆微信研究论文的文献计量分析[J].公共图书馆,2014(4):18-22.
[8]李姣姣,黄丽霞.基于文献计量的我国高校图书馆微信公众平台研究[J].情报探索,2016(7):35-40.
[9]刘岩,王立峰.微信在我国图书馆应用研究的文献计量分析[J].长春师范大学学报,2017,36(2):146-149.
[10]郭春侠,汪岩丹.高校图书馆微信服务研究文献计量分析[J].图书馆学刊,2017(6):132-138.
[11]薛卫双.我国档案微信研究的文献计量分析[J].山西档案,2018,No.240(4):27-29.
[12]VERZANI J.Getting Started With RStudio[M].2011.
[13]Van ECK N J P,WALTMAN L.VOSviewer:A Computer Program for Bibliometric Mapping[J].Social Science Electronic Publishing,2009,84(2):523-538.
[14]微信图书馆文献元数据[EB/OL].https://raw.githubusercontent.com/greysh/paper-wechat-review/master/wechat-2011_2018.csv.
[15]南京大学中国社会科学研究评价中心.CSSCI来源期刊2019—2020目录[R].2019.
[16]黎明.微信息环境下图书馆学科服务的长尾效应[J].情报资料工作,2013(03):86-89.
[17]李白杨,白广思.面向知识咨询的图书馆移动服务设计与实现——以微信公共平台为例[J].图书馆学研究,2013(19):69-72.
[18]Chen,C.CiteSpace II:Detecting and Visualizng Emerging Trends and Transient Patterns in Scientific Literature.JASIST,2006,57(3),359-377.
[19]万华.基于项目论文引文关联的协同研究关系分析——以国家自然科学基金图书情报类研究项目为例[J].情报科学,2013(6):53-59.
[20]范云满,马建霞,刘静.国家自然科学基金的评估指标体系与指标的分析研究[J].图书情报工作,2013,57(16):100-106.
[21]刘多,宋敏,谢亚南,等.2009—2015年国家自然科学基金资助产出ESI高被引论文分析[J].中国科学基金,2017(4):353-358.冯磊,朱宇华,吕相征,等.国家自然科学基金资助产出SCI医药卫生论文的计量分析[J].科技与出版,2017(3):112-118.
[22]邓方,宋苏,刘克,等.国家自然科学基金自动化领域数据分析与研究热点变化[J].自动化学报,2018,44(2):377-384.
[23]陈挺,李国鹏,王小梅.基于t-SNE降维的科学基金资助项目可视化方法研究[J].数据分析与知识发现,2018,2(8):1-9.
[24]Mejia C,Kajikawa Y.Using Acknowledgement Data to Characterize Funding Organizations by the Types of Research Sponsored:the Case of Robotics Research[J].Scientometrics,2018,114(3):883-904.
[25]Kai Li,Erjia Yan.Are NIH-Funded Publications Fulfilling the Proposed Research?An Examination of Concept-Matchedness between NIH Research Grants and their Supported Publications[J].Journal of Informetrics,2019,13(1):226-237.
[26]Chao Yang,Cui Huang,Jun Su.An Improved SAO Network-Based Method for Technology Trend Analysis:a Case Study of Graphene[J].Journal of Informetrics,2018,12(1):271-286.(www.xing528.com)
[27]Abrishami A,Aliakbary S.Predicting Citation Counts based on Deep Neural Network Learning Techniques[J].Journal of Informetrics,2019,13(2):485-499.
[28]Feng Feng,Zhang Leiyong,Du Yuneng,et al.Visualization and Quantitative Study in Bibliographic Databases:a Case in the Field of University-Industry Cooperation[J].Journal of Informetrics,2015,9(1):118-134.
[29]袁润,李莹,王琦,等.用R语言分析关键词集共现网络研究[J].现代情报,2018,38(7):88-94.
[30]Kai Li,Erjia Yan,Yuanyuan Feng.How is R Cited in Research Outputs?Structure,Impacts and Citation Standard[J].Journal of Informetrics,2017,11(4):989-1002.
[31]张永安,马昱.基于R语言的区域技术创新政策量化分析[J].情报杂志,2017,36(3):113-118.
[32]张然.“双一流”背景下加强国家自然科学基金组织申报工作探讨——以吉林大学电子科学与工程学院为例[J].办公室业务,2019,306(1):186-187.
[33]张品慧,张瑜婷,赵星.科学基金对“双一流”建设学科的前期资助研究(2012—2016)[J].图书与情报,2018,182(4):10-16.
[34]马晓萌,徐峰.双一流高校自然科学基金面上项目资助特点探析[J].情报工程,2018,4(6):63-75.
[35]tsne[EB/OL].https://github.com/greysh/paper-tsne.
[36]Kai Hu,Huayi Wu,Kunlun Qi,et al.A Domain Keyword Analysis Approach Extending Term Frequency-Keyword Active Index with Google Word2Vec Model[J].Scientometrics,2018,114(3):1031-1068.
[37]Chen Guo,Xiao Lu.Selecting Publication Keywords for Domain Analysis in Bibliometrics:a Comparison of Three Methods[J].Journal of Informetrics,2016,10(1):212-223.
[38]Anderson C.The Long Tail[EB/OL].http://www.wired.com/wired/archive/12.10/tail.html.
[39]Skiera B,Eckert J,Hinz O.An Analysis of the Importance of the Long Tail in Search Engine Marketing[J].Electronic Commerce Research and Applications,2010,9(6):488-494.
[40]谭龙江.基于读者活动的个性化图书馆推荐系统[J].系统工程,2015,33(80):154-158.
[41]刘盛博,丁堃,刘则渊.基于引用内容的引文检索与推荐系统[J].情报学报,2013,32(110):1157-1163.
[42]陈锦红.基于长尾理论的图书馆服务的深化[J].情报资料工作,2010(5):86-88.
[43]周军兰.长尾理论与图书馆[J].图书情报工作,2007(4):30-33.
[44]Van Borm J.The Long Tail,Copyright and Libraries[J].Liber Quarterly,2009,19(2):122-130.
[45]廖鹏飞,李明鑫,万锋.基于长尾关键词的领域新兴前沿探寻模型构建研究[J].情报杂志,2020(3):1-5.
[46]欧阳进良,汤娇雯,庞宇,等.长尾效应对我国科技管理影响及其思考[J].科学决策,2009(1):56-61.
[47]杨平,田野.长尾数据共享研究进展[J].图书情报工作,2014,58(8):133-138.
[48]赵艳枝.科学研究中的长尾数据及其监护[J].情报资料工作,2015(30):22-25.
[49]杨滟,孙建军.基于生命周期管理的科学长尾数据管护研究[J].情报理论与实践,2016,39(40):45-50.
[50]王玉晶.图书馆人性化服务模式与提升长尾效应研究[J].情报科学,2010,28(70):1025-1028,1059.
[51]唐铭杰.长尾理论对公共图书馆开展DRS的启示[J].情报资料工作,2011(2):89-91,96.
[52]赵蓉英,汪馨雨.基于长尾理论的图书馆众包服务模式初探[J].图书馆杂志,2017,36(30):20-26,57.
[53]周欢,任剑乔.长尾理论视角下的图书馆全民阅读推广策略研究[J].出版发行研究,2019(40):85-89.
[54]刘晨晨,徐一新.长尾理论视角下基于DCA的网络自助出版推荐系统[J].计算机系统应用,2011,20(7):26-30.
[55]Research on Keyword Recommendation System for Academic Search Based on Long Tail Theory[EB/OL].https://www.github.com/greysh/paper-longtail.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。