针对2.1节和2.2节的内容,本书在以下科研数据的基础上进行了大量的二次加工、人工整理,用于数据的可视化分析、关联分析、全景分析、技术预测。本书研究面向元数据的搜索,如果是开放授权论文(Open Access),则使用论文全文,专利数据使用全文。目前,本书研究的开放授权论文覆盖全球约3500家出版社、1.5万种开源期刊,总量过亿的开放授权论文全文。本书实验的数据类别如下。
大学机构数据:来自教育部官方政策新闻的数据,经过人工整理并持续更新。数据收录中国全部大学,约2631所大学。
文献传递元数据:来自各个大学官方网站,并经过人工整理。数据收录中国全部大学图书馆,约2631所大学。
中国自然科学期刊元数据:来自各个杂志社网站,并经过人工整理。数据收录标准参考中国科学院中国科学引文数据库(CSCD)收录标准,约1189本期刊。
中国社会科学期刊元数据:来自各个杂志社网站,并经过人工整理。数据收录标准参考南京大学中文社会科学引文索引(CSSCI)收录标准,约753本期刊。
国外期刊元数据:来自DOI基金会的开放查询数据,并经过人工整理和补充加工。数据收录全球56975本期刊。
国内论文元数据:来自中国自然科学核心期刊元数据和中国社会科学核心期刊元数据的论文元数据,约1942本期刊对应的论文元数据。
国外论文元数据:来自DOI基金会的开放查询数据,并经过人工整理和补充加工。数据收录全球56975本期刊的74574270条论文元数据。
国内专利元数据:来自国家知识产权局旗下知识产权出版社的数据,然后将光盘压缩格式加工处理为可供人工阅读的数据,做了大量的数据清洗和人工数据加工。包含中国专利全库。专利数据包含全文数据和元数据。(www.xing528.com)
国外专利元数据:来自国家知识产权局旗下知识产权出版社的数据,将光盘压缩格式加工处理为可供人工阅读的数据,做了大量的数据清洗和人工数据加工。目前,国外专利主要指美国专利,包含美国专利全文数据库。专利数据包含全文数据和元数据。
国内商标元数据:来自国内商标元数据,包含中国专利全库。
国外商标元数据:来自美国专利商标局(USPTO)的商标数据,并进行加工分析和检索,包含美国商标全文数据库。
全球学者元数据:来自开放研究者与贡献者身份组织(ORCID)的数据,ORCID成立于2012年,是全球科研工作者身份标识符的标准,数据约9988322条。本书的数据在ORCID数据基础上进行了二次加工。
国内报纸元数据:覆盖了中国主流报纸约900种。
国内科技成果元数据:主要来自各个省科技厅的网站和国家自然科学基金委员会的网站,在相关数据上做了二次加工,用于数据的聚类分析和可视化分析。数据约420475条。
具体数据统计集合,见表2-1。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。