首页 理论教育 文献关键词清理与聚类依据的优化方法

文献关键词清理与聚类依据的优化方法

时间:2023-07-05 理论教育 版权反馈
【摘要】:中文文献关键词:原始数据来源于文献本身作者给出的关键词,本书邀请了医保支付研究专家与文献情报分析专家共同对其进行清理,合并同义词,给出规范词作为聚类依据。英文文献关键词:原始数据来源于两部分,一部分为文献作者给出的关键词,另一部分为数据库根据参考文献标题自动生成的索引词。该标准是在中图分类法的基础上制订的分类体系,共有168个分类,由编辑浏览文献内容进行人工标引分类。

文献关键词清理与聚类依据的优化方法

中文文献关键词:原始数据来源于文献本身作者给出的关键词,本书邀请了医保支付研究专家与文献情报分析专家共同对其进行清理,合并同义词,给出规范词作为聚类依据。

英文文献关键词:原始数据来源于两部分,一部分为文献作者给出的关键词,另一部分为数据库根据参考文献标题自动生成的索引词。这两部分索引词必须在题录中多次出现,并按照从多个单词组成的短语到单一检索词的顺序排序,这两部分索引词是对传统的关键字或标题检索的增强。本书邀请了医保支付研究专家与文献情报分析专家共同对这两部分的合集进行清理,合并了同义词,给出规范词作为聚类依据。

主题:本研究中的主题是使用“TF-IDF”对清理后的关键词做相关分析,对关键词进行聚类而得到的。“TF-IDF”的主要思想是,如果某个词或短语在一篇文章中出现的频率高(TF:词频,关键词/短语出现的频次,在文档中出现的频次越高,TF值越大),但在其他文章中很少出现(IDF:逆文档频率,逆文档频率=1/关键词或短语在多少篇文档中出现,在文档中出现的次数越少,IDF值越大),则认为此词或者短语具有很好的类别区分能力,适合用来分类。一个关键词代表了一类主题,本研究以关键词反映主题。对于热点主题、重点主题等不同类型的主题,需要结合关键词出现的频次、年限、有效性等做出综合判断。

研究机构:原始数据来源于文献的发表机构,由于文献中的同一个机构存在多种写法、一个机构有多个二级机构,本书邀请了医保支付研究专家与文献情报分析专家共同对其进行清理,对同一机构的多个署名进行了鉴定和合并,将二级机构统一到一级机构,最后形成一个统一的规范名称(例如,将上海交大、上交大、上海交大管理学院,统一为上海交通大学)。(www.xing528.com)

英文学科领域:采用科睿唯安公司旗下WoS数据库的标准,以期刊为划分依据,一个期刊可能属于多个学科领域,则该期刊下所有文献均隶属于这些学科领域。

中文学科领域:采用知网数据库的分类标准,以文献内容为划分依据,一篇论文可能属于多个学科领域。该标准是在中图分类法的基础上制订的分类体系,共有168个分类,由编辑浏览文献内容进行人工标引分类。

高被引期刊热点:使用CiteSpace软件根据关键词进行自动聚类的结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈