首页 理论教育 高频关键词处理技巧-备案审查研究(2021年第1辑)

高频关键词处理技巧-备案审查研究(2021年第1辑)

时间:2023-08-05 理论教育 版权反馈
【摘要】:普赖斯公式为,Nmax为频次最高关键词的累计频次。考虑到前述期刊文献选取的实际情况,本文最终以普赖斯公式计算得出的结果为参照,结合期刊文献选取特点,以混合方法确定高频关键词的阈值,即词频为3次及以上的关键词作为本研究高频词。词频出现3次及以上的关键词共56个,表1展示出词频排名前20位的高频关键词。表2主题高频关键词共现矩阵(部分)

高频关键词处理技巧-备案审查研究(2021年第1辑)

词语指标是文献计量学的研究对象之一,例如采用词频分布规律选择标引词等定量方法便是检索语言研究的常用方式[8]。不仅如此,文献计量的诸多方法一方面旨在处理“极值”类、“排序”类问题,重点是对词语的频次分析;另一方面意在处理“结构类”问题,而此类问题是在前述词频分析的基础上进行的关联分析[9]。申言之,作为全文观点之凝练表达以及中国知网收录主题之参考的文献关键词,在一定的时间与空间内,高频出现的关键词可以反映该主题研究的热点情况。因此,文献关键词的选取与清洗就成为本项研究开展的前端工作。

1.原始关键词的规范化处理

将选取的期刊信息导入Bicomb软件,初步筛选出关键词。由于关键词的规范性会影响到共词聚类的效果,本研究对之进行规范化处理:其一,删除含义宽泛、指向不明的关键词,例如“建议”“完善”“问题”“研究”等;其二,合并同义词,例如将“备案审查制度”合并至“备案审查”,将“立法权配置”“立法权限”合并至“立法权”;其三,合并含义相近的关键词,例如将“人大”“人大及其常委会”统一合并为“国家权力机关”;其四,删除关键词中的标点符号,例如删除“《立法法》修改”中的书名号;其五,对缺少关键词的文章提取关键词[10],经规范化处理,将规范化处理后的信息再次导入Bicomb,文献中可提取的有效关键词共计418个。

2.高频关键词的选取及阈值划分

基于共词分析法原理,为有效提高统计效率,减少低频词对统计过程的影响,共词分析需要以高频词为分析对象,通过设置相应的阈值频次进行筛选[11]。高频词阈值划分一般有自主确定与公式确定两种方法。

公式确定法以高低频词分界公式与普赖斯公式的应用较为常见。高低频词分界公式由齐普夫第二定律导出,具体公式为,I为频次为1的关键词数量。普赖斯公式为,Nmax为频次最高关键词的累计频次。通过计算,前者得出结果为48.7,本研究中频次在49次及以上的关键词仅2个;后者得出结果为5.7,本研究中频次在6次及以上的关键词有17个。显然,借助公式计算法选取的关键词不能满足聚类分析要求,不足以用来分析我国备案审查制度研究现状。此外,结合公示确定阈值的演绎过程可知,高低频分界公式阈值取决于词频为1的关键词数量,普赖斯公式阈值确定取决于最高词频数量,二者均存在着绝对化倾向[12]

自主确定法虽存在研究人员主观干预程度高的不足,但在研究领域较为新颖,选取的样本数量较少的情况下,若公式得出的阈值范围较小,便会导致研究难以继续推进,故有学者采用混合选取法确定阈值范围[13]。考虑到前述期刊文献选取的实际情况,本文最终以普赖斯公式计算得出的结果为参照,结合期刊文献选取特点,以混合方法确定高频关键词的阈值,即词频为3次及以上的关键词作为本研究高频词。词频出现3次及以上的关键词共56个,表1展示出词频排名前20位的高频关键词。(www.xing528.com)

表1 词频排名前20的高频关键词

3.构建高频关键词共现矩阵

高频关键词一定程度上能够反映出备案审查制度研究焦点,如学界对于党内法规体系建设中的备案审查问题的关注。但仅孤立看待高频词无法反映出其与研究热点领域内在的关联性,需要借助共词分析法进一步探究。

共词分析法的原理是统计一对词语两两出现在同一篇文献中的次数,若这对词语在一类文献中出现频率越高,则说明二者关联越紧密。以之为基础,词与词之间相关联,形成共词网络,网络节点之间的距离远近便可反映主题内容之间的关联性[14]。所以,本文首先构建56*56的高频关键词共现矩阵(表2),并将其作为后续应用聚类分析等统计分析方法的基础。

表2 主题高频关键词共现矩阵(部分)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈