信息计量学是一门利用定量分析方法描述和研究信息的一门学科,其概念的外延十分广泛,内涵也很丰富。在信息计量学研究中,集中与离散分布是信息计量学最重要的基础。从资源的角度来说,资源及其所包含的信息与知识大多数集中于少量的主体来源;而少量的信息与知识则分散在大多数主体来源之中。知识和信息的离散分布从本质上来说是由人类知识体系自身的分化和综合决定的,与信息的生产、利用,信息的累积性、再生性、老化性以及创造者的独立性有密切的关系[37];在离散的同时,知识信息又趋向于集中,这种集中与离散现象一直以来都是信息计量学研究的重点。集中与离散现象的数学形式大多表现为幂律分布的特征。信息科学中许多不同的现象都使用幂律分布的数学形式进行表达,这些幂律分布有不同的名称,但本质上都是相关的,具有统一性。
幂律分布的数学化的表达如下:
y=cx-a
其中,a表示幂指数,c是一个常数。幂律公式具有单调性,即当自变量x变化时,因变量y只是增加或者减少。当幂律被用来描述分布时,指数a一般为正,即当x增加,y的值是降低的。从定量的角度来看,即具有较高值的对象或者事物往往数量较少,例如发文量特别多的作者,被引次数特别高的论文等。幂律分布也是常见的“二八法则”的本质体现。二八法则有时也称为Pareto定律,Juran将二八律的概念表示为:20%的活动产生了80%的现象[38]。需要注意的是,二八分布实际上是幂律分布的特殊例子,当幂指数a为2.16时,可以得出二八分布。
作者产出的洛特卡分布,描述科学文献集中与离散的布拉德福分布,描述词频的齐普夫分布,描述论文的被引次数的分布[39]是信息计量学中最典型的三种幂律分布,此外,相关的分布还有网络上的协同标签(collaborative tagging)行为的分布[40]等。(www.xing528.com)
布拉德福分布。布拉德福关于专业论文在期刊中分布的定律,从数学形式上来看,布拉德福定律是洛特卡分布的累计形式。布拉德福定律的研究对集中与离散规律的揭示主要停留在宏观水平,即期刊所刊载的论文分布规律的研究。在此基础上,国内马费成教授等在微观上对文献单元和知识单元(关键词或主题词)进行研究,并发现文献单元和知识单元都符合布拉德福分布,只是非核心部分分散程度不同[41]。
洛特卡分布。洛特卡定律是信息科学中最广为人知的一个幂律分布。洛特卡在1926年最初提出该问题的时候将之表达为:一大群作者(y值)发表了全部论文中少量的论文(x值),而数量较少的作者群体则发表了大量的论文。这种表示相对粗略,因为有许多分布现象(不一定表现为幂律)都表现出这样的特性。更准确地来讲,洛特卡定律的幂律特性可以表述为,如果定义幂律指数为2,根据洛特卡的建议,当有100个作者发表了1篇文章,那么就有25个作者发表了2篇文章,11个作者发表了3篇文章,依此类推,洛特卡定律是一个规模-频率分布,描述了具有特定频率属性的样本的分布情况。
齐普夫分布。齐普夫定律来自于语言学。这是一个排序-频率分布,描述了一个特定来源中包含的对象的数目,并且对这些对象频率进行了排序。齐普夫定律最初是用来描述一个文档中包含词数量的问题,这些词按照最常见的频率从高到低进行排列,这也是一个幂律分布问题。有学者注意到,事实上词的出现分布同样可以归结为规模-频率形式,因此,洛特卡关于词频的看法可以表达为,有大量的词出现的次数非常少,而有少量的词则频繁出现,这也是一个幂律分布。同时可以发现,帕累托累计分布也与齐普夫排序-频率分布极其类似。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。