语言、文字是人们表达思想、进行交流的工具,是人类社会的一种普遍现象。科学文献是由众多的不同词汇所构成的,不同的词汇起着不同的功能,表示不同的概念,这些众多的词汇经过科学的组织构成了一个整体,表达了作者完整的思想。那么,一篇文献中词汇的出现有没有规律呢?如果有规律,其表现形式又是怎样的呢?
G.K.齐夫(G.K.Zipf)是美国哈佛大学的教授,对语言学和心理学颇有研究。1948年4月,46岁的齐夫完成了他的专著《人类行为与最小努力原则》(1949年出版),这是一本巨著。齐夫在书中引用了大量的统计数据,对“最小努力原则”做了精辟的阐述。
齐夫认为,每一个人在日常生产、工作和生活中都必定要在他所处的环境里进行一定程度的运动,他把这样的运动视为走某种道路。每一个人的运动(广义的),不管属于哪种类型,都将是在一定的道路(广义的)上进行的,而且都将受一个简单的基本原则的制约。这个原则,齐夫称之为“最小努力原则”,即“省力法则”。
齐夫在“最小努力原则”思想的指导下,首先对语言、词汇进行了研究。他考察了很多文体的文章,发现自然语言词汇在文献中的出现具有一定的规律。经过对大量文献进行统计分析,在研究英文单词出现的频率时发现,如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,即在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。这种规律就称为齐夫定律,它是文献中的词与其出现频次之间关系的经验规律,也是一条与语言学密切相关的文献学规律。这个定律后来在很多领域得到了同样的验证,包括网站的访问者数量、城镇的大小和每个国家公司的数量。(www.xing528.com)
齐夫定律的数学表达式:设一篇含有N个词的文献(N≥5000),用自然数1,2,3……给文献中的词编级,出现频次最高的为1,其次为2,直到r(r<N),则高频词的频次f与词级r的乘积是一个常数,用公式表示为:
r×f=C 其中,0<C<0.1
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。