Sinclair(1991:171)较早给出具有代表性的语料库定义:“a collection of naturally occurring language text, chosen to characterize a state or variety of a language”[(语料库是)自然发生的语言文本汇集,用于描写某种语言的状态和变体]。Hunston(2002:2)更为具体地将语料库界定为“a collection of naturally occurring examples of language, consisting of anything from a few sentences to a set of written texts or tape recordings, which have been collected for linguistic study”[(语料库是)为语言学研究而收集的自然发生的语言集合,可以是数个句子,也可以是文本或录音集]。由上述定义可见,语料库为语言描写提供了丰富的语言实例,从而更好地帮助我们观察自然语言使用的规律和特点。
杨惠中(2002)总结道,语言学研究必然涉及语言材料,根据采集和使用语言材料的不同途径,现代语言学研究的基本方法主要有三种,即内省法(introspection)、诱导法(elicitation)和语料库相关的方法(corpusrelated approach)。内省法以语言学家本人为语料提供者,以依靠语言学家自己的语感作为判断歧义、正误、可接受性等的依据。诱导法是通过实地调查收集人们对实际使用的语言材料的看法和心理反应,通常采用有控制的方法诱导出被试者对句子或句子中某个成分的判断,要求被试者确定句子中是否有错误、句子的可接受程度、其对句子的理解程度以及其他类似的有关数据。采用诱导法可以使结论带有某种程度的客观性和可靠性,从而获得对某个语言事实可接受程度的判断。语料库方法则是在随机采样的基础上,收集具有代表性的真实语言材料。可以说,研究语料库中的语言材料近似于研究语言本身。
语料库样本多、规模大、来源广的特点使得语言研究及其结论具有很强的客观性、普遍性与稳定性,所得到的结论不会被轻易否定。因为“比较大的样本可以减少样本统计量的变异”(崔希亮、张宝林 2011:103),所以语料库的优越性能够保证结论的可靠性。正如梁茂成(2016:6-7)的评价:从某种意义上说,语料库是语言理论的试金石。如果我们提出某种理论或者利用某种方法得出一种结论,但这种结论与语料库呈现的语言事实不符,我们则有理由认为,这种理论还需要进一步完善。(www.xing528.com)
但是,语料库的不足之处是无法告诉我们文本作者使用某一特定语言形式的原因。如Cook(1998)所言,语料库不能告知研究者语言如何在大脑中得到处理或者无法揭示某一语言结构的认知选择。这也意味着,研究者需要对语料库的发现补充文本参与者或代表群体的认知和识解;另一方面,无论多大规模的语料库都无法囊括语言使用的全部。“语料库不过是片面实据(Corpora are only partial authorities.)。语言使用者的语言经验随着积累而日益增长和丰富”(Cook 1998:39)。因此,我们需要认识到,语料库是在一定时期内收集的数据片段,任何语料库都具有局部时间性,在建立之后可能很快就会过时。但是这并不意味着基于语料库的发现是无效的,只不过在对发现下结论时需要谨慎,把握好结论适用的度和范围。此外还应该认识到,对于语言形式和表现缺位的情况,语料库常常显得无能为力。换句话说,语料库能够告诉我们语料文本中有什么语言,却难以告知不含有什么语言。在应用语料库发现时,我们应该充分认识到这一局限。例如,基于多学科英语学术论文语料库的研究发现自然和生命科学领域论文使用立场标记的频率明显少于人文和社会科学领域,但是我们不能草率地认定理工学科学术论文缺少学术立场和判断,只不过理工科语篇很可能不是通过显性的语言形式建构立场,而是基于隐性知识表达价值判断。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。