首页 理论教育 英国学术笔语语料库搭配词排名前十,数据和方法揭示搭配规律

英国学术笔语语料库搭配词排名前十,数据和方法揭示搭配规律

时间:2023-08-05 理论教育 版权反馈
【摘要】:表4.3英国学术笔语语料库research位列前十的搭配词在这里,我们需要注意几个问题。Stubbs建议选取左右侧四个词,而Sinclair认为左侧五个词、右侧四个词更为适宜,因为“搭配规律的强度左侧比右侧高”。其次,我们发现表4.3中很多高频搭配词并不能明显表示和节点词之间的关系。表4.4和表4.5分别是BNC学术英语子库中data按照T值和互信息值排列的跨距为左3至右3的前20位搭配词。Ackermann & Chen利用语料库统计和专家甄别的量化与质化方法,建立了学术搭配词表。

英国学术笔语语料库搭配词排名前十,数据和方法揭示搭配规律

语料库实证始终显示:意义更大程度上来自于词汇的相互选择,而非单个词汇。其中的一个选择关系就是搭配。搭配由伦敦学派创始人、语境论提出者John R. Firth给予界定并将其理论化。Firth(1957:14)认为任何一个词的含义总是取决于语境,脱离完整语境的意义考察是没有意义的,因而词语的意义依赖“习惯性共现的词语”。Baker et al.(2006:36-37)将其描述为在特定语境下词汇与其他词汇组合出现的现象。Sinclair(1991:170)将搭配具体定义为两个或两个以上的词在文本中相距不远处共同出现。梁茂成(2016:41)认为,该定义其实体现了多层含义:其一,搭配是词汇层面的,离开了具体的词汇,搭配无从谈起;其二,搭配是一个序列,至少涉及两个词;其三,相互搭配的词语之间相距不远,一般在一定跨距之内;最后,搭配存在于文本之中,离开文本无所谓搭配,这体现了Sinclair的文本中心说。

关于搭配,一个经常引用的例子就是Firth举例的dark night,即“One of the meanings of night is its collocability with dark, and of dark, of course, collocation with night.”(Firth 1957:196)。night的意义之一在于它可以与dark搭配,同样,dark的意义之一在于它可以与night搭配。搭配词(collocate)也是与某词在上下文共现和互选的词汇,共现和互选需达到一定的频率以保证不是随机发生的。此外,Firth(1957)认为,搭配是词汇之间的横组合关系(syntagmatic relation),即两个词之间存在一种相互期待(mutual expectancy)和相互预测(mutual prediction)。表4.3为词汇research在英国学术笔语语料库(BAWE)中位列前十的搭配词,包括频率由高至低排序以及与节点词research的相对位置。如表4.3所示,the的总体频率最高。L1表示位于节点词左侧的第一个词,同理R1是位于节点词右侧的第一个词。

表4.3 英国学术笔语语料库(BAWE)research位列前十的搭配词

alt

在这里,我们需要注意几个问题。首先,在分析搭配词时,需要选择上下文涵盖的范围,如在表4.3中,范围是节点词左右各五个词。通常认为选择四至五个词的范围为宜。Stubbs(2001)建议选取左右侧四个词,而Sinclair(2004)认为左侧五个词、右侧四个词更为适宜,因为“搭配规律的强度左侧比右侧高”。其次,我们发现表4.3中很多高频搭配词并不能明显表示和节点词之间的关系。比如第一个搭配词the,显然它不仅和research搭配,还与其他很多词汇形成搭配关系,而频率稍低的词(如qualitative、development、method等)则是更具有启示意义的搭配词。因此,我们需要借助统计方法衡量搭配词的频率与显著性,或称搭配强度(collocation strength)。常见方法有Z值(Z-score)、T值(T-score)、互信息值(Mutual Information,简称MI值)、卡方检验、对数似然比等(梁茂成 2016)。T值和互信息值是比较常用的统计检验方法。Stubbs(1995)对每一种统计方法的优点和不足进行逐一阐释,这里我们以表4.4和表4.5为例略谈一下T值和互信息值的比较。表4.4和表4.5分别是BNC学术英语子库中data按照T值和互信息值排列的跨距为左3至右3的前20位搭配词。

表4.4 BNC学术英语子库中data的跨距为左3至右3的前20位搭配词(根据T值)

alt

alt

表4.5 BNC学术英语子库中data的跨距为左3至右3的前20位搭配词(根据MI值)(www.xing528.com)

alt

alt

由表4.4和表4.5可以看到,基于T值的搭配词多数是由语法功能词构成,而基于互信息值的搭配词多数是实义词汇。这是因为互信息值通常突出与检索词同现频率相对不高的搭配词,而T值恰好相反。Sinclair(1991:116)分别将它们称为“上行搭配词”和“下行搭配词”,前者往往适用于语法结构分析,而后者适用于语义分析。因此,T值和互信息值能够帮助研究者识别不同的搭配信息。

在学术英语研究中,搭配分析通常着眼于揭示文本的学科导向性或者服务于教学目的。例如,Ward(2007)基于自建语料库对比考察了化学工程与工程其他方向教材的语言特征,发现化学工程学教材中搭配现象非常普遍,这构成高频词出现的诱因。此外,高频词gas、heat和liquid仅出现在化学工程方向而非其他方向的教材中,其他方向的高频词(如system、time和factor)搭配也表现出很强的学科倾向。Vincent(2013:47-49)提出了适用于学术英语教学的短语结构的词汇搭配识别方法,即找到潜在短语表达(如the concept of),提炼短语核心(the…of),再基于语料库确定短语核心搭配的频率是否达到值得教学重视的水平,再分析不同的搭配选择是否表达相似的含义,并形成固定的表达功能。例如,Vincent(2013)基于T值发现the…of短语核心常见的搭配词包括use、presence、case等,用来表达某概念或事物的存在,该短语核心的高频出现使其成为教学重点。

Ackermann & Chen(2013)利用语料库统计和专家甄别的量化与质化方法,建立了学术搭配词表(Academic Collocation List,简称ACL)。它包含2,468个最高频的搭配选项,进一步为学术英语教学提供搭配方面的信息。考虑到互信息值与T值各自的优缺点,Ackermann & Chen(2013)设定筛选互信息值不低于3且T值不低于2的搭配,因为基于该检索设定的搭配被认为是“关联度最强、最确定的搭配”(Hunston 2002:75)。首先,选取每百万词至少出现5次且分布在五个以上不同文本的实义词项作为节点词,筛除语法功能词、专有名词和基础词表(General Service List)中的通用词汇。然后,基于上述选取的节点词,共得到超过130,000项搭配信息,每项包括节点词、搭配词及其位置、初始频率、互信息值、T值、搭配分布的文本数量、搭配在每个学科出现的标准化频率等。接下来,研究者结合语法标注选择,仅保留动词+名词(如gather data)、形容词+名词(如systematic approach)、副词+形容词(如increasingly complex)、副词+动词(如significantly affect)四类主要的语法结构。再经过学科专家的主观识解,判断所得到的搭配对学术英语学习和教学的相关性和适用性。最终确定该学术搭配词表包含2,468项服务于学术英语教学的搭配选项,并通过不同的词性标注组合呈现,如图4.7所示。

alt

图4.7 学术搭配词的词性标注组合示例(Ackermann & Chen 2013)

Ackermann & Chen(2013)总结道,这些搭配具有学科间性和动态变化特征,是学生不易掌握的学术英语语言。搭配词表为学术英语教学材料的撰写,提升学生词汇水平提供参考资源和依据。对于学术英语搭配的教学,应该采用显性和隐形结合的方式,提高学生词汇搭配输入和输出的能力,从而增强学生的学术英语水平。因此,Ackermann & Chen(2013)建议应将词汇搭配加入学术英语教学内容当中。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈