首页 理论教育 多学科语料库的3词、4词和5词词块研究及结果

多学科语料库的3词、4词和5词词块研究及结果

时间:2023-08-05 理论教育 版权反馈
【摘要】:表4.6多学科语料库的3词、4词和5词词块词块研究常常涉及识别与分类两方面问题。譬如,比较八万词与四万词两个小型语料库,若将阈值设为每百万词40次,这意味着词块在第一个语料库的初始频率为3.2次,在第二个语料库为1.6次,四舍五入后初始频率分别为3和2次。结果发现,两次实验结果中仅有56个共同的词块,400万词符语料库的词块中有19个不在200万词符的子库中,而子库含有28个独有的词块。

多学科语料库的3词、4词和5词词块研究及结果

词块(lexical bundle),简言之是词与词的组合,属于多词单位(multiword unit)、多词序列(multiword expression)或与此类似的说法,如词族(cluster)、预制词块(prefab或prefabricated chunk)、套语(formulaic sequence)、N元组(n-gram)等(梁茂成等2010:13)。词块呈现频率高的词汇组合,塑造文本在特定语境的意义,增强篇章的连贯和可读性,因此是学术英语研究中的一个热点

词块是在自然语言中反复出现的非习语词串(Biber et al. 1999),是可作为整体储存和使用的扩展化搭配(extended collocation),反复出现的频率和范围高于随机偶然(Cortes 2004)。它们可以是2词组合、3词组合、4词组合或者4词以上的组合。其结构和意义可以是完整的,也可以是不完整的(例如,as seen、the fact、the nature of、is a key、as a result of、on the other hand、in the case of the、the context of the、it is likely to)。词块能够提高语言处理的效率和表达的流畅度。3词词块是出现颇为频繁的扩展搭配组合,4词、5词词块则更近似于词组搭配,频率相对低一些。表4.6是基于应用语言学社会学电子工程和物理学四个学科80篇期刊论文小型语料库(约60万词符)而制作的3词、4词和5词最高频的前十个有效词块表。它们的频数分别为40,389例、7,768例和3,082例。可见,3词词块最多,但是时常包含在4词词块中,而同时4词词块又常包含在5词词块中。

表4.6 多学科语料库的3词、4词和5词词块

alt

词块研究常常涉及识别与分类两方面问题。识别是指选择词块包含的词项数(如3词、4词或5词),设定词块出现的频率和词块的文本覆盖率,而分类是指词块的结构与功能分类。接下来将分别论述词块的识别与分类。

通过频率与覆盖面判别词块不仅是词块研究的传统,也是确保研究方法清晰明了的必要条件(Altenberg 1998)。然而,已有文献中没有统一既定的标准,其呈现因研究者和研究侧重点不同而“任意性较强”(Cortes 2013)。就频率设定而言,Biber et al.(1999)和Biber(2006b)采用每百万词出现10次,Cortes(2004)和Hyland(2012b)采用每百万词出现20次,还有研究选择“最为保守的”每百万词出现40次(如Biber & Barbieri 2007)。此外,仍有不同的是Chen & Baker(2010),她们采用出现4次的初始频率,并认为频率阈值的选择和语料库规模有关,标准化频率适合规模较大的语料库,而小型语料库适合使用初始频率。她们认为,这是因为当标准化频率转化为初始频率时,小型语料库的词符数将会影响最终得到的词块数量。譬如,比较八万词与四万词两个小型语料库,若将阈值设为每百万词40次,这意味着词块在第一个语料库的初始频率为3.2次,在第二个语料库为1.6次,四舍五入后初始频率分别为3和2次。而与此对应的再计算标准化频率为37和50,并非当初的40。因此,Chen & Baker(2010:32)认为标准化频率在选取词块时值得商榷,标准化的阈值在转化为初始频率时受语料库规模的影响,偏失预期的公平客观性,并建议同时报告标准化频率和初始频率。

词块覆盖面的选取旨在降低单一文本使用某词块的特殊性,但是也没有统一的标准。Biber & Barbieri(2007)选择三至五篇文本作为适宜覆盖面,而Hyland(2012b)则采取10%的浮动范围作为词块覆盖面。在最近一项历时研究中,Hyland & Jiang(2018)选择以10%的浮动范围而非三至五篇的固定范围作为词块覆盖面,因为百分比的浮动范围能够保证词块在历时语料库各时间段子库中覆盖面的一致性。

学术语篇研究经常比较不同语料库之间的词块分布,因此我们有必要强调此类研究需谨慎使用词块的标准化频率。Cortes(2002,2013)也曾反复指出通过常见的标准化频率比较不同语料库之间的词块使用频率是不可靠的。Cortes(2002)在400万词符学术文本语料库中检索每万词20次且出现在五个以上文本中的词块,共找出75个词块;然后再将该语料库分成两个约200万词符的子库,并在其中一个子库中按照同样的标准找出84个词块。结果发现,两次实验结果中仅有56个共同的词块,400万词符语料库的词块中有19个不在200万词符的子库中,而子库含有28个独有的词块。详见表4.7。可见,根据标准化频率,略小的语料库包含的词块很可能多于较大的语料库,因为在略小的语料库中,词语链接并不需要多次反复出现即能满足设定的标准化频率。鉴于此,Hyland & Jiang(2018)采用百分比率衡量了词块在不同的历时学术论文语料库中的差异和变化。

表4.7 400万词符语料库与其200万词符子库的词块比较

alt

分类是词块研究的另一重要问题,通常包括结构与功能的分类。

就结构分类而言,Biber et al.(1999)列举了12个种类的词块结构,包括人称代词+实义动词+补足语(如I don't know what)、代词+be动词+其他(如it was in the)、介词+名词成分(如as a result of)和it+形容词+补足语(如it is possible to)等。Biber et al.(2004)又将词块类别修正为17种,并将其重新划分为动词短语成分、从句成分、名词短语和介词短语成分三大类,详见表4.8。

表4.8 词块的结构类型(Biber et al. 2004)

1.包含动词短语成分的词块

1a.(连接词+)第一、第二人称代词+动词短语成分

例:you don't have to、I am not going to、well I don't know

1b.(连接词+)第三人称代词+动词短语成分

例:it's going to be、that's one of the、and this is a

1c.话语标记+动词短语成分

例:I mean you know、you know it was、I mean I don't

1d.含有非被动式动词的动词短语

例:is going to be、is one of the、have a lot of、take a look at

1e.含有被动式动词的动词短语

例:is based on the、can be used to、shown in figure N

1f.yes-no问题成分

例:are you going to、do you want to、does that make sense

1g.wh-问题成分

例:what do you think、what does that mean

2.包含从句成分的词块

2a.第一、第二人称代词+从句成分

例:I don't know if

2b.wh-从句成分(www.xing528.com)

例:what I want to、what's going to happen、when we get to

2c.if从句成分

例:if you want to、if you have a、if we look at

2d.(动词或形容词+)to从句成分

例:to be able to、to come up with、want to do is

2e.that从句成分

例:that there is a、that I want to、that this is a

3.包含名词短语和介词短语成分的词块

3a.(连接词+)含有of短语成分的名词短语

例:one of the things、the end of the、a little bit of

3b.含有其他后置修饰成分的名词短语

例:a little bit about、those of you who、the way in which

3c.其他名词短语表达片段

例:a little bit more、or something like that、and stuff like that

3d.介词短语表达片段

例:of the things that、at the end of、at the same time

3e.比较类表达片段

例:as far as the、greater than or equal、as well as the


基于T2K-SWAL语料库的课堂话语与教材子库和自建的学术论文语料库,Biber et al.(2004)发现课堂话语中词块使用频率最高,约为学术论文的三倍、大学教材的四倍。但是就结构类型而言,课堂话语中三类词块的比例基本均衡,各占约三分之一;教材和学术论文中名词短语词块占绝大比例,动词短语词块不足六分之一,且含有从句成分的词块比例最低。Biber et al.(2004)进一步发现,课堂话语中与从句相关的词块多含有陈述句疑问句成分,同时与名词短语和介词短语相关的词块出现的频率也较高。由此可见,课堂教学在很大程度上依赖词块形式的话语片段来讲解学科概念和传授知识。相比之下,教材使用词块较少,或许是因为教材编写者倾向于使用更为完整的句子表达方式,也可能是由于教材编写不受面对面交流的认知限制,进而有充足的时间选取多样化的语言使用。

Hyland & Jiang(2018)发现,在过去的五十年间,包含名词短语的词块在学术论文中尽管呈下降趋势,但仍然是学术语篇词块的主要形式。而动词短语的词块逐年增长,从句相关词块的使用则几乎保持平稳不变。

关于词块的功能分类,虽然不同学者提出不同的划分方法及名称,但基本上都是根据系统功能语言学关于语言的三大元功能展开的。例如,Biber et al.(2004)将词块的功能分为立场功能、篇章组织和信息指示三个方面,Hyland(2008b)提出按照人际导向、文本导向和研究导向的功能分类。由此可见,上述三分法大体上分别围绕人际功能、篇章功能和概念功能展开。

Biber et al.(2004)和Hyland(2008b)的功能分类是学术语篇研究应用最为广泛的框架。在Biber et al.(2004)的功能分类中,立场功能指作者对观点和信息的态度和评价,包括认知立场和态度或情态;篇章组织指上下文语篇的组织关系,包括话题导入和话题阐释;信息指示用于提及现实或抽象事物或者指示文本语境,包括聚焦、概指、具体说明、时间地点,详见表4.9。

表4.9 Biber et al.(2004)的词块功能分类

alt

alt

有意思的是,Biber et al.(2004)发现不同功能的词块在课堂话语、大学教材和学术论文中出现的比例差异较大。立场功能和篇章组织的词块在课堂话语中使用的比例较大,而信息指示的词块在教材和学术论文中的比重大幅增加。可见,教师在课堂教学时一方面使用词块组织教学内容,另一方面与学生进行口头互动并表达对知识的说教式见解。

Hyland(2008b)的词块功能分类更着眼于研究类体裁,如期刊论文、学位论文等,分为人际导向、文本导向和研究导向三类。人际导向指词块的使用涉及读者或作者本人,包括立场和带入;文本导向指贯连文本,谋篇达意,包括语意过渡、因果推论、组织和引导、搭建条件;研究导向指词块用于描述物质世界的行为与过程,包括地点、过程、量化、描述和话题,详见表4.10。

表4.10 Hyland(2008b)的词块功能分类

alt

Hyland(2008b)基于自建的电子工程、生物、商科和应用语言学期刊论文和硕博论文语料库,发现在多学科学术论文中文本导向的词块出现频率最高,其次分别是研究导向和人际导向的词块。在该语料库分析中,类属“硬学科”的电子工程和生物学使用研究导向词块的比例高于其他两类词块,而两个“软学科”中文本导向的词块频率最高。Hyland(2008b)认为这与两类学科的知识建构方式紧密相关。硬学科学术论文侧重描写实验观察和物质世界的结果,所以此类学科论文的词块常常描述研究物体的属性、方法流程和研究环境。相比之下,软学科以话语论辩和主体评价为主要知识呈现方式,语篇的说服力建立在逻辑推理和文字阐述之上,因此所用词块更大程度上是帮助作者衔接语篇片段,引导读者理解文本意义。然而,从历时角度观察词块的功能使用,Hyland & Jiang(2018)发现,硬学科降低研究导向词块的使用,而不断增加人际和文本导向词块,以迎合大众读者的交际和互动需求;软学科则伴随着实证研究范式的日益加深,逐渐增加研究导向词块的使用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈