首页 理论教育 语料库的应用于学术英语研究

语料库的应用于学术英语研究

时间:2023-08-05 理论教育 版权反馈
【摘要】:ELFA语料库约计100万词符,约有131小时的对话录音,是学术英语通用语领域目前规模最大、使用最广的建成语料库。相关研究主要围绕通用语的各种非标准语言特征,发现其出现的频率与规律。

语料库的应用于学术英语研究

随着高等教育国际化的加深和学术成果发表国际化的拓展,英语作为一种沟通语言在越来越多的学术交流和场合里为不同母语背景的人群所使用。与其他语境一样,英语在学术交流中作为一种有效的接触性语言,能够促进不同母语背景人群、不同文化人群之间的互相沟通。同样,在很多其他领域,英语非本族语使用者也远远超过了本族语者,这表明英语不是学术交流群体的第一语言,而是第二或者附加语言。Mauranen(2003)认为,英语作为学术通用语的交际话语存在三个特点:一是学术交流,涉及全球与本地的学术对话;二是多元文化,涉及跨文化的互动;三是国际范畴,对国际界限没有清晰、明确的限定。这三个特征也使得英语作为学术通用语的研究有别于其他范畴的英语通用语研究。

通常,英语作为通用语研究的理念可以简单地概括为:研究者并不认为英语使用者为非本族语人群的表现异于本族语者,非标准的语言使用也并不是一个偏误和问题,而是将其视为可接受的语言变体,因为它们并没有导致实质性的交流障碍和理解误会(Mauranen 2012;文秋芳 2014)。相关研究围绕语言形式、语言所表达的内容、语言内容的组织形式(文秋芳 2014),关注英语通用语使用者如何使用信息补全、排疑、反馈、类比等各种不同的语言特征及策略,不断调整交际信息,协同构建意义,最终达到互相理解,顺利完成交际任务的目的。此类研究没有明显的价值判断,更多是从完成交际功能出发,描述英语通用语语言体系的规律性和变异性。Mauranen(2012:15-57)将英语通用语研究视角概括为三个层面:个体认知层面(individual cognitive level)、微观社会层面(microsocial level)和宏观社会层面(macrosocial level),分别聚焦参与者个体、话语事件和话语共同体。在英语通用语的交际语境中,参与者在会话中的互动反映其对语言和社会范畴的个体认知过程,话语事件构成参与者之间最直接的社会环境,嵌置于一定的社会文化和经济关系中,并建构和重塑社会结构。

传统上,该类研究倾向于使用学习者的诱发数据,直到20世纪末英语通用语语料库相继建立,才转向通过收集大量的不同母语者的英语语料,对英语通用语作出系统、完整的描述,揭示其共核特征。目前较具代表性的英语作为通用语的语料库包括维也纳–牛津国际英语语料库(ViennaOxford International Corpus of English,简称VOICE)、国际跨语言中介语语料库(International Corpus of Crosslinguistic Interlanguage,简称ICCI)、亚洲英语学习者国际语料库(International Corpus Network of Asian Learners of English,简称ICNALE)和亚洲英语语料库(Asian Corpus of English,简称ACE)。这些语料库涉及广泛的职业、教学和日常生活语境,且均为口语语料。

就英语作为学术通用语而言,其研究始于20世纪末英语作为学术通用语(English as a Lingua Franca in Academic settings,简称ELFA)语料库的建立(Mauranen et al. 2016)。根据Mauranen(2003),为了满足学术语境下通用语的理论建设、分析研究和实践应用的需要,芬兰坦佩雷大学(University of Tampere)建立了英语作为学术通用语语料库。ELFA语料库约计100万词符,约有131小时的对话录音,是学术英语通用语领域目前规模最大、使用最广的建成语料库。语料来源于坦佩雷大学、坦佩雷理工大学的国际学位项目和其他学术活动以及各类学术会议的录音转写。这些录音语料均涉及芬兰学生与国际学生的纯英语交流,而且国际学生范围涉及较广,约有来自51个国家分属不同一语背景的650位话语者,且第一语言涵盖日耳曼语族的德语、丹麦语、荷兰语瑞典语,罗曼语族的法语、意大利语、葡萄牙语和罗马尼亚语,斯拉夫语族的波兰语、俄语和保加利亚语,波罗的语族的立陶宛语,库希特语族的索马里语,大西洋–刚果语族的阿肯语和斯瓦希里语,芬兰–乌戈尔语族的芬兰语,闪语族的阿拉伯语,印度语族的乌尔都语汉藏语系的汉语。英语为本族语的情况仅占5%。

学科选择考虑到领域范围、学科专业和分支方向三方面因素。就领域范围而言,ELFA语料库主要包括社会科学(29%)、计算科学(19%)、人文科学(17%)、自然科学(13%)、医学(10%)、行为科学(7%)以及经济管理学科(5%)七个领域。每个领域下又涵盖多个学科专业,比如人文科学包括历史学、哲学等,而每个学科又包括诸多方向,比如历史学包括芬兰历史、美国历史等。

同时,建立原则反映学术通用语视域下国际学术交流的复杂社会因素,涉及各个不同的研究领域,涵盖学术语境下广泛的话语事件体裁,比如博士论文答辩、学术研讨、小组讨论、会议报告以及课堂教学,覆盖两人及多人之间的对话情境。根据典型性(prototypicality)、影响力(influence)和声望(prestige),ELFA语料库对体裁进行了选取(Mauranen 2003:522)。典型性是指体裁为大多数所选学科使用的程度,例如课堂话语和研讨会通常是每个学科都会涉猎的话语事件;影响力是指体裁中参与群体的覆盖面,例如口试和论文答辩是绝大多数学生都会参与的话语事件;重要性是指体裁在话语共同体中的地位,例如主旨发言和会议开幕词都是学术话语共同体看重的话语事件。

相关研究主要围绕通用语的各种非标准语言特征,发现其出现的频率与规律。比如Ranta(2006)基于ELFA语料库对动词进行时的使用进行调查,通过与MICASE对比,发现英语非母语者使用动词进行时的频率远低于本族语者,即ELFA语料库中含有动词进行时的标准频率约为每万词41例,而在MICASE中的标准频率约为每万词76例。相比MICASE,ELFA语料库中进行时的分布更加广泛,且形式多样。ELFA语料库中77%的进行时前面伴有be的完全形式。而这在MICASE中却仅有42%,其余58%是be的缩略形式。此外,另一个重要的发现是,ELFA语料库中存在三类非标准的进行时使用。第一类是静态动词(stative verb),包括感知动词(如see、feel)、情感动词(如like、hate)和关系动词(如belong to、consist of)。这类动词在ELFA语料库的进行时中占3.6%,而在MICASE中仅占1.4%。第二类是描述普遍效力(general validity)或者习惯行为(habitual activity)的动词,如breathe、occur等。这类动词占ELFA语料库的进行时比例达到5.6%,而在MICASE中仅占0.5 %。第三类是表达时间节点的进行时,如was starting和was being put up等,这类情形在ELFA语料库中占2.7 %,而在MICASE中几乎不存在。Ranta(2006:97)认为二语习得理论视上述情形为非适用语境的“延伸使用”(extended use),并将其界定为是语言使用的不良问题,但是她强调,在ELFA语料库中我们没有观察到明显的沟通误解与交流不畅,话语双方的对话没有受到任何阻碍。因此Ranta(2006:114)质疑为何要将广泛的二语学习者普遍使用的语言现象定义为错误的语言问题。

同样,基于ELFA语料库和MICASE,Metsä-Ketelä(2006)关注了模糊语more or less的使用,因为模糊语关系到二语使用者的语用能力以及英语为母语的使用者对非母语者的认知评价。研究发现,more or less在ELFA语料库中平均每万词出现约1.58次,而在MICASE中每万词仅出现约0.2次。因此,该模糊语在二语会话者交际中更为常见。此外,在功能上,在ELFA语料库中more or less通常用于调节话语强度和信息肯定性。具体而言,more or less主要发挥“降低”(minimizing)、“类同”(comparing similarities)和“近似”(approximating quantities)三方面的功能。然而,Metsä-Ketelä(2006:140)发现,第一个功能仅出现在ELFA语料库中。可见,在通用语语境中模糊语常常用来降低话语所及范围和论述主题规模,尽管这一功能脱离标准的功能表达,但是并没有产生交际误解。因此她认为,通用语交际会产生新颖的意义表达方式,但是这种交际关键在相互合作与理解意愿,这样非标准的语言使用不会导致交际不畅。(www.xing528.com)

与Ranta(2006)和Metsä-Ketelä(2006)不同,Mauranen(2006)考察了学术通用语交际中误解发生的特征以及处理方法。首先,通过考察和识别标示误解的语言特征,她发现提出问题和重复难解词汇是直接标示误解的方式,而寻求澄清是间接的方式。同时,她认为遏制误解也是误解的体现方式,具体包括信息确认、双方提前修改和说话者自我修改等。虽然这些策略在误解产生之前发生,但是它们也表现了交际中存在的潜在误解。对比上述策略在ELFA语料库和MICASE中的频率,Mauranen(2006:146)发现在ELFA语料库中误解出现的频率远低于MICASE,但是遏制误解的频率在通用语交际中较高,这表明通用语语境中交际双方更能够理解彼此沟通的需求。另一个有意思的发现是,虽然是英语非母语者之间的交流,但是却没有发现说话双方在沟通中的语法纠正。不过,Mauranen(2006)发现,在ELFA语料库中,说话者的自我修改有时是对语法结构进行重述,相比之下在MICASE中,说话者自我修改是对复杂句意的复述而非句式的调整。最后,Mauranen(2006:147)认为,在英语作为学术通用语的交际中,交流者表现出极强的获得理解的意愿,通过遏制误解等策略以保证交际的顺利进行。此外,基于ELFA语料库,Mauranen(2010)还发现英语非母语交际者频繁使用所谓“表达话语之话语”的自反话语(reflexive discourse)(比如One thing I wanted to ask you…)。她认为自反话语的使用能促进学术表达和理解的成功,在复杂的多方交互中确保信息的顺畅交流,有助于更加清晰、准确的交际表达。

Mauranen et al.(2016:44-45)总结了英语作为学术通用语和学术用途英语的两大区别:一是学术用途英语常常把重点放在本族语的交际环境中,而学术英语通用语则强调参与者大多是英语非母语者的交际环境;二是学术用途英语传统上关注书面语言,而学术英语通用语则是初始于口语会话。但是,为了更全面地了解和考察学术英语通用语,Anna Mauranen于2011年末带领其团队对ELFA语料库进行了重要的补充,建立了学术书面通用英语(Written English as a Lingua Franca in Academic settings,简称WrELFA)语料库。该书面语语料库共计约155万词符,主要包含三个部分:博士论文评审报告(约40万词)、学术博客与评论(约40万词)和学术期刊论文投稿(约75万词)。文本均是原稿,没有经过本族语者的校对和语言修正。该语料库网页显示,学科类型大致分为自然及生命科学与社会及人文科学,前者约占55%,后者约占45%。文本作者分别拥有35个不同的一语背景,包括芬兰语、捷克语、英语、法语、西班牙语、意大利语、瑞典语、汉语和俄语等。与ELFA语料库不同的是,WrELFA语料库还考虑到作者的学术地位,其中青年学者占42%,成熟学者占30%,研究型学生占11%,其余17%为各学术领域学者。

然而,相对于学术口语通用英语而言,基于WrELFA语料库进行的英语作为笔语通用语的研究虽尚有不足。Ray Carey是其中比较有代表性的研究者。Carey(2013)关注谋篇词块(formulaic organising chunk)在WrELFA语料库中的使用,对比其在WrELFA语料库、ELFA语料库和MICASE中出现的频率和特点,认为谋篇词块在话语和交流中起到重要的协调布局作用。谋篇词块一方面构建交际互动(例如in my view、so to speak),另一方面贯连文本脉络(例如on the other hand、at the same time)。她发现,as the matter of fact与from my point of view、on the other hand与at the same time以及in my view分别是非通用语语料库中较为显著的5词、4词和3词词块。然而就构建交际互动类词块而言,相比ELFA语料库,WrELFA语料库中from my point of view较少,in my view较为频繁。此外,作者还发现在WrELFA语料库中没有出现某些标准词块的近似表达(如in/on my point of view),但是存在特定的近似词块(如in my view point、to my view、in my eyes、in my feeling等)。在连贯文本脉络的词块方面,WrELFA语料库中出现了at the same time的近似表达,如at the same moment和at same time,而这些近似词块在ELFA语料库中却极少出现。同样,WrELFA语料库中也出现较多on the one side的近似词块,如on one hand、on the one hand和on a side。因此,Carey认为,在以英语作为书面通用语的交际中,尽管词块的实际结构形式并非标准使用,但是却发挥着相同的谋篇功能,这和标准形式一样,能够促进话语交际与信息交流的有效开展。

Rowley-Jolivet(2017)以WrELFA语料库学术期刊论文投稿(SciELF)子库为语料,调查学术书面通用英语中使能动词(enabling verb)的使用。她以allow、enable和permit为切入词汇,以“allow/enable/permit+名词短语+不定式”为索引结构。研究在SciELF语料库中共发现271例使能动词,其中117例是非标准的使用形式,约占43%。非标准形式主要包括两大类:一是在使能动词和不定式之间缺少名词短语(如This analysis allows to understand the communication strategies.),二是使用动名词而非不定式(如This linkage has enabled establishing bridges.)。虽然非标准形式的使用表现出学科间差异(理工科学多于人文及社会科学),但是更值得注意的是其表现出的一语类别差异。Rowley-Jolivet(2017)发现母语为葡萄牙语、意大利语、俄语和西班牙语的作者使用非标准形式的频率最高,平均约占20%,而瑞典语和汉语作者使用非标准形式的频率最低(0例)。但是她认为,相比英语作为学术口语通用语而言,上述非标准的使用在学术书面通用英语语境中表现出有碍信息交流的迹象。

除了考察ELFA语料库之外,还有部分研究是基于自建的小型学术英语通用语语料库的。例如,Björkman(2013)关注瑞典高等教育中的特色英语授课。研究者收集了该国某一所科技大学的英语授课及小组讨论的录音,采用“大面语料宽化”(extensive)和“局部语料深入”(intensive)的两个分析阶段,旨在在量化与质化平衡的基础上研究语言形式与话语功能,考察英语作为非本族语的调查对象使用英语的形态句法特征以及相关的语用策略。研究者在第一阶段共收集42小时44分钟的课堂录音以及28小时41分钟的小组讨论录音,共约50.2万词符。这21个英语课堂共由14位教师授课,24个小组讨论来自7个不同的课程,共涉及48位参与者,语料涵盖阿拉伯语、孟加拉语、加泰罗尼亚语、汉语、英语、芬兰语、法语、德语、希腊语、冰岛语、意大利语、波斯语、旁遮普语、俄语、索马里语、西班牙语、瑞典语、土耳其语和乌兹别克语等19个语种。在第一阶段的基础上,Björkman在第二阶段深入分析共计4.6万词符的4个课堂和4个小组讨论的录音,通过结合面和点的量化与质化分析,旨在考察以下五个研究问题:(1)在上述学术英语通用语语料中是否存在共核形态句法特征?(2)如果存在的话,哪些共核特征与文献报告中的一致?(3)哪类形态句法特征的非标准使用导致明显的交流不畅和信息误解?(4)文献指出的哪一类英语通用语语用策略在语料中有体现?(5)交际者认为哪类形态句法特征具有负面作用?

相对于英语作为学术口语通用语而言,英语作为学术书面通用语的研究略显不足,并且目前学术语篇和论文发表的相关研究在很大程度上都是以本族语者的文本为语料。但是,当前一个不争的事实是,越来越多的英语非母语者参与到了国际学术发表中,而且扮演着越来越重要的角色。对英语作为非本族语学术群体语言而言,该群体面临着语言能力和学术内容的双重要求,但是研究表明他(她)们在一定程度上可以自如应对一语和二语之间的转换,表现出对研究领域、学术文化和职业发展等语境因素的主观认识(Mauranen et al. 2016)。与此同时,学术发表的读者对象也是由越来越多的英语非母语人群构成。因此,学术语篇和话语实践在语言、文化和背景等方面的界限不再泾渭分明。我们需要更多地开展关于学术英语书面通用语的实证研究,从而更好地展示上述发展的变革和表现。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈