常见的与学术英语相关的语料库包括自建语料库和开放语料库、通用语料库和专门语料库、口语语料库和笔语语料库、本族语者语料库和二语学习者语料库、专家语料库和新手语料库、共时语料库和历时语料库等,以下将逐一介绍。
第一,自建语料库和开放语料库。
根据学术英语研究的目标,研究者通常结合教学实践自建语料库。譬如,研究者对新兴的生物信息学学科的语篇特征感兴趣,便可搜集生物信息学领域权威的期刊论文,自建该学科语料库。又如,研究者对不同年级学生的学术论文语言特点感兴趣,便可搜集不同年级学生的学术论文,自建专门语料库。当然,我们也可以结合自己的研究目的选择已建成的开放语料库。例如,以不同年级学生学术论文的语言特点为研究目标,研究者除了选择自建语料库,还可以选用包括英国学术笔语语料库(British Academic Written English corpus,简称BAWE corpus)和密歇根大学高水平学生论文语料库(MICUSP)在内的开放语料库。采用现成的开放语料库可以减少建设语料库的技术困难,简化搜集、清理、标注和赋码过程。在线的应用界面也为用户提供方便的操作方法。然而,自建语料库能够实现更为灵活、具体和专门的语料搜索和调查,这对于学术英语研究来说更具针对性。
第二,通用语料库和专门语料库。
通用语料库(general corpus)通常代表一种语言的整体,而专门语料库(specialised corpus)代表某一种用途或领域的语言。英国国家语料库(British National Corpus,简称BNC)和美国当代英语语料库(Corpus of Contemporary American English,也称COCA)是最为典型的通用语料库,它们分别代表英国英语和美国英语,既包含笔语又包含口语,同时涵盖各类语言的使用场合和语域。因此,基于BNC和COCA的发现和结论往往是关于英国英语和美国英语整体的情况。但是,学术英语所用的通用语料库一般是代表多语域的学术英语整体,比如BNC学术语体集合。这类通用语料库可用于揭示学术英语有别于其他语体的专有语言特点。例如,Coxhead(2000)集合学术英语各类体裁,包括期刊论文、教材、通用语料库的学术体裁部分和学术指南,整体考察了通用学术英语词汇的频率和覆盖率。
相对来说,学术英语中的专门语料库通常是代表某一学术体裁、某一学科和某一群体的语料库。比如,华中农业大学建立的农科医学英语论文语料库(刘萍等 2015)是农科医学领域的权威期刊论文的专门语料库,代表该特定学科体裁的语言使用。对于学术英语语料库的建设和选择,语料涉及的学术语境越具体,体裁和学科类别越明确越好。
通用语料库虽然一般都含有学术英语部分。但是因为通常存在全文欠缺和体裁不均衡两方面问题,所以它们在学术英语研究中的适用性有限。这两个问题在学术英语研究中不可忽视。以BNC为例,BNC含有500个书面学术文本,约为1,600万词符,体裁涵盖论文、教材、专著、评论等。BNC的书面学术部分可以作为考察学术英语的整体语言特点的文本,譬如与BNC全库比较,分析学术英语的主题词。但是我们需要注意的是,BNC学术部分的体裁分布不均匀。在医学领域,90%的语料是期刊论文;在社会学和法学领域,60%来自专著,40%来自期刊论文;而在社会科学领域,80%来自专著,只有20%来自期刊论文。可见,我们应该谨慎使用BNC学术部分进行学术语篇的学科对比。体裁的学科分布不均降低了学科之间的可比性。尽管通用语料库不是以体裁代表性为建设标准,但是其学术文本部分存在的另外一个问题是语料常常不是完整的文章,而是文章片段,这不利于体裁结构分析等语篇研究,限制了应用的范围。可见,通用语料库未必适用于学术英语研究。正如Lee(2001:37)的观点,语境具体的专门语料库对于特殊用途英语研究具有更大的价值。专门语料库能够实现语料文本之间的可比性,便于基于体裁结构的文本考察,可以在纯语言分析中加入互动、语用和语境因素。
第三,口语语料库和笔语语料库。(www.xing528.com)
语料库按照语言传播媒介又可以分为口语语料库和笔语语料库。相对于笔语语料库,口语语料库建设难度较大,因为它受口语发生的即时多变环境影响较大,同时取样过程复杂困难。此外,口语语料库的建设还需要转写——把口语语料人工手动转写成文本,以文字形式录入语料库。为了满足各种研究需要,在转写口语语料时,通常还需要制定转写规则,规范记录口语特征(如停顿、犹豫、重复、强调等)的操作。因此,通常口语语料库学术英语研究在规模和数量上比笔语语料库学术英语研究相对要少。在学术英语研究方面,英国学术口语语料库(BASE corpus)和密歇根学术英语口语语料库(Michigan Corpus of Academic Spoken English,简称MICASE)是两个具有权威和代表性的口语语料库,均以学生的学术英语口语为对象。以MICASE为例,该语料库包括学业辅导(advising session)、研讨会(colloquium)、论文答辩(dissertation defense)、小组讨论(discussion section)、访谈(interview)、实验交流(lab section)、课堂教学(lecture)、会议(meeting)、办公室交谈(office hour)、讲座(seminar)和论文报告(paper presentation)等,也囊括了常见的学术英语口语交流场景。与英国学术口语语料库(BASE corpus)和密歇根学术英语口语语料库(MICASE)相对应,英国学术笔语语料库(BAWE corpus)和密歇根大学高水平学生论文语料库(MICUSP)是较具代表性的笔语语料库,涵盖了学术英语语境中常见的笔语交流体裁。以MICUSP为例,该语料库包括论说文(argumentative essay)、创意写作(creative writing)、评论(critique/evaluation)、研究计划(proposal)、报告(report)、研究论文(research paper)等,涵盖学术英语书面体裁广泛的语言特征。
第四,本族语者语料库和二语学习者语料库。
学术英语语料库另一个常见的分类是本族语者语料库(native speaker corpus)和二语学习者语料库(learner corpus)。本族语者语料库通常收集的是英语母语人群产出的学术英语语料,而二语学习者语料库收集的则是英语作为第二语言的语料。在研究中,我们常常把二语学习者语料库作为观察语料库,以本族语者语料库为参照语料库,进行对比分析,目的在于发现学习者语言的特点。Sylviane Granger提出的中介语对比分析方法(Contrastive Interlanguage Analysis,简称CIA)是较为常见的学习者语料库研究方法。
第五,专家语料库和新手语料库。
专家语料库(expert corpus)和新手语料库(novice corpus)是学术英语研究方面独特且十分常见的语料库分类。专家语料库收集的是被认定为学术话语实践资深人群的语料,代表学术英语话语共同体认可的语言特征,而新手语料库收集的是在学术话语实践方面处于新手学徒阶段人群的语料,代表有待被学术话语共同体接受的语言表现。学术英语与其他变体的英语语言不同,它被学界认为不是任何人的母语(Bourdieu & Passeron 1994;Hyland 2015a)。因此,正如Swales(2004:56)所言,学术英语语言使用最重要的区别不在于本族语和非本族语者,而在于经验丰富、资深的学者与经验不足的初学者。Hyland(2005b)自建多学科本科毕业报告语料库和相应学科的权威期刊论文语料库。他将两个语料库分别视为新手语料库和专家语料库,对比学生和学科专家在学术语篇中使用“读者带入”(reader engagement)语言资源的异同。专家语料库和新手语料库有别于本族语者语料库和二语学习者语料库,专家语料库未必全是本族语者语料,而新手语料库也未必都是二语学习者语料。专家语料库和新手语料库都可以是本族语者语料。总之,学者需要根据不同的研究目标来选择适宜类型的语料库。
第六,共时语料库和历时语料库。
按照语料文本产生的时间,语料库又可以分为共时语料库(synchronic corpus)和历时语料库(diachronic corpus)。共时语料库收集的是同一时期内产生的语言,而历时语料库收集的是不同时期内产生的语言。历时语料库建设的目的是为了研究语言的历时变化,比如西班牙拉科鲁尼亚大学建立的哲学英语文本历时语料库(Corpus of English Philosophy Texts,简称CEPhiT),相关研究旨在分析中古近代哲学学术文本的语言特征(Moskowich et al. 2016)或者以共时语料库为参照发掘语言发展和变化的规律(Seoane 2015)。就技术层面而言,相对于共时语料库,历时语料库的建设难度更大,面临的困难包括历史文本的搜集、历史文字的识别和转换等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。