我们在上一节看到,索引行反映的最直接信息就是词汇和结构在语料库中的发生频率。每一个词汇和结构都建构语料文本的意义,但是只有部分语言识别文本的独特性。主题词是指这样一个词汇:它在一个语料库中出现的频率明显高于它在其他同等规模或较大规模语料库中出现的频率。这里的显著程度是基于频数对比的显著性差异结果。梁茂成(2016)认为,在统计学中,频数对比最常用的方法之一是卡方检验(chi-square test),后来这种方法被借用到语料库研究中。Rayson et al.(1997)较早地使用卡方检验,对英国国家语料库中的男性口语和女性口语进行对比。研究发现男性和女性的口语表现出十分不同的词汇特征。此外,Rayson提出,卡方检验有时不够稳定,特别是在频数小于5的情况下,因此他认为语料库对比中使用对数似然比更为可靠。因此,对数似然比至今仍然是语料库对比研究中的推荐方法,也是绝大部分语料库检索软件中默认的方法。
Bondi & Scott(2010)认为,主题词是分析特殊用途语篇和阐释语域特殊性的核心因素。就功能而言,Bondi & Scott(2010:7)认为有两类主题词,一类是“基于文本内容”的主题词,关系到语篇主题的发展;另一类是“基于文本组织”的主题词,关系到语篇结构的展开。换句话说,第一类主题词是关于文本的概念结构,指示文章的所言之事;第二类主题词是关于文本的篇章结构,揭示文章的交际目标。Bondi & Scott(2010)认为,主题词未必是单个单词,还可以是词块或扩展意义单位。同样,Baker et al.(2006:97-98)发现,主题词通常包括专有名词、文体倾向的语法词以及关于文章主题的实词。主题词可以使用WordSmith等语料库工具进行自动分析。
主题词通常是两个语料库中频数有显著差异的词。在语料库对比研究中,当前研究所基于的语料库称为观察语料库,而作为参照对象的语料库称为参照语料库。参照语料库即为研究中的参照对象,而参照对象的特征会影响到对比研究的结果,因此参照对象的选择非常重要。在大多数研究中,参照语料库的规模至少是观察语料库的五倍,所以我们常以通用语料库为参照语料库。
比如,so在日常口语交流中的使用频率非常高,如果想了解该词在课堂用语中是否为关键词,就可以选定BNC课堂部分子库为观察语料库,BNC全库为参照语料库。检索发现so在观察语料库中出现的频率是2,445次,在参照语料库的频率是239,116次,如表4.1所示:
表4.1 so在课堂话语语料库的关键词计算
有了上表的基础数据,我们就可以计算出关键词的数据信息。
在大多数情况下,主题词信息不需要人工计算,语料库分析工具和在线资源通常都集成了主题词分析功能。譬如,BNCweb提供主题词在线分析,可以对两个语料库中的所有词进行穷尽比较,并将主题词值达到显著水平的词全部抽取出来,生成主题词表(图4.6)。这里,我们可以看到so的主题词信息,该行的最后一列显示其对数似然比的值为2,507.58。据此,可以得出so在课堂话语中的主题词程度。
(www.xing528.com)
图4.6 BNC语料库中课堂话语部分的关键词列表
此外,也有研究者开发专用工具,比如梁茂成开发的Keywords Plus软件。这款软件可以根据用户提供的基础数据计算主题词值。
从上述讨论中可以看出,主题词是通过对比观察语料库与参照语料库得到的,通过统计学方式揭示两个语料库间是否存在显著差异。梁茂成(2016)认为,如果主题词是实词,常常可以通过主题词来推断观察语料库的主题或所言之事,因此人们经常用这种方法来确定专业词汇;若主题词是虚词,则常常暗示语体或语言风格的差异。比如,在上述分析实例中,so在课堂话语中出现的频率显著高于其在BNC中的频率。这表明在课堂话语中,教师需要不断地使用so总结所讲知识,有助于学生巩固阶段性的学习成果。
同时,梁茂成(2016:83-84)强调,主题词有正主题词与负主题词之分。如果某词在观察语料库中的标准化频率高于其在参照语料库中的标准化频率,则该词的主题词特征值为正值。此时,如果p值达到显著水平,则表明该词在观察语料库中的频率显著高于其在参照语料库中的频率。反之,如果某词在观察语料库中的标准化频率低于其在参照语料库中的标准化频率,其主题词特征值为负值。如果p值达到显著水平,则表明该词在观察语料库中的频率显著低于其在参照语料库中的频率。
主题词分析是语料库间对比最常见的方法之一,它可以有效地揭示语料库的语言特征。Malavasi & Mazzi(2010)自建了250万词符的双学科对比语料库,语料文本来自306篇历史学和322篇营销学的期刊论文。研究者使用WordSmith软件生成每个语料库的词表,再通过主题词功能,生成每个学科的主题词表并由此选定每个学科的五个特定主题词项用以作进一步分析。每个学科的五个特定主题词项如表4.2。
表4.2 历史学和营销学的主题词及其频率(Malavasi & Mazzi 2010:173)
Malavasi & Mazzi(2010)认为,这两组主题词能够分别反映出两个学科不同的研究对象和论述主体。首先,science和society是历史学特定的研究对象,进一步观察检索行可以发现understanding/view of science和western/democratic society在历史学语料库中高频出现。effects是营销学特定的研究对象。the effects of…on…结构在营销学语料库中频繁出现,product modification、consumer motivation、pricing policy、promotions、multinationality、strategy是常见产生影响的因素,distribution、reputation、profit、profitability、performance、person's desire、consumers' welfare、choice是常见的被影响对象。可见,通过主题词,我们可以预测不同学科关注与研究的对象。此外,主题词也可以反映论述主体的不同。这里,历史学语料库中主题词texts体现历史学论文通过文本来论述,而营销学则相对是通过data和research来阐述观点。因此,他们认为,主题词暗示学科知识建构的认知体系,表现不同的叙述主体、研究对象和过程。
就学术英语教与学而言,Scott(2006)认为,主题的相关信息,如词汇等,能够帮助我们潜移默化地了解包括学术英语在内的特殊用途语言。同时,学生语言主题词意识的增强有助于提高他们的语言能力。因此,Scott(2006:240-241)建议开展六个关于主题词的教学活动。第一,教师不给学生文本,只提供频率较高的主题词列表,让学生猜测文本的内容,再让学生比照原文衡量自己的判断;第二,让学生对所给关键词进行归类,如方位词和过程词等;第三,让学生猜测包含主题词的其他可能的文本类型;第四,基于主题词列表,给学生布置写作任务;第五,安排学生根据主题词表,进行口头陈述;最后,训练学生阅读并听写主题词。通过这些活动,学生不仅可以理解和创建合理有效的学术文本,而且能认识到篇章词汇是有主次之分的,语言学习要率先掌握主题词类的主要词汇,因为这类词汇能够概括文本内容,透视篇章语境。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。