专门用途语料库的建设、应用、问题与发展趋势
董爱华
【摘 要】Corpus for specialized English is constructed in the light of the features of a certain subject, it is used in researches for language of specific purposes. In recent years, there's rapid development in the construction and application of this kind of corpus, and accordingly some problems and new trends appear.%专门用途语料库是出于某种特定的语言研究目的,依据某一学科或专业而建设的独具学科或专业特色的语料库。近年来,专门用途语料库在建设、应用等方面都获得了快速发展,而随着研究的深入,也相应出现了一些问题和新的发展趋势。
【期刊名称】《北京印刷学院学报》
【年(卷),期】2013(000)005
【总页数】5页(P59-62,74)
【关键词】专门用途语料库;建设;应用;问题;趋势
【作 者】董爱华
【作者单位】北京印刷学院 外语教学部,北京102600
【正文语种】中 文
【中图分类】G25
语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文本库[1]。语料库方法是以真实的语言样本为研究对象,利用计算机工具和概率统计方法,从宏观的角度对海量语言事实进行分析的现代化的语言研究手段[2]。语料库语言学的研究发端于20 世纪60年代大型通用书面语与口语语料库的开发(如100 万词次的美国Brown书面语语料库),兴盛于20世纪80年代超大型通用语料库的建设(如1亿词次的英国BNC国家语料库)。这两个时期的语料库研究在研究方法上着重真实语言数据的重要性集中以及探索复现的语言规律。随着计算机技术的不断进步,网络资源的充分利用,以及语料库分析工具的不断完善,研究机构或个人独立完成具有针对性的中小型语料库成为可能,而且这些研究者完全可以将语料库建设成为某个领域的专门用途语料库。专门用途英语指的是在不同行业或专业中使用的具有特定专业术语和特殊语义、语用规定的英语语体。Sinclair早在2003 年的语料库语言学国际会议上就指出,“大型语料库建设的势头已缓,取而代之的是大批小型语料库的兴起。在努力建立超大型的、综合性的语料库的同时,建立更多的、具有专业性的和相对较小的专门用途英语语料库将是未来语料库语言学发展的一大趋势。”[3]
一、专门用途语料库的国内外研究现状
与通用语料库相比,专门用途语料库的针对性强,专业化程度高,在专门用途英语研究、教学及专科词典编纂方面的优势非常明显。随着计算机、网络技术的发展和语料库开发应用资源的共享与合作,近年来专门用途语料库的建设呈现出快速发展的趋势。
国际上专门用途英语语料库中较具代表性的有Ken Hyland 建设的多学科学术期刊论文语料库(包含8学科共240篇论文,约130万词次)和John M.Swales开发的MICASE 学术口语语料库(包含各层次美国大学学生和教师的课堂与非课堂言语交际,约200小时170 万词次)以及印第安纳大学ICIC中心的慈善话语语料库(语料取自6 家非营利性慈善机构的劝募信、个案陈述、项目申请书以及协会年报等,约200万词次)。
20世纪90年代以来,我国语料库建设取得了长足的进步,语料库方法在语言教学、词典编纂和语言研究等领域被广泛使用,基于专门用途语料库的语言研究及应用逐渐深入,许多学科和领域都相继建设了专门用途语料库。如解放军外国语学院的“军事英语语料库”,大连海事大学的“海事英语语料库”,黑龙江大学的“商务英语语料库”,国家语委的“计算机专业双语语料库”等。
目前国内外专门用途语料库基本上都是开放性的监控语料库(monitor corpus),可以不断采集各个学科专业中出现的最新语料,并对语言的变化发展实施监控。开放式专门用途语料库的优点有二:一是通过检索语料库,词典编纂者可以获得最新词汇方面的知识以及其他语言变化,并将语言的实际用法及时反映到词典中来,这样既大大缩短了词典修订和增补的周期,还可以为编写新词语词典提供便利。二是专门用途语料库专业化程度高,词汇意义指向单一,结构相对简单,可以在很大程度上减轻计算机处理系统在化解语言歧义方面的负担,有效提高机器翻译的准确度。Mona Baker曾指出“在专业学科领域,建立专业领域的汉英平行语料库,会在现有机器翻译系统性能的基础上,更好地实现专业文章的中英文翻译效果。”[4]近年来,基于专门用途语料库的专业词表的制定、专科词典编纂及机器翻译系统发展很快,取得了突出的成绩。如Wang,J. 等人在自建100 万词次医学英语语料库的基础上,创建了包括650个词族的“医学英语词汇表”(Medical Academic Word List)[5]。借助于专门用途语料库“既加快了词典编纂的速度,丰富了词典中的词汇知识,增强了词典的原创性,又有利于提高词典例证的真实性和可靠性。”[6]目前建立语料库已经是当代编纂原创性词典的必要条件。再如北大计算语言研究所、清华大学智能技术国家重点实验室和中国科学院计算技术研究所共同开发的“面向新闻领域的汉英机器翻译系统”,其基础就是一个大型的汉英新闻对照语料库,目前该库已收集到中文约2000万字,英文约1000万单词,而且库容仍在不断扩大。
二、专门用途语料库的建设
专门用途英语不仅包括某一特定部分的英语语言知识,还包括使用该语言所需技能,以及对所处语境的充分把握。因此,与通用语料库类似,专门用途语料库在建设过程中也要考虑书面与口语、历时与共时、历史与当代和语料库规模等因素。除此之外,专门用途语料库的建设者还需要着重考虑两个方面的因素:一是建库的具体目的和文本的语境化;二是体裁、文本类型、主题以及英语的变体[7]。语料库的代表性是专门用途语料库建设的重点和难点,即语料能否代表所要研究的专门用途语言,这与该语料库应用研究结果的可信度息息相关。语料库的代表性主要涉及语料库的设计容量、语料来源以及取样的平衡。因此在语料库建设之初就要进行取样论证,并根据语料库规模和语料来源明确语料采集标准。然后依据语料采集标准进行随机简单抽样,先导分析并进而制定语料库建设的工作计划和工作流程。
专门用途语料库的建设主要包括语料库设计、语料采集、语料整理、加工、语料检索和共享等。具体来说其中比较重要的程序有: 语料的采集、清洁整理、加工标注等内容。
(一)语料库设计
设计专门用途语料库首先要明确其建库目的。通常建设专门用途语料库是为了满足某个专业语言教学和相关语言研究的需要,其应用范围包括术语提取、教材编写、词典编纂、学术研究、教学和自然语言处理等。其次要考虑的是语料库规模。一般专门用途语料库都为开放性语料库,初步设计规模可大可小,其后可以按照研究或教学需要继续扩展,但在语料的采集过程中,对采样语料的长度,取样时间跨度都要有所考虑。最后在设计时还要考虑语料库的构成。专门用途语料库属于专用语料库建设领域,应参考中图分类及国内院校该专业的主要课程设置,确定其构成方向。语料库的构成基本包括专业类科普书籍、专业书籍、专业教材、专业报纸、专业学术期刊全文及摘要、专业类印刷品和光盘等。
(二)语料库建设的重要程序
1.语料采集。专门用途语料库的语料采集是一个较为繁复的过程,包括键盘录入、扫描、网络下载、拷贝等,需要大量的人力物力。国内外大学图书馆的专业藏书、学术论文、电子书籍和相关光盘、数据库以及专业著作、译著等都可以作为专门用途语料库的语料采集对象。
2.语料的清洁整理。语料的清洁整理是专门用途语料库建库的关键环节,涉及文本的备份和清洁整理两个步骤。经过语料采集程序所收集的各类语料,尤其是通过网络下载、扫描识别等方法获得的文本大多会存在各种不合规范的符号或格式,这些不规范的符号或格式会导致语料标注错误,为了避免这一问题,在做好原始文件备份工作之后,建设者就需要对语料进行清洁整理,通常是借助PowerGrep 或“文本整理器”等软件将语料中不符合英文文本规范的全角字符、数字、全角空格、多余回车符等进行清洁和整理,得到清洁文本。
3.语料的加工标注。语料的加工标注涉及分词、词性标注及其他语言信息标注。对清洁文本进行分词(tokenization)就是在英文形符后加空格,从而使形符与形符或形符与符号分隔开来,以利于以后的标注及检索。在专门用途语料库建设中,标注是后期语料库检索、查询、分析、构建子语料库的重要依据和条件,主要包括元信息标注和词性标注[8]。元信息由文本说明信息(序号、文本分类)、文献信息(作者、时间、标题)、文本结构信息(章节、段落)等构成。而词性标注则可以通过CLAWS赋码系统进行半自动机助手工词性赋码来完成。专门用途语料库的最终标注格式通常为XML(eXtensible Markup Language)格式,原因在于此格式便于在浏览器上使用从而有利于语料库的网络化。此外,XML格式非常有利于标注结果的校对,也比较容易转换为其他格式。经过标注后,原来的清洁文本获得了增值,再通过语料库分析软件的提取,标注文本中所包含的多种信息就可以为人们分析和研究语言提供大量实证数据了[9]。
(三)语料的检索和共享
随着科技信息和电脑技术的发展,涌现出大量的专门用途语料库应用工具,这使得研究者在研究时能够像操作计算机文件系统一样方便地使用语料库。研究者可以通过相关索引软件,提取固定搭配、观察索引行,总结归纳主题词、联想词和句式用法等语言使用规律,从而直接将语料库应用于教学或科研。另外,建设为XML格式的专门用途语料库可以直接在网络浏览器上使用,能够实现网络用户对语料库的直接访问,达到资源共享。
三、专门用途语料库的应用
(一)应用于语言研究
在实践中,建设者可以将开发完成的专门用途语料库在线发布,提供在线索引服务,即通过语料库检索工具与服务器上的数据库相连,实现网络用户对语料库的直接检索。专门用途语料库所提供的数据来源于自然真实的语料,既可以用于基于语料库的实证研究以验证或丰富功能语言学、认知语言学、自然语言处理、二语习得研究、话语分析等学科存在的假设或理论,也可用于数据驱动的语言探索和语言规律描述。而专门用途语料库作为一种新的方法近年来在词典编纂和研究领域受到了越来越广泛的认可和重视,利用专门用途语料库编纂词典不仅能够为编者提供大量真实、自然的例句及其语境,而且能大大提高词典编纂的效率,缩短词典编纂的周期,同时也极大地方便了词典的修订与增补。
(二)应用于语言教学
将专门用途语料库直接应用于语言教学,对培养学生的自主学习能力非常有效,符合以学习者为中心的教学思想。学生通过索引软件提取固定搭配和惯例化词组,并观察相应索引行、类共现信息,从而总结归纳出专业英语主题词及联想词、语义倾向、联接形式、句式用法等语言使用规律。进一步开发数据驱动学习(Data-Driven Learning,DDL)工具把专门用途语料库检索与多媒体课件开发结合起来,直接服务于网络语言教学,可以扩大专门用途语料库的教学应用范围。在实际教学中,专门用途语料库还可用于教学大纲词表的制定、术语提取、教材编写、试题编写、词汇测试、写作评价等。
(三)语料库检索工具和分析软件的应用
既然语料库是借助计算机来实现相关研究,那么在应用中就必须要选取适合的语料库检索工具和分析软件对语料进行文本检索和分析,以帮助研究者实现可行性的研究目标。专门用途语料库研究中常用的检索工具有MicroConcord,Wordsmith Tools,Concordance等,它们的基本功能包括词表生成、语篇统计、排序等[10]。MicroConcord可以同时检索关键词、词、词组、字符串,并对检索结果进行半自动排序,也可以按照关键词两侧的搭配词对检索结果进行排序。Wordsmith Tools可实现关键词的消隐,对搭配词进行基础性统计,还可以对不同语料库或同语料库子库之间的一系列关键词进行词频对比研究。Concordance则能对语料检索之后形成的词表进行词频升降序排序、词长升降序排序、以单词方式升降序排序、以字符串方式升降序排序。专门用途语料库研究中常用的分析软件主要有词语搭配软件,词形归类软件,短语查找软件等。词语搭配软件可以帮助使用者确定词形搭配,如复合词、习惯表达等。词形归类软件可将某个词的各种曲折变化归结在同一词下,简化搭配分析。
四、专门用途语料库建设和应用中所存在的问题与未来发展趋势
(一)专门用途语料库建设和应用中所存在的问题
近年来专门用途语料库的建设得以快速发展,然而在专门用途语料的建设和应用中也出现了一些问题,其中最为突出的是以下两个。
1.各类专门用途语料库发展不均衡。专门用途语料库的发展很不均衡,这主要表现在三个方面:一是书面语语料库和口语语料库的发展极不均衡。目前建成的专门用途语料库大多为书面语语料库,口语语料的搜集和取样过程较为复杂和繁琐,由于人力、物力及技术方面的限制,所以口语语料库数量很少,与书面语语料库数量相差悬殊。二是单语语料库与双语语料库的发展不平衡。单语语料库在数量上占有绝对的优势,而双语语料库不仅数量较少,而且用途单一,主要是面向翻译研究的平行语料库。三是语料库的学科领域分布不均衡。目前专门用途语料库主要集中在新闻、医学、法律、商贸、旅游等方面,而在新兴的能源、通讯、物流、环境科学等学科领域则寥寥无几。
2.各类专门用途语料库资源难以共享。语料库与一般数据库的一个重要区别就是它是为学术研究服务的。资源共享,最大限度地发挥其功能,让尽可能多的学者使用,是其追求的目标[11]。可是目前只有极为少数的专门用途语料库(如“中国法律法规汉英平行语料库”)实现了资源共享,可以提供在线检索。造成资源共享困难的原因有两个。一是现有比较成熟语料库工具软件(如AntConc,Wordsmith)等的标识各不相同,在它们基础上编写的软件能通用的不多,这就造成了资源共享困难;二是尽管目前已经有比较成熟的语料库工具软件,但为了更好地服务于个性化研究,不少专门用途语料库的建设者都根据自身研究的需求设计专项分析软件,但往往这些专项分析软件的功能都比较单一,无法实现通用,使得资源共享问题更加严峻。
(二)专门用途语料库的未来发展趋势
基于对专门用途语料库建设和应用中所存在问题的认知,研究者也做出了相应的努力试图解决这些问题,这就为当前有关专门用途语料库的研究带来了一些新的发展趋势,具体表现为以下几个方面。
1.建设共享平台,推进专门用途语料库资源共享。近年来专门用途语料库的开发呈现出快速发展的趋势,专门用途语料库的数量越来越多,规模也越来越大,很多学科和领域都相继建设了语料库。如“军事英语语料库”、“海事英语语料库”、“商务英语语料库”和“计算机专业双语语料库”等。但从总体上来看,由于各建库机构和单位之间缺乏交流与协作,专门用途语料库建设的领域相对集中,且由于缺乏统一的规范和标准,很多语料库无法实现资源共享。解决问题的有效途径是建设语料库资源共享平台,多方合作实现语料库的共建和共享[12]。美国宾夕法尼亚大学建立的语言数据联合会(Linguistic Data Consortium,LDC)是一个值得借鉴的例子,该组织实行会员制,有163个语料库(包括文本及口语)参加,共享语言资源。在我国,实现资源共享的关键也在于设立类似的学术机构,制定专门用途语料库的行业规范与标准,鼓励跨单位、跨领域的合作,建设共享平台,促进专门用途语料库的资源共享。
2.加快专门用途口语语料库的建设。虽然口语语料的提取较为复杂和繁琐,但随着当前科技的进步,口语语料的提取必将越来越便利,而话语分析的深层研究也需要以口语语料库的数据为实证,因此加快专门用途口语语料库的建设势在必行。相对于书面语而言,口语话语能够为话语分析提供更详尽的语言信息,更能揭示真实交际语言的内在特征和规律。在很多专业学科领域,专门用途口语语料库的研制与开发潜力非常巨大,应用前景亦十分广阔,如医学领域的医患口语语料库、法律领域的法庭辩论语料库、旅游行业的导游口语语料库等。
3.深入开展专门用途双语语料库建设。迄今为止,专门为翻译研究而研制的应用型双语语料库并不多,且通常规模较小,从几万、几十万到百万词不等[13]。深入开展基于专门用途双语语料库的翻译研究和词典编纂研究,无论对翻译研究还是译员培训都有潜在价值。且现有语料库多为文学类语料库,以法律、经贸、旅游等应用文体为语料的专门用途双语语料库不太常见。可见,研究者还需不断拓展和深化专门用途双语语料库的建设。事实上,以专门用途双语语料库为平台,对特定专业学科领域的翻译展开研究,不仅能够帮助提高翻译质量,推动应用文体翻译实践的发展,还可以克服目前语料库翻译学研究过多集中于文学语料的缺陷。
五、结语
专门用途语料库对语料的代表性要求更为严格,且从设计到语料采集到数据分析一般都是研究者自己完成的,因此建设起来有一定难度,其规模
比通用语料库要小很多。但随着计算机、网络技术的进步,以及语料库分析工具的不断完善,研究者在今后的研究中将可以更加方便快捷地建设更多专业性强的专门用途语料库。
参考文献:
[1] 杨惠中. 语料库语言学导论[M].上海:上海外语教育出版社,2002.
[2] 乐明.用语料库方法进行传媒话语分析[J].现代传播,2006(2).
[3] 曹合建.基于语料库的商务英语研究[M].北京:对外经济贸易大学出版社,2008.
[4] Baker,Mona. The role of corpora in investigating the linguistic behavior of professional translators[J]. International Journal of Corpus Linguistics,1999(4).
[5] Wang,J. et al. Establishment of a medical academic word list[J]. English for Specific Purposes,2008(27).
[6] 章宜华.计算词典学与新型词典[M].上海:上海辞书出版社,2004.
[7] Bowker L,Pearson J. Working with Specialized Language: A Practical Guide to Using Corpora [M]. London and New York: Boutledge,2002.
[8] 梁茂成,李文中,许家金. 语料库应用教程 [M]. 北京:外语教学与研究出版社,2010.
[9] Leech,Geoffrey. Teaching and Language Corpora: A Convergence [M]. London: Longman, 1997.
[10] 孙媛.报刊英语语料库研究现状及应用分析[J].语文学刊,2011(7).
[11] 何婷婷.语料库研究[D].武汉:华中师范大学,2003.
[12] 许智坚.语料库资源共享的可行性研究[J].漳州师范学院学报,2008(2).
[13] 王克非.语料库翻译学探索[M].上海:上海交通大学出版社,2011.
《专门用途语料库的建设、应用、问题与发展趋势》相关文档:
基于语料库独立学院汉英翻译教学可行性研究11-16
语料库在大学英语教学中的应用01-06
基于语料库的医学英语课程教材编写09-28
语料库11-18