方言与外语互译系统设计研究
摘要
关键词
互译系统;语料库;深度学习;乡村振兴
正文
基金项目:本文系2023年湖南省大学生创新创业项目“基于深度学习的方言与外语互译训练系统”(项目编号:S202310538075)阶段性成果之一。
1 方言与外语互译系统的设计背景与思路
1.1设计背景
随着全球化深入,文化交流愈发频繁,方言作为中国文化重要组成部分,在文化复兴与传播中扮演关键角色。方言的外译是地域文化传播的重要手段,也体现了文化多样性。近年来,基于语料库的翻译研究(Corpus-Based Translation Studies, CBTS)成为翻译学领域的新范式,方言研究方面尤其取得显著进展。例如,钱盛友等人利用动态时间规整和神经网络对湖南长沙方言进行辨识,王岐学等人基于差分特征和高斯混合模型进行方言识别,谢可欣等人结合门控循环单元(GRU)神经网络和隐马尔科夫模型(HMM)对方言单字进行识别。这些研究为方言与普通话的对齐提供了技术基础,推动了方言与外语互译系统的构想。此外,随着计算机技术进步和互联网信息增长,普通话与外语的平行语料库研究也取得了丰硕成果。北京大学计算语言学研究所和北京外国语大学中国外语研究中心开发的大规模双语平行语料库,以及针对俄语的国家级语料库,为语料库建设和翻译研究提供了宝贵资源,为方言与外语互译系统设计提供了理论和数据支持。
尽管有这些进展,目前翻译服务主要集中在标准语与外语之间,方言与外语的互译系统还非常少见。方言的语言特性复杂,缺乏大规模的平行语料库,这使得开发实用的方言与外语互译系统显得尤为迫切。面对这一挑战,需要进一步加强方言的语音研究和语料库建设,以促进方言保护和传播,增强文化多样性的全球理解和接受。
1.2设计思路
首先根据互译系统设计存在的相关问题,针对性地规划了总过程的工作内容,创新性的提出一种理论模型,包括基于深度学习技术的语料获取、互译系统建立准备、语料库的具体构建与扩充,方言外语平行语料库的串联等多项内容,以便顺利进行接下来的方言与外语互译系统的总体设计工作。下文具体介绍基于深度学习方法,方言与外语互译系统设计的前期准备。
2 语料库建立的前期准备
2.1基于深度学习技术的语料获取
利用深度学习的ctc/attention语音识别模型,笔者识别方言语料,并结合方言网站和书籍中的方言文本。通过四层BLSTM检验,对于重复或错误的方言语料,采用IBM词对齐模型、手动筛选、去重、清洗等方法解决问题,构建了一个完善丰富的方言语料库。基于此,通过整合现有的普通话-外语平行语料库(以英汉、俄汉双语平行语料库为例),进一步完善文本语料库。
2.2互译系统的建立准备
建立了基于深度学习的湘方言文本语料库后,将其与普通话语料库串联,使用IBM词对齐模型进行对齐,形成方言-普通话平行语料库。面对语序差异问题,采用手动校对简单对齐。通过BLSTM检验并手动调整后,获得了深度学习基础上的湘方言-普通话平行语料库。此外,筛选成熟的英语、俄语语料库与普通话语料库进行两层对齐,最终形成英普、俄普平行语料库。
2.3语料库的扩充
在建立湘方言-普通话平行语料库及其与英普、俄普平行语料库后,针对资源稀缺和质量低下问题,通过网络爬虫等方法定期收集湘方言语料,进行人工识别、清洗、筛选后录入语料库,实现湘方言语料库的扩充,提高语料库质量。同时,扩充其他语言语料,实现互译系统中平行语料库的同步增长,保障语料库内容丰富和质量。
2.4互译系统的优势
为提高翻译准确性和适应性,提出一种创新互译系统模型:通过串联两大平行语料库,以普通话语料为桥梁,将输入的方言语料转换为对应的外语语料。这种方法不仅提升了翻译准确度,还通过扩充方言语料库促进了其他语言库的增长,提高翻译准确率,避免建立外语方言平行语料库,减少研究成本,提升研究效率。
3 构建互译系统的过程
3.1方言普通话平行语料库的建立——以湘方言为例
湘方言的采集分为语音部分与文字部分。一方面,针对方言语音识别相对较少的问题,笔者采用CTC/Attention语音识别模型。从相关方言网站的视频中切割出湘方言语音片段,每个片段不超过10秒,为每个语料配备对应普通话和对应字词典。在CTC声学模型用条件独立性假设和概率链规则分解自身后,将语音序列中提取的特征向量作为模型的输入,隐藏向量h作为模型的输出。将输出后的模型求解后验证概率P(C|X),Attention解码器生成字母序列C={c1...cL},采用四层BLSTM进行建模并输出相应语料数据。另一方面,引入爬虫程序从方言相关网站、书籍中选择并爬取10000个语句,每个语句不超过20字,将其扫描收集,并对每个文本命名,其中包括序号、方言种类文本,对其进行预加重、加窗、端点检测、人工识别、数据去重、长度清洗、词表清洗等规范化处理。将所有收集到的方言语料通过语句划分得到正确的基本成分;通过建立词频表获取大频率出现的词句;通过字符向量化、划分数据集得出精准的语料数据;最终通过数据加载建立出湘方言语料库。在此基础上通过引入基于IBM的词对齐模型与人工筛选将湘方言语料库与普通话语料库进行简单对齐,形成较为完善的湘方言普通话平行语料库。
3.2外语普通话平行语料库的建立——以英语、俄语为例
近年来,多样化的英语语料库促进了语料库语言学的发展。1982年,上海交通大学建立了专门用途英语语料库(JDEST),含一百万词次。1990年,比利时Louvain-La-Neuve大学的Sylviane Granger教授启动了国际学习者英语语料库(ICLE)项目,该库成为重要的学习者语料库之一。2003年,桂诗春和杨惠中教授在国家社科基金资助下研制了中国英语学习者语料库(CLEC)。本项目选择的是象征性的英国国家语料库(British National Corpus, BNC),由英国牛津出版社等机构开发,包含超过一亿词,展现了20世纪末至21世纪初的英式英语,覆盖了英国语言的多个方面,与湘方言的适用范围相似。
在中俄经贸合作的背景下,俄语语料库的建设变得尤为重要。尽管俄罗斯在语料库语言学方面起步较晚,但发展迅速。20世纪70年代,Л.Н.Засорина教授完成了小规模俄语语料库的建设,之后俄语语料库建设有了新进展。1980年代,出现了俄语机器翻译库,2000年,莫斯科大学语文系建立了20世纪末俄语报纸语料库。2004年,俄罗斯科学院主持建立了“俄语国家语料库”(НКРЯ),具有广泛的语料选择、丰富的语言信息、准确的标注、多样的题材和全面的检索系统设计,是大型现代语料库的成功例子。
通过将成熟的英语和俄语语料库与普通话语料库进行对齐,形成了完善的英语普通话和俄语普通话平行语料库。这不仅提高了互译系统输出结果的准确率,还实现了方言与多种外语之间的互译功能。
3.3平行语料库的串联
为解决现有翻译系统中翻译结果准确率较低、方言外语互译系统领域研究发展不成熟的问题,本文提出一种理论模型,即以普通话语料及普通话语料库作为纽带,将湘方言普通话平行语料库与英语普通话平行语料库或俄语普通话平行语料库进行串联,充分利用平行语料库的特性,通过向平行语料库输入湘方言或英语、俄语文本,输出所对应的普通话文本数据,接着通过向另一平行语料库输入普通话文本数据输出对应的湘方言或英语、俄语文本。通过这一理论模型可以有效促进方言外语互译系统研究的发展,节省研发所需时间,并且可以有效解决方言外语互译中的准确率较低与方言普通话平行语料库匮乏的问题,促进方言与外语互译系统的研究进程,提高翻译结果准确率,推动方言普通话平行语料库与外语普通话平行语料库的发展。同时,本文提出的这一理论模型具有良好的适配性,即可以基于现有较完善的普通话与不同外语之间的平行语料库实现一种方言与多种外语之间的互译,促进方言外语互译领域的发展。
4 应用价值
4.1语料库在方言与外语互译系统中的应用价值
4.1.1语料库为翻译引擎提供资源支持
语料库是一个可用计算机检索的、庞大的资料库,它集成了众多在真实情景下使用的信息实例,可使用于专业的研究工作中。在翻译工作中需要大量的实例进行数据储存,再经过句子对齐算法将实例互译。基于此,方言与外语互译系统的建立,就是将湘方言和普通话以CTC/Attention语音识别模型进行词汇与词汇,句子与句子对齐等规范化处理,存储在语料库中。同时借助由英国牛津出版社、朗文出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的英国国家语料库(British National Corpus),和俄语国家语料库(НКРЯ)为代表的外语语料库,将二者建立成方言与外语平行双语语料库。在平行语料库中,基于方言与与外语中一些短语句子的标注对齐,可以实现二者双语句子对齐信息,从而提炼出两种语言的句意,达到准确互译的效果。将建立的平行双语语料库再应用到基于数据实例的翻译引擎中,那么平行语料库中的句子可以被存储在基于编程器翻译的数据库,和基于翻译引擎的记忆翻译数据库中。平行双语语料库里的这些实例信息为机器翻译系统的顺利运行提供了强有力的支持。
4.1.2提升机器翻译的效率和准确性
利用方言与外语相结合的平行双语语料库自动提取翻译过程中的统计学基础知识,有利于机器翻译系统的构建,并提高机器翻译的效率。对于方言词汇的翻译策略,重点放在方言的实词译法上。由于汉语是表意型的语言,其变体主要体现在词汇上,尤其是实词上。因此引入更多方言实词和普通话实词的对照,有助于提高机器翻译的效果,完善机器翻译体系。机器翻译中包含异化和归化两种翻译策略,直译(含直译加注)和音译属于异化翻译策略,而意译、省译和换译属于归化翻译策略。如果同一个方言词有不同的译法,则要求分别统计在平行语料库中不同的策略里。当平行语料库中的对齐实例不断扩大,且输入的翻译内容准确识别到实例对照时,翻译质量和准度会大大提高。不断拓展平行语料库中句子对齐的信息,更有利提高双语互译的准确率,节省时间成本。同时平行语料库能够为机器翻译系统提供检测平台。通过语料库中的资料对比机器翻译系统的源语言和目标语言的翻译结果,能够比对出二者间相互的对应关系,从而为翻译系统的改进和提高提供帮助。
4.2方言与外语互译系统在机器翻译中的应用
目前机器翻译是常见的互联网服务之一,利用互联网算法能够自由地实现各种语言之间的相互转换。即使机器翻译的译文质量与专业译员的译文质量相比仍有较大的差距,但是在一些对译文质量要求不太高的场景下,或者是在特定情境下的翻译任务上,机器翻译在翻译的速度上有显著的优势,依旧得到广泛地应用。因此,将方言与外语的互译系统引入机器翻译引擎系统中,对日常的交流服务有一定的便捷性。一般而言,机器翻译仅仅只能机械地用一种语言的词汇替换为另一种语言的词汇,如此翻译很少能产生良好的效果。引入以深度学习模型、借助方言与外语双平行语料库构建下的互译系统解决这个问题,并在应用中不断修正,能够为机器翻译在方言与外语领域获得更好的翻译结果。在这样的技术帮助下,机器翻译能够代替部分人工翻译,并且在一些情况下甚至可以产生与人工翻译相同的输出结果。同时能够节省时间与金钱成本,进一步实现便民利民的目的。目前为止大多数公司在涉及多个语种翻译项目时,采用的都为单语向翻译机所组合而成,然而当语种逐渐增多时,单独训练语种翻译模型便会产生很大的代价,并且多个模型会对线上服务的存储空间造成挑战。是以对于多语言互译系统的需求越来越迫切。在机器翻译中引入方言与外语互译系统,对企业或基层群众而言,无疑都会提供莫大的帮助。
参考文献
[1]班柏.外语研究中的语料库方法[J].大连大学学报,2012,33(4):122-126.
[2]梁小林,沈湘菲,梁曌等.基于CTC-GRU模型的长沙方言识别[J].吉首大学学报(自然科学版),2022,43(2):45-52.
[3]陈潇潇,葛诗利.科技文献英汉翻译平行语料库的构建[J]. 广东外语外贸大学学报,2012,23(3):25-28.
[4]许汉成.俄语语料库的新发展[J].中国俄语教学,2002,24(1):21-26.
[5]罗威.“一带一路”倡议下中俄经贸合作的发展与前景[J].经济研究导刊,2020(02):108-109.
[6]李勤,常翔宇.俄罗斯语料库语言学的学科建设与发展探微[J].东北亚外语研究,2018,6(02):54-60.
[7]王三.英语语料库语言学在我国的发展[J].山西师大学报(社会科学版),2007(S1):122-123.
[8]张翯.语料库在高中英语阅读教学中的应用研究[D].哈尔滨师范大学,2014.
[9]于筱睿.基于语料库的创新词汇教学方法[J].海外英语,2013.
...