第一句子大全,网罗天下好句子,好文章尽在本站!

小语种语料资源匮乏情况下的机器翻译的解决方法一览

时间:2022-11-19

在经济全球化和一带一路倡议的背景下,各国经济、文化交流愈加频繁和深入,机器翻译的应用和产业价值日益突显

友情提示:本文共有 3739 个字,阅读大概需要 8 分钟。

机器翻译是人工智能领域的研究热点和典型应用。在经济全球化和“一带一路”倡议的背景下,各国经济、文化交流愈加频繁和深入,机器翻译的应用和产业价值日益突显。2014年以来,随着深度学习技术的发展,神经机器翻译方法开始兴起,机器翻译性能得到了显著提升。英语、法语、德语、西班牙语、汉语、日语等主要语种间的翻译质量已经接近或达到人工翻译的水平。神经机器翻译方法大多属于数据驱动的端到端模型,需要大规模的平行语料作为训练数据。在平行语料资源匮乏的情况下,神经机器翻译模型通常无法得到充分的训练,很难获得好的翻译效果。目前性能较好的神经机器翻译系统一般需要千万级甚至亿级的训练数据支持,但如此巨量的训练数据仅能在少数语言对获得,数据来源也仅限于新闻、专利或官方记录等少数特定领域。

据不完全统计,目前世界上共有7000多种语言,其中只有英德、英法、英汉等少数语言间具备丰富的、高质量的平行语料资源,其他大多数语言都无法提供大规模平行语料。“一带一路”沿线国家有65个,除了中国之外的这64个国家所使用的语言大约有80种,除去多个国家采用同一种语言作为官方语言的情况外,实际使用了56种官方语言和通用语言,涉及汉藏、印欧、乌拉尔、阿尔泰、闪-含、高加索及达罗毗荼等多个语系。此外,这些国家还使用多达2400余种的民族语言。这些国家的官方语言和民族语言绝大多数没有成规模的平行语料库,属于资源匮乏语言,要想获得这些语言的 数百万平行句对相当困难。

从认识论的角度来看,机器翻译大体经历了2个发展阶段:基于规则的“理性主义”阶段(1949-1992)和基于统计的“经验主义”阶段(1993年至今)。20世纪90年代,随着计算机硬件运算能力的大幅提升,统计机器翻译性能不断增强,逐渐成为机器翻译的主流模型。2013年,借鉴深度 神经网络(Deep Neural Network,DNN)在图像处理和语音识别等领域的成功经验,神经机器翻译(Neural Machine Translation,NMT)开始兴起,同时随着LSTM、Attention、Transformer、BERT等技术的不断应用和平行语料规模的不断扩大,基于序列到序列模型的神经机器翻译发展迅速,很多主要语种间的机器翻译质量已经接近或达到人工翻译的水平,神经机器翻译已成为当前机器翻译领域的主流模型。

统计机器翻译和神经机器翻译都属于数据驱动方法,需要具备大规模、高质量的平行语料资源才能获得好的翻译效果。相比统计机器翻译模型,神经机器翻译模型不需要进行词对齐、短语抽取、短语概率计算等处理步骤,而是采用深度神经网络学习源语言到目标语言的映射,因此,神经机器翻译对平行语料资源的需求更加巨大。平行语料资源匮乏成为制约神经机器翻译质量提升最主要的因素。

数据增强方法

扩充平行语料数量是提高资源匮乏语言神经机 器翻译质量最直接有效的方式之一。扩充平行语料的主要途径包括:借助双语或多语词嵌入、语言模型等,从单语数据、篇章级可比语料中自动抽取平行句对,利用回翻译方法快速构建伪平行数据,以及针对神经机器翻译训练语料中词分布不均衡问题,基于低频词的数据自动增强方法等。

平行句对抽取:对于资源匮乏语言,获取大量的平行数据是较为困难的,但获取可比单语数据则相对简单,因此从单语可比数据中自动抽取平行句对,成为了扩展机器翻译平行语料的必然选择。早期的平行句对抽取主要使用有监督方法,首先利用平行数据训练一个句对抽取模型,然后利用该模型从可比单语数据中抽取平行句对。随着双语词嵌入,特别是无监督双语词嵌入技术的发展,利用双语或多语词嵌入的平行句对抽取方法逐渐成为当前的主流方法。总体而言,由于抽取得到的平行句对数量有限且存在较大噪声,平行句对抽取方法主要应用于改善已有翻译系统,特别是无监督机器翻译系统的性能。

伪平行数据生成:利用已有机器翻译模型生成的伪平行语料库可以提升机器翻译系统的性能。该类方法的基本思想是利用已有的回翻译系统对源语言或目标语言进行自动回译,在此基础上构建伪平行数据。初始的回翻译系统一般由统计机器翻译(Statistical Machine Translation,SMT)训练获得,或者直接使用双语词嵌入构建逐词翻译系统。同时为了不断提升翻译模型的性能,在数据生成过程中还使用了迭代回译的思想,即反复利用升级后的翻译系统对伪平行数据进行过滤。目前迭代回译已成为神经机器翻译伪平行数据生成的标准方法,在很多机器翻译评测任务和实际系统中得到了广泛应用,取得了较好的效果。伪平行数据作为机器翻译平行语料库的有益补充,可以在一定程度上提升资源匮乏语言神经机器翻译模型的性能。

数据增强:数据增强最初被用于提高深度学习方法在计算机视觉任务中的准确性。受该方法的启发,近年来,机器翻译语料库数据增强研究方面也取得了积极的进展。与平行句对抽取和伪平行数据生成方法不同,机器翻译数据增强是利用已有的平行句对自动生成新的平行句对,通过扩展语料库的规模和丰富训练数据的多样性来提升资源匮乏语言机器翻译的性能。

数据增强的核心问题主要包括两个方面:一是要保证增强数据的语义一致性,也就是要保证生成的源句子和目标句子互为翻译;二是要尽可能提升增强数据的多样性,以便更好地提高翻译模型的性能。目前主流的数据增强方法大多是基于替换的思想,首先从上下文中选择一个单词作为替换目标,随后用替换词的译文对目标语言中的对应单词进行替换,同时为了提高增强数据的多样性,可以同时对一个句子中的多个单词进行替换。替换词一般选择稀有词或者实体词等不易翻译的词。

基于替换的数据增强方法可以有效提高翻译模型对词和上下文信息的学习,但当前的数据增强方法仍然需要平行数据的支持。在资源匮乏的条件下,少量的平行语料资源不能覆盖单个语种复杂的语言现象,翻译模型很难对该语言的句法特征等进行全面和有效的学习。

学习算法

除了扩充平行语料,提升资源匮乏语言机器翻 译性能的另一个思路是对通用的神经机器翻译算法 进行改进,有效利用非平行数据和从其他资源丰富 型语言中学习到的翻译知识,来提升资源匮乏语言 机器翻译的性能。主要研究热点包括:基于迁移学习的资源匮乏语言机器翻译、基于联合学习的多语 言机器翻译和零资源(zero-shot)翻译、融合单语数据的半监督翻译以及完全不使用平行数据的无监督翻译等。

迁移学习:迁移学习是将已学到的知识迁移到一个新的相关任务以减少新任务对训练数据的需求,因此迁移学习是缓解资源匮乏语言机器翻译数据依赖的必然选择之一。其基本思想是先利用资源丰富语言的数据集训练一个翻译模型(父模型),然后将学习到的模型参数传递给资源匮乏语言机器翻译模型(子模型)作为模型的初始化参数,随后通过资源匮乏语言的训练数据对模型参数进行调优。迁移学习在计算机视觉、语音识别及情感分类、文本摘要等自然语言处理领域已取得了显著的成效,对资源匮乏语言机器翻译性能的提升也起到了积极的作用。随着新的机器翻译模型的提出以及新的预训练语言模型的发展,迁移学习方法将在资源匮乏语言机器翻译任务中发挥更大的作用。

多任务联合学习:在神经机器翻译模型中,编码器负责将源语言句子映射为分布式语义表示,解码器负责将源端的分布式语义表示转换为目标语言语句,如果不考虑注意力机制的影响,可以发现编码器和解码器都仅依赖于单一语言。直观上看,不同翻译系统中的相 同源语言(例如,汉语到英语、汉语到越南语)可以共享相同的编码器,并且相同的目标语言可以共享相同的解码器(例如,汉语到英语、越南语到英语)。神经机器翻译模型的这一特点为共享编码器和解码器的多语言联合学习提供了可能。通过联合学习可以将从资源丰富语言中学习到的知识应用于资源匮乏语言。基于联合学习的多语言神经机器翻 译也成为解决资源匮乏问题的重要研究方向。针对该研究领域,相关研究机构开展了大量的研究工作,已经实现了一对多、多对一、多对多和零资源的神经机器翻译模型,有效提升了资源匮乏语言 神经机器翻译的性能。神经机器翻译的连续语义表示方法以及方便的参数共享机制为多语言、多任务联合学习提供了极大的便利,从目前的研究成果可以看出,该方法可以使资源匮乏语言翻译从中受益,是未来的重点研究方向之一。

半监督学习:半监督神经机器翻译学习是指同时利用有限的 双语训练数据和大量的单语数据训练翻译模型,以缓解双语平行数据不足带来的模型训练不充分的问题。单语数据可以是源语言或目标语言数据,也可 以同时使用两种数据。目前在相关研究领域主要使 用基于自动编码器的半监督学习方法和对偶学习方法,同时利用源端和目标端的单语数据提升机器翻译模型性能,在学习过程中还使用迭代回译方法不断对模型进行优化。与伪平行数据生成方法类似,半监督学习也主要是通过回翻译的方式将单语数据引入神经机器翻译模型,以提高在资源匮乏语言对上的翻译性能。但伪平行数据生成方法是通过回译实现语料的扩展,不改变翻译模型,而半监督方法主要是从模型优化的角度将单语数据应用于模型的训练过程,通过参数调优提高机器翻译模型的性能。大量研究表明,半监督学习可以有效提升资源匮乏语言神经机器翻译的性能,也是未来的重点研究方向之一。

本文如果对你有帮助,请点赞收藏《小语种语料资源匮乏情况下的机器翻译的解决方法一览》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
从冷战到深度学习 一文看懂机器翻译发展史

从冷战到深度学习 一文看懂机器翻译发展史

...系统的基础,本文将介绍机器翻译的详细发展历程,以及在线翻译的演变过程与结构。图:P.P. Troyanskii机器翻译,根据描述文字画插画,可惜没有照片流传开篇故事源自1933年。前苏联科学家 Peter Troyanskii 向苏联科学院提交了一...

2023-06-05 #经典句子

想在考研英语翻译中乘风破浪 新东方在线老师董仲蠡建议先搞懂这些

想在考研英语翻译中乘风破浪 新东方在线老师董仲蠡建议先搞懂这些

...学们可以参考往年大纲英语(一)的翻译评分标准:如果句子译文明显扭曲了原文的意思,该句得分至多不超过0.5分;如果考生就一个题目提供了两个或两个以上的译文,若均正确,给分;若其中一个译法有错,按错误译文给分...

2022-11-20 #经典句子

独家:“论文致谢刷屏”博士演讲干货

独家:“论文致谢刷屏”博士演讲干货

...构,然后在编码器端我们一般喜欢用 RNN 或者 CNN,将原文句子编码成一个上下文向量,然后在解码端当中根据上下文向量来生成目标端的句子,这是一个最朴实的一个机器翻译模型。但是翻译模型会有很多问题,比如说我每生成...

2022-12-21 #经典句子

毕业论文文献综述 文献查询及外文文献翻译技巧 全是满满的干货

毕业论文文献综述 文献查询及外文文献翻译技巧 全是满满的干货

...前也和大家一样,看这类文章要逐字逐句通过复制粘贴到在线翻译网站翻译后阅读,效率非常低下,严重影响阅读效果和阅读的兴趣。后来随着各种翻译网站、翻译软件、翻译插件的不断升级,尤其是近两年随着人工智能的迅猛...

2023-09-09 #经典句子

微软宣布在“机器中英双语翻译”领域取得突破性进展

微软宣布在“机器中英双语翻译”领域取得突破性进展

...平相当。研究团队抽取并测试了在线新闻中近2000个中文句子的中译英,这份样本被称为newstest2017,再和人工翻译进行结果对比,还聘请了双语专家来验证机器翻译的准确性。从目前的结果来看,机器翻译的进步非常显著,过去...

2023-12-31 #经典句子

一文看懂我国机器翻译发展情况及BAT 科大讯飞等机器翻译格局分析

一文看懂我国机器翻译发展情况及BAT 科大讯飞等机器翻译格局分析

...百度翻译所研发的深度学习与多种主流翻译模型相融合的在线翻译系统以及基于“枢轴语言”等技术,处于业内领先水平,在国际上获得了广泛认可,使我国掌握了互联网机器翻译的核心技术。此外,百度翻译还开放了API接口,...

2023-11-27 #经典句子

该如何把英语短文正确翻译下来

该如何把英语短文正确翻译下来

...是翻译器有一个最大的缺点就是:没有办法将一些复杂的句子正确翻译出来。而且长期依赖翻译器来做英语短文的话,不仅不会帮助你提高做题的正确率,还会让你滋生依赖的心理。那么对于学生来说怎么样才能把文章快速并且...

2023-10-22 #经典句子

跨越沟通障碍 百度机器翻译重塑人类文明巴别塔

跨越沟通障碍 百度机器翻译重塑人类文明巴别塔

...翻译,其所研发的深度学习与多种主流翻译模型相融合的在线翻译系统以及“枢纽语言”翻译等技术处于业内领先水平。2015年,百度翻译正式上线NMT系统,同时也是世界范围内第一个真正实用的NMT系统。与传统方法中将句子分...

2023-10-08 #经典句子

诗歌本天成 翻译偶得之——新诗奇妙操作教学|语言学午餐

诗歌本天成 翻译偶得之——新诗奇妙操作教学|语言学午餐

最近,在小编的朋友圈里,一种利用在线翻译器创作假诗歌的活动赫然兴盛。它的操作如下:第一步,用中文写出几个句子;第二步,把这些句子放到翻译器中,将其翻译成其它语言,必要时此步骤可重复多次,即在不同的别国...

2023-07-01 #经典句子