第一句子大全,网罗天下好句子,好文章尽在本站!

40种语言 9项推理任务 谷歌发布新的NLP基准测试XTREME

时间:2023-05-18

从语言学的角度,值得注意的一点是,不同语言或许有相同的来源,例如英语的desk和德语的 Tisch都来自拉丁语 discus

友情提示:本文共有 3561 个字,阅读大概需要 8 分钟。

作者 | 蒋宝尚

编辑 | 贾伟

全世界约有6900种语言,但大多数并没有英语这种数据规模,这也导致大多数的NLP基准仅限于英文任务,这大大制约了自然语言处理的多语言发展。

从语言学的角度,值得注意的一点是,不同语言或许有相同的来源,例如英语的“desk”和德语的“ Tisch”都来自拉丁语“ discus”。

如何利用语言之间的这种“共享结构”来克服数据不足问题,是当前学术界尝试多语言研究的方向之一。近日,谷歌联合CMU、DeepMind推出的《XTREME:评估跨语言泛化的大规模、多语言、多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)极大的鼓励了多语言研究。

(雷锋网)这篇研究涵盖了40种类型多样的语言(涵盖12种语系),还包括9项需要共同对不同级别的句法或语义进行推理的任务。

XTREME设计原则

正如谷歌论文的标题,XTREME是一个基准,用来评估跨语言迁移学习的好坏,在多样化和具有代表性的任务和语言上,其选择构成基准的任务和语言主要考虑的原则包括:任务的难度、任务的多样性、以及训练的效率、多语言性、充足的单语数据等等。

1、任务难度足够有挑战性,使得跨语言的表现低于人的表现;2、任务应该要求语言模型在不同的层次上传递不同的意义,例如,分类任务需要句子级的意义转移,而序列标记任务,如语音部分(POS)标记或命名实体识别(NER)则需要测试模型在词级的意义转移能力;3、考虑到资源有限,任务要求在一个GPU上就能够训练,而且训练时间不能超过一天;4、首先考虑涵盖多语言和语系的任务;5、任务的使用是获得许可的,能够允许用于研究,以及以此为目的数据再分配。

XTREME任务一览

(雷锋网)

XTREME包含9个任务,共有4个类别,可以在不同的意义层次上进行推理。任务概述如上表所示。

XNLI:FAIR 和纽约大学合作开发,作为一个新的自然语言推断语料库,其将MultiNLI 的测试集和开发集扩展到 15 种语言,包括斯瓦西里语和乌尔都语等低资源语言。

PAWS-X:是在 PAWS 数据集基础上, 扩展了包含另外6 种不同类型语言的释义识别对抗性数据集, 支持语言包括: 法语、西班牙语、德语、汉语、日语和韩语。PAWS-X 数据集则包含23 659组由人工判断而得的PAWS 扩展句子对, 以及296 406 组由机器翻译的训练对。

POS:作者使用了通用依存关系中数据库中的POS标签数据,并使用英语训练数据进行训练,并在目标语言的测试集上进行了评估。

NER:对于NER,作者使用了Wikiann数据集,并用知识库属性、跨语言、锚链接、自我训练和数据选择相结合的方法,对维基百科中的命名实体进行了IOB2格式的LOC、PER和ORG标签的自动注释。

XQuAD:是一个更全面的跨语言基准测试,包括由专业翻译人员翻译成十种语言的240段和1190对问题回答。

MLQA:这是一个类似于XQuAD的多语言问题回答数据集,能够用于评估跨语言问答性能的基准。其由SQuAD格式的超过5K提取QA实例(英语为12K)组成,使用7种语言-英语,阿拉伯语,德语,西班牙语,北印度语,越南语和简体中文。

(雷锋网)XTREME基准测试中支持的任务

TyDiQA-GoldP:TyDiQA是一个涵盖了 11 种不同类型语言的问答语料库,TyDiQA-GoldP是其简化版,并排除了一些无法回答的问题。它类似于XQuAD和MLQA,但比这两个分别少了三倍和两倍的的词法重叠度。另外,作者使用使用英语训练数据在目标语言的测试集上进行训练和评估。

BUCC:该数据集为每种语言提供了训练和测试分词,为了简化,作者直接对测试集上的表征进行评估,没有进行微调,但使用了余弦相似度公式计算相似度。

Tatoeba:该数据集包含了多达1000个覆盖122种语言的英语句子对,在该数据集上,作者使用余弦相似度找到近邻( nearest neighbour),并计算错误率。

综上,XTREME中包含的任务涵盖了一系列范式,包括句子分类,结构化预测,句子检索和问题解答。

评估

由于英语是多语言表征中最常用的评估设置,并且多数任务中仅有英语训练数据,所以谷歌在评估设置上采用英语作为源语言的zero-shot跨语言迁移。虽然英语并非所有目标语言的跨语言迁移的最佳源语言,但这是目前实践中最拥有的设置。

为了使用XTREME评估模型性能,首先需要使用引起跨语言学习的目标语言在多语言文本上对模型进行预训练,接着在指定任务的英语数据上对模型进行微调。随后,XTREME 在目标语言上评估模型的zero-shot跨语言迁移性能。

下图展示了从预训练到微调再到zero-shot迁移的三大流程:

模型的跨语言迁移学习过程:1、针对多语言文本的预训练;2、使用英语对下游任务进行微调;3、使用 XTREME 进行 zero-shot 评估。

实践中,这种zero-shot设置的好处之一是能够提升计算效率,即预训练模型仅需要针对每个任务在英语数据上进行微调,便可以在其他语言上直接进行评估。

针对在其他语言中也有标注数据的任务,作者也比较了模型在这些语言上进行微调后的性能,最终获得了 9 个XTREME任务的zero-shot得分,得出了综合分数。

在基准测试方面,谷歌研究者选择几种当前最先进的多语言模型进行试验,包括多语言BERT 模型 (mBERT),多语言BERT 模型的大型版本XLM和XLM-R 以及大型多语言机器翻译模型 M4。这些模型的共同特点,就是它们已经在来自不同语言的大量数据上进行了预训练。

在方法上,主要采用的是通过自监督或借助译文来学习多语言表征。

图注:基于翻译的基准对句子检索没有意义。在有目标语言训练数据的情况下,作者提供了语言内基准。

实验结果如上图所示,XLMR是表现最好的模型,总体上比mBERT有明显的改进,但是在结构化预测任务上的改进较小。MMTE在大多数任务上的性能与mBERT相当,在XNLI、POS和BUCC上的性能更强。

对于有语内训练数据( in-language training data)的任务,使用语内数据训练的多语言模型要优于zero-shot迁移模型。但是,只要有更多的英语样本,zero-shot迁移模型就会好于只训练了1000个复杂QA任务的语言内示例的多语言模型。

对于结构化预测任务,1,000个语内实例能使模型达到与在完整的标签化数据集上训练的性能。

最后,在Translate-train和In-language设置上的多任务学习一般都比单一语言训练有所改善。

对于一些有代表性的模型,作者研究了跨语言转移差距,即在英语测试集上的表现与所有其他语言之间的差距。

如上图所示,虽然在XQuAD和MLQA等具有挑战性的任务上,XLM-R等强大的模型与mBERT相比,可以显著缩小差距,但它们在句法结构化预测任务上的影响不尽相同。

在分类任务上,转移学习的差距最小,说明在这些任务上的进步空间可能较小。

机器翻译的使用虽然缩小了所有任务之间的差距。总体而言,所有方法都存在很大的差距,这表明跨语言迁移工作的潜力很大。

分析

作者进行了一系列的分析,研究了当前能够达到SOTA的跨语言模型的局限性。具体分析包括五个部分:

图注:XLM-R在XTREME任务中所有语言在各个任务中的表现概述

最佳zero-shot模式分析:如上图所示,这部分主要说明为什么在不同的任务和语言中评估通用的多语言表征非常重要。

与训练前数据大小的相关性:如上图模型性能与各语言中维基百科文章数量的皮尔森相关系数ρ,表明除了结构化预测任务的任务外,多数任务的相关系数都很高。这意味着当前的模型无法充分利用从预训练数据中提取的信息来转移到句法任务。

语言特点分析:如上图,根据不同语系和编写脚本分析结果。对于mBERT,印欧语系的分支(如日耳曼语、罗曼语和斯拉夫语)的迁移性能最佳。相比之下,尼日尔-刚果和克拉-傣语等低资源语系的跨语言迁移表现仍然较低。另外,不同的流行脚本,如拉丁文和表意文字,在句法任务上的表现是不同的。

跨语言的错误:因为对于其他测试集是从英语翻译过来的XNLI和XQuAD,这部分作者分析了这些方法在源语言和目标语言中是否会犯同样类型的错误。更为具体一些是探讨了英语中正确和错误预测的例子是否在其他语言中被正确预测。结果是在XNLI和XQuAD数据集上有不同答案。

推广到不可见的标签组合和实体:这部分主要分析了结构化预测任务迁移不成功的原因。结论是该模型可能难以推广到更具目标语言特征的实体。

本文如果对你有帮助,请点赞收藏《40种语言 9项推理任务 谷歌发布新的NLP基准测试XTREME》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌,喻有“人类文明开拓者”之称,足以看得出谷歌的地位和口碑,经历过华为的事件之后,大家也能看得出谷歌的影响力。对于谷歌来说,小种语言因为缺少平行数据,所以翻译的时候也缺乏着一定的优势。不过有关谷歌的...

2023-05-18 #经典句子

谷歌翻译全新改版 文档翻译功能瞩目

谷歌翻译全新改版 文档翻译功能瞩目

自从谷歌浏览器正式改版MD之后,近日终于又迎来了王牌产品谷歌翻译的改版。作为谷歌“最成功”的产品之一,谷歌翻译这一次的更新带来了外观和功能上的改进。谷歌产品经理James Kuczmarski表示:“自推出12年以来,谷歌翻译...

2024-01-05 #经典句子

支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

谷歌表示,在提高语言翻译的质量方面,已经取得了进展。在即将发表的博客文章中,该公司详细介绍了新的创新技术,这些创新技术增强了Google翻译(Google Translate)支持的108种语言(特别是数据贫乏的约鲁巴语和马拉雅拉姆...

2023-05-05 #经典句子

谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

IT之家 4 月 18 日消息 谷歌 Chrome 浏览器 90 正式版于近日正式发布,浏览器带来了多项新功能,将自动使用 HTTPS 补充网址 URL 并提交给服务器。此外,还带来了 AV1 编解码器、窗口重命名等功能。根据外媒 TheVerge 消息,一些用户...

2022-12-21 #经典句子

谷歌人工智能新突破:让你用AI来玩文字游戏

谷歌人工智能新突破:让你用AI来玩文字游戏

近日,谷歌在AI上又有新成果,它成立了一个语意体验网站,其中有趣的一个应用是:Talk to Books。这个功能可以让人们以自然语言与超过10万本的书籍进行交流,另一个Semantris则是一个词汇联想的游戏,它会指定一个词作为题目...

2010-04-18 #经典句子

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

雷锋网(公众号:雷锋网) AI 科技评论按:近期,谷歌拓展了机器翻译系统的边界:用所有可用的数据训练一个超大规模的多语言神经机器翻译系统。这不仅是一次大胆的尝试,也更新了我们对机器翻译模型的一些认识。雷锋网 AI...

2023-12-16 #经典句子

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

...媒体与用户关注的焦点,它们被称为划时代的技术。不过谷歌搜索业务服务人本·戈麦斯持否定态度,他觉得语音技术才是科技发展最关键的技术,因为语音技术连接着普通语言对互联网,这才是未来。在记者的采访中,戈麦斯...

2023-11-14 #经典句子

三大在线翻译评测!谁能搞定方言和文言文?

三大在线翻译评测!谁能搞定方言和文言文?

...是需要用到的。 这里参与对比的是很多用户最常使用的谷歌翻译,有道翻译,以及一家小众翻译平台,但最近大热的---DeepL。 先说结论: DeepL干翻了几乎所有知名的翻译平台。 方言翻译:我们从最难的方言开始对比:1.你贼好...

2023-10-15 #经典句子

推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger

推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger

...使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷,谷歌研究人员提出新型文本生成方法 LaserTagger,旨在解决这些缺陷,提高文本生成的速度和效率。序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种...

2023-05-18 #经典句子