第一句子大全,网罗天下好句子,好文章尽在本站!

同时掌握96门语言 多项世界突破 百度发布预训练模型ERNIE

时间:2023-01-06

ERNIEM 通过对 96 门语言的学习,使得一个模型能同时理解 96 种语言,该项技术在 5 类典型跨语言理解任务上刷新世界最好效果

友情提示:本文共有 3607 个字,阅读大概需要 13 分钟。

机器之心报道

机器之心编辑部

2021 年伊始,百度在自然语言处理领域取得最新突破,发布多语言预训练模型 ERNIE-M。ERNIE-M 通过对 96 门语言的学习,使得一个模型能同时理解 96 种语言,该项技术在 5 类典型跨语言理解任务上刷新世界最好效果。在权威跨语言理解榜单 XTREME 上,ERNIE-M 也登顶榜首,超越微软、谷歌、Facebook 等机构提出的模型。据了解,基于飞桨实现的 ERNIE-M 模型也会于近期开源。

论文链接: https://arxiv.org/pdf/2012.15674.pdf

文心平台: https://wenxin.baidu.com/

开源地址: https://github.com/PaddlePaddle/ERNIE

跨语言理解

随着人工智能技术的不断发展,搜索引擎、智能客服、智能音箱等人工智能系统不断给人们带来更好的体验。然而,这些系统的构建往往依赖于大量的标注数据,而许多系统使用单一语言训练,并不能直接应用于其他语言,这对于机器理解标注语料稀少的小语种(比如布列塔尼语、冰岛语)来说无疑是一个巨大的挑战。如何构建统一的语言模型,理解多种语言,是近年来自然语言处理领域研究的热点。

多语言模型对于小语种这种低资源语言的理解十分有帮助。以情感分析系统为例,构建情感分析系统往往需要大量有标签数据,而小语种语言中的有标签数据十分稀缺,因而搭建小语种语言的情感分析系统十分困难。依托多语言模型的跨语言迁移能力可以解决该问题,在高资源语言标注数据上训练的模型直接对小语种语言进行理解,搭建小语种语言的情感分析系统。

XTREME 评测是谷歌研究院、DeepMind 和卡耐基梅隆大学于 2020 年 4 月发布的涵盖了 12 个语系 40 种语言的多语言权威评测榜单。其包括文本分类、结构化预测、语义检索和阅读理解等四类自然语言处理任务的 9 个数据集,自发布以来便引起了纽约大学、谷歌、微软等顶尖国际学术机构和科技公司激烈角逐。

2021 年 1 月 1 日,ERNIE-M 在以 80.9 分的成绩登顶榜首,刷新了该榜单记录。

ERNIE-M 背景

当前的技术主要通过单语语料分别学习不同语言的语义,再使用双语语料将不同语言的语义对齐。然而大部分语种的双语语料十分稀疏,限制了多语言模型的效果。为了突破双语语料规模对多语言模型的学习效果限制,提升跨语言理解的效果,百度研究人员提出基于回译机制,从单语语料中学习语言间的语义对齐关系的预训练模型 ERNIE-M,显著提升包括跨语言自然语言推断、语义检索、语义相似度、命名实体识别、阅读理解在内的 5 种典型跨语言理解任务效果,并登顶权威跨语言理解评测 XTREME 榜首。

ERNIE-M 原理

ERNIE-M基于飞桨PaddlePaddle框架训练,该模型构建了大小为25万的多语言词表,涵盖了96种语言的大多数常见词汇,训练语料包含了汉语、英语、法语、南非语、阿尔巴尼亚语、阿姆哈拉语、梵语、阿拉伯语、亚美尼亚语、阿萨姆语、阿塞拜疆语等96种语言,约1.5万亿字符。ERNIE-M的学习过程由两阶段组成。第一阶段从少量的双语语料中学习跨语言理解能力,使模型学到初步的语言对齐关系;第二阶段使用回译的思想,通过大量的单语语料学习,增强模型的跨语言理解能力。

在第一阶段的学习中,ERNIE-M 提出了 Cross-attention Masked Language Modeling (CAMLM) 预训练算法。该算法在少量双语语料上捕捉语言间的对齐信息。在 CAMLM 中,将一对双语句子记为 <源句子,目标句子>。CAMLM 需要在不利用源句子上下文的情况下,通过目标句子还原被掩盖的词语。例如:输入的句子对是 <明天会 [MASK][MASK] 吗,Will it be sunny tomorrow>,模型需要只使用英文句子 来推断中文句子中掩盖住的词 <天晴>,使模型初步建模了语言间的对齐关系。

在此基础上,ERNIE-M 又提出了 Back-translation Masked Language Modeling (BTMLM) 预训练算法。该方法基于回译机制从单语语料中学习语言间的对齐关系。首先,通过第一阶段学习到的 CAMLM 模型生成伪平行句子,然后让模型学习生成的伪平行句子。模型在还原被掩盖的单词时,不仅可以依赖原始输入句子,也可以依赖生成的伪平行句子。例如,输入的单语句子是 <我真的很喜欢吃苹果>,模型首先会依据输入的句子 <我真的很喜欢吃苹果> 生成伪双语平行句子 <我真的很喜欢吃苹果,eat apples>。然后再对生成的伪平行句子 <我真的很喜欢吃[MASK][MASK],eat apples > 学习。通过这种方式,ERNIE-M 利用单语语料更好地建模语义对齐关系。

实验效果

ERNIE-M 在跨语言自然语言推断、阅读理解、命名实体识别、语义相似度、跨语言检索等 5 个公开数据集上进行了实验,均取得了最优效果。百度研究人员通过两种方式评测了 ERNIE-M 的效果。

1)Cross-lingual Transfer:该方式将英文训练的模型直接在其他语言上测试,验证模型的跨语言理解能力。例如,让模型理解 “这家餐厅环境不错” 是正向情感,模型需要判断 “I am very happy.” 也是正向的情感。在实际应用中,如果缺乏某种语言的标注数据,该技术可以通过其他语言的标注数据对多语言模型训练解决该问题,降低小语种系统的构建难度。

2)Multi-language Fine-tuning:该方式使用所有语言的标注数据对模型进行多任务训练,验证在有本语言标注数据的情况下,模型能否利用其他语言的数据,进一步增强该语言的理解效果。

跨语言检索

跨语言检索任务是在双语语料库中检索语义相同的句子,如下图所示,ERNIE-M 可使得用户只用某一种语言,例如汉语,便可检索到其他语言的结果,如英语、法语、德语等结果。该技术使信息跨越不同语言之间的鸿沟,帮助全球的网民搜索到更多有价值的信息。ERNIE-M 在跨语言检索数据集 Tatoeba 上取得了准确率 87.9% 的效果。

自然语言推断

自然语言推断是自然语言理解中的一项重要的基准任务,该任务的目标是判断两句话之间的逻辑关系。多语言数据集 XNLI 数据集包含 15 种语言,既有英语、法语等常见语言也有斯瓦希里语等小语种语言。

ERNIE-M 在 Cross-lingual Transfer 和 Multi-language Fine-tuning 两种模式下验证了效果,研究者用英语对 ERNIE-M 进行微调训练,在汉语、德语、乌尔都语等语言上测试,能达到平均准确率 82.0% 的效果。如果使用所有语言的训练语料,准确率可以进一步提升到 84.2%。

阅读理解

阅读理解任务的目标是根据文章回答指定问题。为了评测 ERNIE-M 在阅读理解任务上的效果,ERNIE-M 在 Facebook 提出的 MLQA 多语言阅读理解数据集上进行了评测。在该任务中,模型需要先在英语上进行训练,再在其他语言的数据集上评测。此项任务可以评估模型在跨语言问答任务的效果,帮助跨语言问答系统的搭建。该任务如下图所示,ERNIE-M 在仅使用英语训练的情况下,不同语言的问题中有 55.3% 可以完全回答正确。

命名实体识别

命名实体识别任务的目标是识别出文章中的人名、地名、时间、机构等信息。其可以帮助人们快速地从大量文章中提取出有价值的信息。如下图所示,使用多语言模型可以帮助我们在小语种文章上做信息抽取。ERNIE-M 在 CoNLL 数据集上进行评测,同时在 Cross-lingual Transfer 和 Multi-language Fine-tuning 两种模式下验证了效果。研究者用英语对 ERNIE-M 进行微调训练,在荷兰语、西班牙语和德语上进行了测试,平均 F1 能达到 81.6%,如果使用所有语言的训练语料,平均 F1 可进一步提升至 90.8%。

结语

打破不同语言之间的隔阂,实现机器跨语言理解是人工智能领域攻坚的重要难题。此次,百度的多语言预训练模型 ERNIE-M 首次提出从单语语料中学习语义对齐关系的预训练算法,打破了双语语料大小对多语言模型的效果限制,为跨语言的语义理解研究提供了新的思路。ERNIE-M 技术具有广泛的应用前景,该技术可将基于汉语研发的人工智能系统,拓展到我国其他民族的语言理解上,帮助我们更好地分析各民族语言。此外,ERNIE-M 技术也可辅助语言学家和考古学家去理解已经濒危或失传的语言,更好地保护我们的民族文化。

在刚刚结束的 Wave Summit + 2020 峰会上,百度文心语义理解技术平台(https://wenxin.baidu.com/)又推出了文心 NLP 开发套件,其基于业界领先的语义理解技术,对外提供更加灵活的 NLP 定制与服务能力,面向开发者和企业进行开放赋能。目前,文心平台已广泛应用于金融、通信、教育、互联网等各行各业,助力产业智能化发展。

本文如果对你有帮助,请点赞收藏《同时掌握96门语言 多项世界突破 百度发布预训练模型ERNIE》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
句子抖动科技公司来了

句子抖动科技公司来了

今天下午,刚刚发生的大事情。我和互联网经济强市的几个朋友,通过视频方式确定了,我们将以合伙人形式,成立一家公司:句子抖动科技公司。首任执行官由张惊人担任。品牌推广总监由雷车担任。行销总监非马超云莫属。...

2022-12-24 #经典句子

济南蚂蚁逛街教育科技——老舍先生最通透走心的句子

济南蚂蚁逛街教育科技——老舍先生最通透走心的句子

1.人是活的,要见机而作,不能先给自己画好了白线,顺着它走!—— 老舍《四世同堂》(济南蚂蚁逛街教育科技)2.谦虚使人的心缩小,象一个小石卵,虽然小,而极结实。结实才能诚实。—— 老舍3.人,即使活到七八十岁,...

2023-01-23 #经典句子

济南火鸟教育科技·九位名人美到极致的句子

济南火鸟教育科技·九位名人美到极致的句子

(一)村上春树说:如若相爱,便携手到老;如若错过,便护他安好。(济南火鸟教育科技分享九位名人美到极致的句子)(二)梁实秋说:你走,我不送你。你来,无论多大风多大雨,我要去接你。(三)徐志摩说:走着走着...

2023-05-15 #经典句子

济南蚂蚁逛街教育科技——三观很正的句子·上篇

济南蚂蚁逛街教育科技——三观很正的句子·上篇

1. 夸奖的话可以脱口而出,诋毁的话需三思而后行 (济南蚂蚁逛街教育科技)2. 我们常感叹生活太过平淡,其实,人生中,除了幸福和痛苦,平淡占据了我们大部分生活。我们要学会享受平淡,平淡如同清茶,点缀着生活的宁...

2023-01-25 #经典句子

济南火鸟教育科技·关于植树节的句子

济南火鸟教育科技·关于植树节的句子

一、栽种奋斗,收获成功;栽种汗水,收获健康;栽种笑脸,收获快乐;栽种好运,收获财富。植树节,我栽种祝福,愿你收获幸福!(济南火鸟教育科技分享关于植树节的句子)二、春天里来好风光,花红树绿水荡漾。为你栽...

2022-12-10 #经典句子

济南蚂蚁逛街教育科技·分享温柔的句子

济南蚂蚁逛街教育科技·分享温柔的句子

天空没有翅膀的痕迹,而我已经飞过,思念是翅膀飞过的痕迹。 人生的意义不在于留下什么,只要你经历过,就是最大的美好,这不是无能,而是一种超然。 ——泰戈尔《流萤集》在世界上,按世人的观点生活容易;在隐居时...

2023-01-06 #经典句子

济南蚂蚁逛街教育科技有限公司靠谱吗?怎么样?精致入心句子

济南蚂蚁逛街教育科技有限公司靠谱吗?怎么样?精致入心句子

不经历风雨,不承受是非,不遭遇委屈,人的心智就不可能真正的获得成长,因为每一个强大的人,都曾经咬着牙度过了一段没人帮忙、没人支持、也没人嘘寒问暖的日子。(济南蚂蚁逛街教育科技有限公司靠谱吗?怎么样?)...

2023-06-20 #经典句子

写材料很费神 这些关于科技创新的句子能帮你省点劲 快收藏吧

写材料很费神 这些关于科技创新的句子能帮你省点劲 快收藏吧

写材料很费神,这些关于科技创新的句子能帮你省点劲,快收藏哦。1.世界范围内生产力、生产方式、生活方式、经济社会发展格局发生深刻变革,科学技术作为最活跃、最具革命性、最富有驱动力的核心要素,比历史上任何时...

2023-07-06 #经典句子