第一句子大全,网罗天下好句子,好文章尽在本站!

让AI触类旁通93种语言:Facebook最新多语种句嵌入来了

时间:2013-09-07

新鲜出炉的Facebook多语种句嵌入,就是这样一种神器

友情提示:本文共有 1206 个字,阅读大概需要 3 分钟。

夏乙 发自 凹非寺

量子位 出品 | 公众号 QbitAI

搞定一种语言之后,是不是很希望算法能在近百种语言上无缝迁移?

AI真能无师自通,对于我们这些“因为语言不通而分散在各处”的人们来说,简直是天大的福音。

新鲜出炉的Facebook“多语种句嵌入”,就是这样一种“神器”。他们提出了一种新架构,为横跨34个语族、28种不同文字写成的的93种语言,学习了统一的联合多语种句嵌入。

举个例子,只要用标注好的英语数据训练一个分类器算法,教会它判断一个英语句子是不是少儿不宜,就可以无缝迁移到其他语言上,不管你是豪萨语、鞑靼语还是汉语粤方言,它都能判断有没有少儿不宜。

能一下子准备好接受这么多种语言,是怎么做到的呢?

我们来看一下这个系统的架构:

它由编码器(encoder)、解码器(decoder)两大部分组成。其中,编码器是个无关语种的BiLSTM,负责构建句嵌入,这些句嵌入接下来会通过线性变来换初始化LSTM解码器。

为了让这样一对编码器、解码器能处理所有语言,还有个小条件:编码器最好不知道输入的究竟是什么语言,这样才能学会独立于语种的表示。所以,还要从所有输入语料中学习出一个“比特对嵌入词库”(BPE)。

不过,解码器又有着完全相反的需求:它得知道输入的究竟是什么语言,才能得出相应的输出。于是,Facebook就为解码器附加了一项输入:语言ID,也就是上图的Lid。

训练这样一个系统,Facebook用了16个英伟达V100 GPU,将batch size设置为12.8万个token,花5天时间训练了17个周期。

架构说起来不算复杂,效果怎么样呢?

用包含14种语言的跨语种自然语言推断数据集(cross-lingual natural language inference,简称XNLI)来测试,这种多语种句嵌入(上图的Proposed method)零数据(Zero-Shot) 迁移成绩,在其中13种语言上都创造了新纪录,只有西班牙语例外。

另外,Facebook用其他任务测试了这个系统,包括ML-Doc数据集上的分类任务、BUCC双语文本数据挖掘。他们还在收集了众多外语学习者翻译例句的Tatoeba数据集基础上,制造了一个122种语言对齐句子的测试集,来证明自家算法在多语言相似度搜索任务上的能力。

最后,附上传送门~

论文:

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Mikel Artetxe, Holger Schwenk

https://arxiv.org/pdf/1812.10464.pdf

代码也即将开源,会直接更新到Facebook之前放出的无关语种句嵌入库LASER中:

https://github.com/facebookresearch/LASER

— 完—

本文如果对你有帮助,请点赞收藏《让AI触类旁通93种语言:Facebook最新多语种句嵌入来了》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

...其整合到特定任务的下游系统中。这种方法最初是通过词嵌入流行起来的,但最近已经被句子级别的表征所取代。但是,所有这些研究都是为每种语言学习一个单独的模型,因此无法利用不同语言之间的信息,这大大限制了它们...

2023-01-22 #经典句子

Facebook 开源工具包 LASER 支持 93 种语言

Facebook 开源工具包 LASER 支持 93 种语言

...entations)工具包,并将其开源。这是第一个成功探索大型多语种句子表示并与广大 NLP 社区共享的工具。该工具包现在可以使用 90 多种语言和 28 种不同的字母表。LASER 通过将所有语言联合嵌入到单个共享空间(而不是为每种语...

2022-12-28 #经典句子

Facebook新AI模型实现直接从非英语语言翻译到另一种非英语语言

Facebook新AI模型实现直接从非英语语言翻译到另一种非英语语言

...示,跟它所谓的“以英语为中心”的翻译系统相比,它的多语种翻译模式更有意义。该公司声称,M2M -100在机器翻译评估的BLEU scale上比这类方法高出“10分”。据Facebook介绍称,这个项目已经酝酿多年,尽管还有很大的改进空间...

2023-05-17 #经典句子

Facebook这项新技术 或许将帮人类弥合语言的鸿沟

Facebook这项新技术 或许将帮人类弥合语言的鸿沟

...了 12%。不仅如此,他们也在尝试一些更难的挑战,比如多语种(而非双语种)翻译。届时,基于神经网络的翻译系统,将在精度、地道程度、多语种翻译能力等更多维度上超过和取代统计机,甚至人工翻译——就目前来看,取...

2023-10-03 #经典句子

EMNLP2018最佳论文:Facebook 提升 11BLEU 的无监督机器翻译

EMNLP2018最佳论文:Facebook 提升 11BLEU 的无监督机器翻译

...的主要思路。雷锋网 AI 科技评论全文编译如下。二维词嵌入的旋转对齐自动语言翻译对于 Facebook 来说非常重要,它可以让数十亿用户以他们喜欢的语言进行联系和交流。为了做到这一点,当前的机器翻译(MT)系统需要访问大...

2023-06-14 #经典句子

Facebook开源NLP迁移学习工具包 支持93种语言 性能最优

Facebook开源NLP迁移学习工具包 支持93种语言 性能最优

...言,用28种不同的字母表编写。LASER通过将所有语言联合嵌入到一个共享空间(而不是为每种语言分别建模)来实现这些结果。Facebook还免费提供多语言编码器和PyTorch代码,以及包含100多种语言的多语言测试集。开源地址:https://gith...

2022-12-28 #经典句子

小语种语料资源匮乏情况下的机器翻译的解决方法一览

小语种语料资源匮乏情况下的机器翻译的解决方法一览

...之一。扩充平行语料的主要途径包括:借助双语或多语词嵌入、语言模型等,从单语数据、篇章级可比语料中自动抽取平行句对,利用回翻译方法快速构建伪平行数据,以及针对神经机器翻译训练语料中词分布不均衡问题,基于...

2022-11-19 #经典句子

Facebook人工智能开源多语言机器翻译模型

Facebook人工智能开源多语言机器翻译模型

Facebook AI是开源的M2M-100,一种多语言机器翻译模型(MMT),可以翻译100种语言中的任何一对而不依赖于英语。MMT被认为更准确,因为它不需要使用英语作为媒介。典型的模式是以英语为中心的,将中文翻译成法语或中文翻译成西班...

2023-06-24 #经典句子