第一句子大全,网罗天下好句子,好文章尽在本站!

Google 翻译出现宗教话语 可能是因为用了圣经训练模型导致

时间:2023-05-18

这其中甚至包括信德语巴基斯坦和印度、科萨语南非等极少人使用的语种

友情提示:本文共有 2228 个字,阅读大概需要 5 分钟。

上线 12 年,Google 翻译现在支持 100 多种语言,覆盖了全球 99% 的网民。这其中甚至包括信德语(巴基斯坦和印度)、科萨语(南非)等极少人使用的语种。

但最近 Reddit 上有网民发现了一些奇特的现象——在某些语种下,一些特定的词组会被 Google 翻译成看似乱码的宗教话语。

将语言设置成从毛利语翻译成英语后,输入 19 遍 “dog” 这个词,Google 翻译就会将这段话翻译成“世界末日时钟在 12 点 03 分我们正在经历世界上的人物和戏剧性的发展,这表明我们越来越近接近末日和耶稣的回归”

听上去像是悬疑惊悚片里面的台词,这只是 Reddit 上用户挖掘出来许多奇怪的翻译之一。

例如用 Google 翻译从索马里语翻译成英语,输入不同数量的 “ag” ,会得出不同的翻译结果,包括将 “ag” 翻译成 the sons of Gershon (Gershon 的儿子),the name of the LORD (耶稣的名字)。

对于出现这样现象的原因,Reddit 和推特上的网友玩笑地称幽灵和恶魔在 Google 提供翻译服务,或者可能是由不满的 Google 员工恶意生成。但也有一些认真的讨论,包括认为是有些人滥用“建议编辑”按钮,这个功能可以让任何用户帮助给出翻译内容的建议。

哈佛大学助理教授,研究自然语言处理和计算机翻译的 Andrew Rush 则不认为会是有人恶意捣乱,因为 Google 翻译内置的过滤器会捕捉和屏蔽这类型的修改。

他表示,奇怪翻译出现更有可能的原因和 2 年前 Google 翻译技术的改变有关, Google 翻译目前使用了一种被称为“神经机器翻译”的技术。

翻译软件的技术最早是利用词典和语法生成翻译,被称为基于规则的机器翻译(RBMT),使用上就是机器把每个单词查好,按简单的语法规则拼起来。随着统计学的发展,统计模型开始被应用在机器翻译上,通过对于两种不同语言的资料库进行统计分析来生成翻译结果。技术称为统计机器翻译(SMT),也是 1980 年代到 2000 年代之间翻译软件上最常用的方法。

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的编码器-解码器结构。他们的研究成果可以说是神经机器翻译(NMT)的诞生。神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。三年后,Google 发布了自家的神经机器翻译系统 GNMT,也是采用编码器-解码器结构,但解决了 NMT 系统翻译计算成本高,难以处理生僻词等一些问题。

所谓 Google 的 GNMT 神经机器翻译,其实就是将要翻译的句子中的词汇逐个编码,形成一个列表,其中每个单元都包含了之前被读取到单词的含义,然后使用训练后的神经网络作为解码器,将单元逐个翻译成目标语言。

以汉语“知识就是力量”翻译成英文为例,神经机器翻译先按 “知”——“知识”——“知识就”等顺序对原句进行编码,一旦读取完整个句子,解码器就开始工作,逐个按列表单元生成英语句子中的一个词,最后整合成一句话。

GNMT 还加入了“注意(Attention)”技术,为了在每一步都生成翻译正确的词,解码器会重点注意与生成英语词最相关的汉语向量。在“知识就是力量”这句话中,知识和力量就是值得注意的单词。

而想要提高编码器和解码器的能力,就需要大量的训练。系统需要一种语言的大量文本来训练另一种语言的相应翻译能力,最终确保可以创建出两种语言之间对应的模型,这也是问题所在。

回到 Google 翻译会出现宗教话语的问题。研究自然语言处理和计算机翻译的 Rush 解释称,“当你让 GNMT 学会一个新语言的翻译时,它会受到训练,并竭尽所能去生产一些看起来像人类语言的东西。然而,如果它面对一些特殊的内容,只能展现一些和输入内容完全没有关系,但仍然流利通顺的东西。”

BBN Technologies 的高级科学家肖恩·科尔巴斯(Sean Colbath)从事机器翻译工作,他同意奇怪的输出可能是由于 Google 翻译的算法在混乱中寻找秩序。

他还指出,产生最奇怪结果的语言——索马里语,夏威夷语和毛利语。这些语言比英语或中文等更广泛使用的语言具有更小的翻译文本。因此他说,Google 可能会使用像圣经这样被翻译成多种语言的宗教文本来训练这些小语种的模型,从而解释了为什么会产生宗教内容的原因。

截止 2002 年,已经有 392 种语言的圣经全译本(即全本旧约、新约都有翻译的版本)。

Rush 也同意如果 Google 使用圣经来训练翻译模型,是可以解释一些奇怪的输出。事实上,索马里语的一些奇怪翻译的确类似于旧约中的特定段落。包括《民数记》在内的几节经文讨论了 sons of Gershon,《出埃及记》里也有对应的内容。

Google 发言人伯尔拒绝透露翻译的培训材料是否包括宗教文本,一些已经被发现的奇特翻译也在被网友发现后进行了修正。

有趣的是,Google 翻译似乎也知道自己奇怪的地方。

在使用索马里语翻译:“ why are the translations so weird(为什么翻译这么奇怪)”,Google 翻译给出了一个有趣的回答,“It is a great way to make it so much better(这是一个让它变得更好的好方法)”

题图来源:Folha Gospel

本文如果对你有帮助,请点赞收藏《Google 翻译出现宗教话语 可能是因为用了圣经训练模型导致》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌,喻有“人类文明开拓者”之称,足以看得出谷歌的地位和口碑,经历过华为的事件之后,大家也能看得出谷歌的影响力。对于谷歌来说,小种语言因为缺少平行数据,所以翻译的时候也缺乏着一定的优势。不过有关谷歌的...

2023-05-18 #经典句子

谷歌翻译全新改版 文档翻译功能瞩目

谷歌翻译全新改版 文档翻译功能瞩目

自从谷歌浏览器正式改版MD之后,近日终于又迎来了王牌产品谷歌翻译的改版。作为谷歌“最成功”的产品之一,谷歌翻译这一次的更新带来了外观和功能上的改进。谷歌产品经理James Kuczmarski表示:“自推出12年以来,谷歌翻译...

2024-01-05 #经典句子

支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

谷歌表示,在提高语言翻译的质量方面,已经取得了进展。在即将发表的博客文章中,该公司详细介绍了新的创新技术,这些创新技术增强了Google翻译(Google Translate)支持的108种语言(特别是数据贫乏的约鲁巴语和马拉雅拉姆...

2023-05-05 #经典句子

谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

IT之家 4 月 18 日消息 谷歌 Chrome 浏览器 90 正式版于近日正式发布,浏览器带来了多项新功能,将自动使用 HTTPS 补充网址 URL 并提交给服务器。此外,还带来了 AV1 编解码器、窗口重命名等功能。根据外媒 TheVerge 消息,一些用户...

2022-12-21 #经典句子

谷歌人工智能新突破:让你用AI来玩文字游戏

谷歌人工智能新突破:让你用AI来玩文字游戏

近日,谷歌在AI上又有新成果,它成立了一个语意体验网站,其中有趣的一个应用是:Talk to Books。这个功能可以让人们以自然语言与超过10万本的书籍进行交流,另一个Semantris则是一个词汇联想的游戏,它会指定一个词作为题目...

2010-04-18 #经典句子

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

能牺牲大语种 提升小语种翻译质量的谷歌多语言机器翻译

雷锋网(公众号:雷锋网) AI 科技评论按:近期,谷歌拓展了机器翻译系统的边界:用所有可用的数据训练一个超大规模的多语言神经机器翻译系统。这不仅是一次大胆的尝试,也更新了我们对机器翻译模型的一些认识。雷锋网 AI...

2023-12-16 #经典句子

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

谷歌高管:语音技术重要性超AI 发展中国家体现最明显

...媒体与用户关注的焦点,它们被称为划时代的技术。不过谷歌搜索业务服务人本·戈麦斯持否定态度,他觉得语音技术才是科技发展最关键的技术,因为语音技术连接着普通语言对互联网,这才是未来。在记者的采访中,戈麦斯...

2023-11-14 #经典句子

三大在线翻译评测!谁能搞定方言和文言文?

三大在线翻译评测!谁能搞定方言和文言文?

...是需要用到的。 这里参与对比的是很多用户最常使用的谷歌翻译,有道翻译,以及一家小众翻译平台,但最近大热的---DeepL。 先说结论: DeepL干翻了几乎所有知名的翻译平台。 方言翻译:我们从最难的方言开始对比:1.你贼好...

2023-10-15 #经典句子

推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger

推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger

...使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷,谷歌研究人员提出新型文本生成方法 LaserTagger,旨在解决这些缺陷,提高文本生成的速度和效率。序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种...

2023-05-18 #经典句子