第一句子大全,网罗天下好句子,好文章尽在本站!

推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger

时间:2023-05-18

序列到序列seq2seq模型给机器翻译领域带来了巨大变革,并成为多种文本生成任务的首选工具,如文本摘要、句子融合和语法纠错

友情提示:本文共有 2101 个字,阅读大概需要 5 分钟。

来源:机器之心

作者:Eric Malmi等

机器之心编译

参与:魔王、杜伟

使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷,谷歌研究人员提出新型文本生成方法 LaserTagger,旨在解决这些缺陷,提高文本生成的速度和效率。

序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种文本生成任务的首选工具,如文本摘要、句子融合和语法纠错。模型架构改进(如 Transformer)以及通过无监督训练方法利用大型无标注文本数据库的能力,使得近年来神经网络方法获得了质量上的提升。

但是,使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷,如生成的输出不受输入文本支持(即「幻觉」,hallucination)、需要大量训练数据才能实现优秀性能。此外,由于 seq2seq 模型通常逐词生成输出,因此其推断速度较慢。

谷歌研究人员在近期论文《Encode, Tag, Realize: High-Precision Text Editing》中提出一种新型文本生成方法,旨在解决上述三种缺陷。该方法速度快、精确度高,因而得名 LaserTagger。

论文地址:https://research.google/pubs/pub48542/

开源地址:http://lasertagger.page.link/code

LaserTagger 没有采用从头生成输出文本的方式,而是使用预测的编辑操作标记单词,然后在单独的 realization 步骤中将这些操作应用于输入单词,进而得到输出。这种方式更不容易出现误差,因此我们可以使用这种训练更容易、执行更快速的模型架构来解决文本生成任务。

LaserTagger 的设计与功能

很多文本生成任务具备一个显著特征,即输入与输出通常高度重合。例如,在检测和修复语法错误或者融合句子时,大部分输入文本保持不变,只有一小部分单词需要修改。为此,LaserTagger 生成编辑操作序列,而不是直接生成单词。

该方法使用以下四种编辑操作类型:Keep(将单词复制到输出文本)、Delete(删除单词),以及 Keep-AddX / Delete-AddX(在标记单词前添加词组 X,并选择性地删除标记单词)。

下图展示了将 LaserTagger 应用到句子融合任务中的流程:

将 LaserTagger 应用到句子融合任务。预测到的编辑操作是:删除「. Turing」,并在「. Turing」前添加「and he」。注意输入和输出文本存在高度重合。

所有添加词组均来自有限词汇表。词汇表是优化的结果,该优化过程有两个目标:1)最小化词汇表规模;2)最大化训练样本数量,即必须添加到目标文本的单词仅来自于词汇表。有限词组库缩小了输出决策的空间,防止模型添加任意词,从而缓解了幻觉问题。

输入和输出文本高度重合这一特性要求做出的修改彼此独立。这意味着可以高准确率并行预测编辑操作,相比于基于之前预测结果顺序执行预测的自回归 seq2seq 模型,该方法可以实现显著的端到端速度提升。

实验结果

研究者在句子融合、拆分和改述(split and rephrase)、抽象式摘要和语法纠错四项任务中评估 LaserTagger 的性能。在这些任务中,LaserTagger 的性能可媲美使用大量训练样本的基于 BERT 的 seq2seq 基线模型,在基线模型训练样本有限的情况下,LaserTagger 的性能明显超过基线模型。

下图展示了模型在 WikiSplit 数据集上的结果,模型执行的任务是将一个长句子改述为两个连贯的短句。

在包含 100 万样本的完整数据集上训练模型时,LaserTagger 和基于 BERT 的 seq2seq 基线模型性能相当。但当训练样本只有一万个甚至更少时,LaserTagger 的性能明显超过基线模型(SARI 分数越高,性能越好)。

LaserTagger 的核心优势

与传统的 seq2seq 方法相比,LaserTagger 具备以下优势:

控制:通过控制输出词组表,LaserTagger 更不容易受到幻觉的影响;

推断速度:LaserTagger 计算预测的速度是 seq2seq 基线模型的 100 倍,因此适合实时应用;

数据效率:即使训练样本只有几百几千个,LaserTagger 也能生成合理的输出文本。实验显示,seq2seq 基线模型需要数万个样本才能实现类似性能。

LaserTagger 的意义

大规模应用时,LaserTagger 的优势会更加明显,比如通过缩短语音回复的长度、减弱其重复性,来改进语音应答的质量。高速推断允许 LaserTagger 模型插入现有技术栈,且不会导致用户端出现明显的延迟增加。

此外,数据效率提升可以帮助收集多种语言的训练数据,这有益于拥有不同语言背景的用户。

目前,谷歌致力于将类似的改进带到谷歌的其他自然语言生成技术中。此外,谷歌正在探索,当用户 query 越来越长、越来越复杂,且作为对话的一部分出现时,文本编辑(而不是从头生成文本)对更好地理解用户 query 的作用。

本文如果对你有帮助,请点赞收藏《推断速度达seq2seq模型的100倍 谷歌开源文本生成新方法LaserTagger》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

谷歌 Chrome 90 新功能:可创建定位到句子的网页链接

IT之家 4 月 18 日消息 谷歌 Chrome 浏览器 90 正式版于近日正式发布,浏览器带来了多项新功能,将自动使用 HTTPS 补充网址 URL 并提交给服务器。此外,还带来了 AV1 编解码器、窗口重命名等功能。根据外媒 TheVerge 消息,一些用户...

2022-12-21 #经典句子

谷歌人工智能可改变句子时态 语态属性

谷歌人工智能可改变句子时态 语态属性

【手机中国新闻】在蒙特利尔的NeurIPS 2018大会的一篇论文——《带有属性控制的内容保留文本生成》中,密歇根大学和Google Brain的数据科学家描述了一种机器学习架构,不仅能够根据给定样本生成句子,还能够在保留原意的前提...

2023-05-18 #经典句子

谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌将推出103种语言翻译模型 针对250亿句子训练 有500亿参数

谷歌,喻有“人类文明开拓者”之称,足以看得出谷歌的地位和口碑,经历过华为的事件之后,大家也能看得出谷歌的影响力。对于谷歌来说,小种语言因为缺少平行数据,所以翻译的时候也缺乏着一定的优势。不过有关谷歌的...

2023-05-18 #经典句子

20句温暖原创句子:百度搜狗谷歌 每一次输入都是你的名字

20句温暖原创句子:百度搜狗谷歌 每一次输入都是你的名字

说到输入法大家可能都知道,就是一但你一个词语打多了那么他就会形成一个记忆,那么一到下次这个字就会主动的跳出来,所以大家懂的哦,最近有一位网友发现不管是百度搜狗谷歌,打出的都是一个人名字,这说明这就是爱...

2023-12-14 #经典句子