第一句子大全 > 经典句子 > 正文

推断速度达seq2seq模型的100倍谷歌开源文本生成新方法LaserTagger

时间：2023-05-18

序列到序列seq2seq模型给机器翻译领域带来了巨大变革，并成为多种文本生成任务的首选工具，如文本摘要、句子融合和语法纠错

友情提示：本文共有 2101 个字，阅读大概需要 5 分钟。

来源：机器之心

作者：Eric Malmi等

机器之心编译

参与：魔王、杜伟

使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷，谷歌研究人员提出新型文本生成方法 LaserTagger，旨在解决这些缺陷，提高文本生成的速度和效率。

序列到序列（seq2seq）模型给机器翻译领域带来了巨大变革，并成为多种文本生成任务的首选工具，如文本摘要、句子融合和语法纠错。模型架构改进（如 Transformer）以及通过无监督训练方法利用大型无标注文本数据库的能力，使得近年来神经网络方法获得了质量上的提升。

但是，使用 seq2seq 模型解决文本生成任务伴随着一些重大缺陷，如生成的输出不受输入文本支持（即「幻觉」，hallucination）、需要大量训练数据才能实现优秀性能。此外，由于 seq2seq 模型通常逐词生成输出，因此其推断速度较慢。

谷歌研究人员在近期论文《Encode, Tag, Realize: High-Precision Text Editing》中提出一种新型文本生成方法，旨在解决上述三种缺陷。该方法速度快、精确度高，因而得名 LaserTagger。

论文地址：https://research.google/pubs/pub48542/

开源地址：http://lasertagger.page.link/code

LaserTagger 没有采用从头生成输出文本的方式，而是使用预测的编辑操作标记单词，然后在单独的 realization 步骤中将这些操作应用于输入单词，进而得到输出。这种方式更不容易出现误差，因此我们可以使用这种训练更容易、执行更快速的模型架构来解决文本生成任务。

LaserTagger 的设计与功能

很多文本生成任务具备一个显著特征，即输入与输出通常高度重合。例如，在检测和修复语法错误或者融合句子时，大部分输入文本保持不变，只有一小部分单词需要修改。为此，LaserTagger 生成编辑操作序列，而不是直接生成单词。

该方法使用以下四种编辑操作类型：Keep（将单词复制到输出文本）、Delete（删除单词），以及 Keep-AddX / Delete-AddX（在标记单词前添加词组 X，并选择性地删除标记单词）。

下图展示了将 LaserTagger 应用到句子融合任务中的流程：

将 LaserTagger 应用到句子融合任务。预测到的编辑操作是：删除「. Turing」，并在「. Turing」前添加「and he」。注意输入和输出文本存在高度重合。

所有添加词组均来自有限词汇表。词汇表是优化的结果，该优化过程有两个目标：1）最小化词汇表规模；2）最大化训练样本数量，即必须添加到目标文本的单词仅来自于词汇表。有限词组库缩小了输出决策的空间，防止模型添加任意词，从而缓解了幻觉问题。

输入和输出文本高度重合这一特性要求做出的修改彼此独立。这意味着可以高准确率并行预测编辑操作，相比于基于之前预测结果顺序执行预测的自回归 seq2seq 模型，该方法可以实现显著的端到端速度提升。

实验结果

研究者在句子融合、拆分和改述（split and rephrase）、抽象式摘要和语法纠错四项任务中评估 LaserTagger 的性能。在这些任务中，LaserTagger 的性能可媲美使用大量训练样本的基于 BERT 的 seq2seq 基线模型，在基线模型训练样本有限的情况下，LaserTagger 的性能明显超过基线模型。

下图展示了模型在 WikiSplit 数据集上的结果，模型执行的任务是将一个长句子改述为两个连贯的短句。

在包含 100 万样本的完整数据集上训练模型时，LaserTagger 和基于 BERT 的 seq2seq 基线模型性能相当。但当训练样本只有一万个甚至更少时，LaserTagger 的性能明显超过基线模型（SARI 分数越高，性能越好）。

LaserTagger 的核心优势

与传统的 seq2seq 方法相比，LaserTagger 具备以下优势：

控制：通过控制输出词组表，LaserTagger 更不容易受到幻觉的影响；

推断速度：LaserTagger 计算预测的速度是 seq2seq 基线模型的 100 倍，因此适合实时应用；

数据效率：即使训练样本只有几百几千个，LaserTagger 也能生成合理的输出文本。实验显示，seq2seq 基线模型需要数万个样本才能实现类似性能。

LaserTagger 的意义

大规模应用时，LaserTagger 的优势会更加明显，比如通过缩短语音回复的长度、减弱其重复性，来改进语音应答的质量。高速推断允许 LaserTagger 模型插入现有技术栈，且不会导致用户端出现明显的延迟增加。

此外，数据效率提升可以帮助收集多种语言的训练数据，这有益于拥有不同语言背景的用户。

目前，谷歌致力于将类似的改进带到谷歌的其他自然语言生成技术中。此外，谷歌正在探索，当用户 query 越来越长、越来越复杂，且作为对话的一部分出现时，文本编辑（而不是从头生成文本）对更好地理解用户 query 的作用。

本文如果对你有帮助，请点赞收藏《推断速度达seq2seq模型的100倍谷歌开源文本生成新方法LaserTagger》，同时在此感谢原作者。