用于句子匹配的门控卷积神经网络(上篇)

时间：2023-01-22

然而，循环体系结构阻止了序列内的并行计算，并且非常耗时

友情提示：本文共有 1843 个字，阅读大概需要 4 分钟。

简介

递归神经网络（RNN）已经在句子匹配任务中显示出有希望的结果，例如复述识别（PI），自然语言推理（NLI）和答案选择（AS）。然而，循环体系结构阻止了序列内的并行计算，并且非常耗时。为克服此限制，我们提出了一种用于句子匹配任务的门控卷积神经网络（GCNN）。在该模型中，堆叠卷积编码句子的分层上下文感知表示，其中门控机制可选地控制和存储卷积上下文信息。此外，利用关注机制来获得句子之间的交互式匹配信息。我们在PI和NLI任务上评估我们的模型，实验证明了所提出的方法在速度和准确性方面的优势。

介绍

许多自然语言任务涉及比较两个文本序列并确定它们之间的语义关系。例如，在释义识别中，这种比较需要确定两个句子是否被解释[1,2]。在自然语言推理中，目标是确定是否可以从前提句子推断出假设句[3,4]。在答案选择中，需要将问题与几个候选答案句子进行匹配，以便识别正确的答案[5,6]。

随着神经网络模型的最新进展，序列建模的直接方法是将每个句子单独编码为矢量。接下来，将两个矢量一起送入多层感知器以预测结果[7]。该框架的优点是模型更容易训练，句子向量可用于可视化，句子聚类和许多其他目的[8]。但是，在编码过程中两个句子之间没有相互作用，这不足以捕获两个句子之间较小单位（如单词或短语）的匹配信息。为了克服这个缺点，许多流行的研究集中于“比较 - 聚合”框架，其中注意机制被用在两个句子之间的较小单元上。在这种类型的框架中，文本表示层用于获取单词的上下文感知表示。接下来，将上下文感知向量与注意机制进行比较和匹配。汇总这些比较结果以做出最终决定[9,10]。 “比较 - 聚合”框架捕获了两个句子之间的更多交互功能，这导致了显着的改进。在最先进的“比较 - 聚合”框架中，例如增强型顺序推理模型（ES-IM）[11]和双边多视角匹配（BiMP-M）[12]，背景表示层和聚合层都基于长短期记忆网络（LSTM）[13]。尽管具有强大的序列建模能力，但是逆流结构依赖于先前时间步长的计算，并且时间复杂度与句子长度成线性比例。

众所周知，现代硬件非常适合高度可并行化的模型。另一种方法是使用卷积神经网络（CNN）捕获上下文依赖性，这使得序列内的并行化成为可能，并且与循环网络相比能够获得显着提高的速度。此外，CNN在某些单词之间提供了较短的路径。与循环网络的O（n）运算相比，n个字的上下文窗口的上下文依赖性要求内核宽度为k的O（n / k）卷积运算。为了利用CNN，研究人员提出了用于语言建模的门控线性单元（GLU），它在卷积输出上实现了简化的门控机制[14]。最近，GLU被引入序列学习序列[15]，并且优于基于门控递归单位（GRU）和LSTM [16,17]的机器翻译模型。受GLU成功和LSTM门控机制的启发，我们提出了一种改进的门控循环架构，并将其应用于句子匹配任务的“比较 - 聚合”框架。所提出的门控卷积网络配备了输出和忘记门。输出门调制当前卷积层的输出。同时，由先前卷积层创建的上下文信息由遗忘门调制并存储在存储器单元中。门控机制进一步优化了信息流动的路径，并为句子匹配任务带来了更好的性能。

本文的其余部分安排如下。在第2节中，我们详细描述了模型。在第3节中，我们描述了数据集和实验设置。第4节介绍了实验结果和分析。摘要和结论见第5节。

模型

在本节中，我们首先详细描述所提出的门控卷积结构，然后将其应用于“比较 - 聚合”框架。此外，我们还描述了字符和词性（POS）标记功能，除了字嵌入之外，还可以将其用作辅助功能。

2.1。门控卷积神经网络

[14]中提出的GLU描述如下：

其中m，n分别是输入和输出特征的数量map，k是内核宽度，L代表L卷积层。

b ∈ R^n and c ∈ R^n 是偏差参数。*是卷积运算，σ是sigmoid函数，是元素乘法。

在GLU中，每层的输出是一个线性投影

由

调动。与LSTM类似，门倍增

向量h的每个元素

并控制层次结构中传递的信息。