第一句子大全,网罗天下好句子,好文章尽在本站!

用于句子匹配的门控卷积神经网络(上篇)

时间:2023-01-22

然而,循环体系结构阻止了序列内的并行计算,并且非常耗时

友情提示:本文共有 1843 个字,阅读大概需要 4 分钟。

简介

递归神经网络(RNN)已经在句子匹配任务中显示出有希望的结果,例如复述识别(PI),自然语言推理(NLI)和答案选择(AS)。 然而,循环体系结构阻止了序列内的并行计算,并且非常耗时。 为克服此限制,我们提出了一种用于句子匹配任务的门控卷积神经网络(GCNN)。 在该模型中,堆叠卷积编码句子的分层上下文感知表示,其中门控机制可选地控制和存储卷积上下文信息。 此外,利用关注机制来获得句子之间的交互式匹配信息。 我们在PI和NLI任务上评估我们的模型,实验证明了所提出的方法在速度和准确性方面的优势。

介绍

许多自然语言任务涉及比较两个文本序列并确定它们之间的语义关系。例如,在释义识别中,这种比较需要确定两个句子是否被解释[1,2]。在自然语言推理中,目标是确定是否可以从前提句子推断出假设句[3,4]。在答案选择中,需要将问题与几个候选答案句子进行匹配,以便识别正确的答案[5,6]。

随着神经网络模型的最新进展,序列建模的直接方法是将每个句子单独编码为矢量。接下来,将两个矢量一起送入多层感知器以预测结果[7]。该框架的优点是模型更容易训练,句子向量可用于可视化,句子聚类和许多其他目的[8]。但是,在编码过程中两个句子之间没有相互作用,这不足以捕获两个句子之间较小单位(如单词或短语)的匹配信息。为了克服这个缺点,许多流行的研究集中于“比较 - 聚合”框架,其中注意机制被用在两个句子之间的较小单元上。在这种类型的框架中,文本表示层用于获取单词的上下文感知表示。接下来,将上下文感知向量与注意机制进行比较和匹配。汇总这些比较结果以做出最终决定[9,10]。 “比较 - 聚合”框架捕获了两个句子之间的更多交互功能,这导致了显着的改进。在最先进的“比较 - 聚合”框架中,例如增强型顺序推理模型(ES-IM)[11]和双边多视角匹配(BiMP-M)[12],背景表示层和聚合层都基于长短期记忆网络(LSTM)[13]。尽管具有强大的序列建模能力,但是逆流结构依赖于先前时间步长的计算,并且时间复杂度与句子长度成线性比例。

众所周知,现代硬件非常适合高度可并行化的模型。另一种方法是使用卷积神经网络(CNN)捕获上下文依赖性,这使得序列内的并行化成为可能,并且与循环网络相比能够获得显着提高的速度。此外,CNN在某些单词之间提供了较短的路径。与循环网络的O(n)运算相比,n个字的上下文窗口的上下文依赖性要求内核宽度为k的O(n / k)卷积运算。为了利用CNN,研究人员提出了用于语言建模的门控线性单元(GLU),它在卷积输出上实现了简化的门控机制[14]。最近,GLU被引入序列学习序列[15],并且优于基于门控递归单位(GRU)和LSTM [16,17]的机器翻译模型。受GLU成功和LSTM门控机制的启发,我们提出了一种改进的门控循环架构,并将其应用于句子匹配任务的“比较 - 聚合”框架。所提出的门控卷积网络配备了输出和忘记门。输出门调制当前卷积层的输出。同时,由先前卷积层创建的上下文信息由遗忘门调制并存储在存储器单元中。门控机制进一步优化了信息流动的路径,并为句子匹配任务带来了更好的性能。

本文的其余部分安排如下。 在第2节中,我们详细描述了模型。 在第3节中,我们描述了数据集和实验设置。 第4节介绍了实验结果和分析。 摘要和结论见第5节。

模型

在本节中,我们首先详细描述所提出的门控卷积结构,然后将其应用于“比较 - 聚合”框架。 此外,我们还描述了字符和词性(POS)标记功能,除了字嵌入之外,还可以将其用作辅助功能。

2.1。 门控卷积神经网络

[14]中提出的GLU描述如下:

其中m,n分别是输入和输出特征的数量map,k是内核宽度,L代表L卷积层。

b ∈ R^n and c ∈ R^n 是偏差参数。*是卷积运算,σ是sigmoid函数,是元素乘法。

在GLU中,每层的输出是一个线性投影

调动。 与LSTM类似,门倍增

向量h的每个元素

并控制层次结构中传递的信息。

为了更好地控制信息流动的路径,在层次结构中,我们采用输出的概念并忘记我们的卷积神经网络中的门。

本文中提出的新GCNN的描述

如下:

LSTM的存储器单元由序列中的所有元素共享并随着时间的推移而更新。 不同于LSTM,每个元素在GCNN中都有自己的存储单元存储器单元与层一起更新。 内存可选存储以前所有创建的上下文信息卷积层。

忘记门fi^L控制什么信息来自旧的记忆细胞将被扔掉什么新信息将存储在当前内存中细胞.

本文如果对你有帮助,请点赞收藏《用于句子匹配的门控卷积神经网络(上篇)》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
自然语言处理基础:上下文词表征入门解读

自然语言处理基础:上下文词表征入门解读

...特定于在自身特有上下文中的 token)。在我们之前的示例句子中,be 的两个实例就会有不同的向量,因为一个出现在 will 和 signed 之间,另一个则位于 we"ll 和 able 之间。现在看来,通过独立于上下文地表征 word type 实际上会让问...

2020-09-12 #经典句子

Keras文本分类实战(上)

Keras文本分类实战(上)

...载数据:结果如下:使用此数据集,可以训练模型来预测句子的情绪,下面可以考虑如何预测数据。一种常见方法是计算每个句子中每个单词的频率,并将此计数与数据集中的整个单词组相关联。首先从创建词汇开始,收集好的...

2023-01-22 #经典句子

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

...。针对大脑语义和语法表征的问题,我们利用计算模型将句子中的语义和语法特征区分开,使用分离的语义和语法特征来研究大脑对应的神经基础。图1基于解纠缠特征的人脑表征研究的计算框架论文方法针对上述问题,中科院...

2023-01-05 #经典句子

3分钟看懂自然语言处理之特征提取

3分钟看懂自然语言处理之特征提取

内容导读自然语言中意义最小的单位就是单词,其次是句子,再是段落,最后一整篇文章。下面我们仅仅从单词角度来看问题来说说两种常见的特征表示的方法。最神奇的是,词向量还存在可以加减性,例如:“小猫”-“猫”+...

2023-01-22 #经典句子

何索引数以十亿计的文本向量?

何索引数以十亿计的文本向量?

...方法,下一步就是将它们组合成文本向量(也称为文档或句子向量)。一种简单而常见的方法是对文本中所有单词的向量求和(或求平均值)。图 1:查询向量我们可以通过将两个文本片段(或查询)映射到向量空间并计算向量...

2023-01-22 #经典句子

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

...预测某个单词序列的概率,通常在单个集成模型中对整个句子进行建模。凭借神经网络的强大功能,神经网络机器翻译已经成为翻译领域最强大的算法。这种最先进的算法是深度学习的一项应用,其中大量已翻译句子的数据集用...

2023-02-05 #经典句子

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

...一个。我喜欢这类电影,但是不喜欢这一个。这样的两句句子经过词向量平均以后已经送入单层神经网络的时候已经完全一模一样了,分类器不可能分辨出这两句话的区别,只有添加n-gram特征以后才可能有区别。因此,在实际应...

2023-10-09 #经典句子

干货:2019年湖北技能高考文化综合考试大纲

干货:2019年湖北技能高考文化综合考试大纲

...记基础上高一级的能力层级。要求能够领会并解释词语、句子、段落等的意思。C.分析综合:指分解剖析和归纳整理,是在识记和理解的基础上进一步提高了的能力层级。要求能够筛选材料中的信息,分解剖析相关现象和问题...

2023-10-23 #经典句子

两篇AAAI论文 揭示微信如何做文章质量评估

两篇AAAI论文 揭示微信如何做文章质量评估

...献。相关研究可以分为三类:(1) 基于实体的方法,识别句子中的实体,建模相邻句子中实体的联系;(2) 基于词汇的方法,建模相邻句子的词共现信息 (3) 基于神经网络的方法,利用神经网络学习词和句字语义的向量表示,建模...

2023-05-22 #经典句子