第一句子大全,网罗天下好句子,好文章尽在本站!

自然语言处理中的卷积深度语义匹配模型简介

时间:2023-01-22

下面就让我们来看看卷积深度语义结构模型和深度匹配模型是怎样的原理吧

友情提示:本文共有 2187 个字,阅读大概需要 5 分钟。

这几年深度学习技术异常火热,在自然语言处理方面也是备受关注。下面就让我们来看看卷积深度语义结构模型和深度匹配模型是怎样的原理吧。

1. 卷积深度语义结构模型

在深度语义结构模型的基础上,有人通过考虑词间的顺序提出了卷积深度语义结构模型。与DSSM类似,C-DSSM采用了相同的词哈希技术,将查询与文档中的每个单词表示为一个3万维的向量,然后对每个固定长度(如长度为3)。的滑动窗口内的词向量进行卷积操作,得到另一个固定长度的向量后,C-DSSM在这些卷积的向量上进行全局池化操作,即对所有窗口输出的向量的相同位置取最大值,这样就得到了文档的300维向量表示。最后,C-DSSM利用一个线性变换从这300维向量得到一个128维向量。由于考虑了句子中的单词顺序信息(体现在滑动窗口),与DSSM相比,C-DSSM在相关度判断的准确率上有一定的提升。但是,由于C-DSSM只考虑了滑动窗口内单词的顺序,所以无法表达句子中远距离的依存关系和复杂语义。

DSSM和C-DSSM的相似之处是,先用一个深度模型把文本映射为一个向量,然后用简单的函数,如内积或余弦相似度,来计算两个文本的匹配关系。这种方式具有两个优点:(1)将文本映射为一个简洁表示,便于存储;(2)匹配的计算速度快,可以和一些加速方法如位置敏感哈希(Locality Sensitive Hashing,LSH)技术结合,进一步提高计算速度。因此,该类匹配模型非常适合于信息检索这种对存储和速度要求都比较高的任务。当然,该方法也存在缺点:首先,很多匹配问题不具有传递性(如对话中的匹配)因此不适合用一个度量空间来描述其次,文本的表示学习本身是非常困难的问题,需要有效捕捉与描述对匹配有用的细节信息。

针对DSSM和C-DSSM存在的问题,华为的研究团队提出了一些新的深度匹配模型,包括主题深度匹配模型、树深度匹配模型和卷积网络深度匹配模型这些模型的特点是可直接表示两个文本的匹配关系,并在此基础上能计算出最终的匹配值。

2. 主题深度匹配模型

主题深度匹配模型(DeepMatch_{topic})将短文本对(或句子对)表示为两个词包,然后在主题层面上进行匹配,基本架构。该模型分为两部分:第一部分是局部匹配层,包含多个局部匹配模型,用来把输入的“短文本对”表达为多个局部匹配模型的匹配结果;第二部分是综合层(fusion layers),可对局部匹配层的输出进一步综合,得到最终匹配结果。与DSSM和C-DSSM这两个模型不同,主题深度匹配模型并不试图表示单个文档,而是致力于表示两个文档的相互作用(或者说匹配本身)。这和后面将介绍的几个模型非常相似。但是,由于主题深度匹配模型采用词包来表示句子,忽略了词在句子内的顺序,使得它与DSSM一样虽然善于捕捉主题层面上的匹配,但并不适合表达相对更精细的语义。

与简单的线性匹配模型类似,每个局部匹配模型由一个双线性模型(bilinear model)构成。不同的是,每个局部匹配模型只覆盖词汇表中一个很小的子集,而“局部”的意义正是如此。这个子集对匹配的两边(比如自动问答中的问题与答案)一般是不同的。比如某个局部匹配模型问题端可能含有“北京”、“特产”和“价格”等,而在答案端可能含有“烤鸭”、“便宜”等。我们对每个局部匹配模型的输出进行一个非线性变换,使其输出落在(-1,+1)区间。综合层是一个多层神经网络,其输入局部匹配模型的输出,而输出是短文本对的全局匹配值。这个多层神经网络可以有稀疏或稠密的权重。实验结果表明,合适的稀疏结构往往可以提高整个匹配模型的泛化能力,尤其是当训练数据比较稀疏时。

主题深度匹配模型的学习过程包括架构选择和参数调整两部分。对于架构选择,我们采用不同粒度的双语主题模型(bilingual topic model)来对两边的词同时进行有重叠的聚类,从而得到神经网络的稀疏结构。对于参数调整,我们用传统的反向传播算法(back propagation)结合正负例的匹配值对比来学习模型的参数。这种调整参数的方式简单有效,非常适合匹配问题。

3. 树深度匹配模型

树深度匹配模型(DeepMatch_tree)采用了依存树作为句子(一般的短文本)的表示。与句法树相比,依存树更易于准确构建,其所有子树的集合可包含对匹配有用的足够信息。从某种意义上讲,树深度匹配模型可以看成是主题深度匹配模型的推广。这个推广有两个意义:(1)从词到包含词的子树结构;(2)从词的集合到单个子树对应的精度上的提升。这种推广可大幅提升两个句子的匹配表示能力。不过作为代价,我们需要大规模图挖掘和大规模的深层神经网络作为支撑。

树深度匹配模型也由局部匹配模型和综合层两部分组成。其局部匹配模型是千万量级的基于依存树的二值匹配模型;每一个局部匹配模型都对应一个子树对,而匹配模型的输出(0或1)取决于输入的句子对是否含有这两个子树对所表示的依存结构。为了能够有效地综合这些匹配模型的输出,综合层必须采用非常稀疏的结构。与主题深度匹配模型相比,树深度匹配模型结构的学习和选择更复杂,也更关键。特别是局部匹配模型中的子树配对就来源于大规模图数据挖掘。树深度匹配模型可以准确地捕捉且表示大量的精细匹配模式,如“价格一失控”;“政府一调节”。与主题深度匹配模型相比,其匹配准确率有了大幅度的提升。

本文如果对你有帮助,请点赞收藏《自然语言处理中的卷积深度语义匹配模型简介》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
自然语言处理基础:上下文词表征入门解读

自然语言处理基础:上下文词表征入门解读

...特定于在自身特有上下文中的 token)。在我们之前的示例句子中,be 的两个实例就会有不同的向量,因为一个出现在 will 和 signed 之间,另一个则位于 we"ll 和 able 之间。现在看来,通过独立于上下文地表征 word type 实际上会让问...

2020-09-12 #经典句子

Keras文本分类实战(上)

Keras文本分类实战(上)

...载数据:结果如下:使用此数据集,可以训练模型来预测句子的情绪,下面可以考虑如何预测数据。一种常见方法是计算每个句子中每个单词的频率,并将此计数与数据集中的整个单词组相关联。首先从创建词汇开始,收集好的...

2023-01-22 #经典句子

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

AAAI 2020|通过解纠缠模型探测语义和语法的大脑表征机制

...。针对大脑语义和语法表征的问题,我们利用计算模型将句子中的语义和语法特征区分开,使用分离的语义和语法特征来研究大脑对应的神经基础。图1基于解纠缠特征的人脑表征研究的计算框架论文方法针对上述问题,中科院...

2023-01-05 #经典句子

3分钟看懂自然语言处理之特征提取

3分钟看懂自然语言处理之特征提取

内容导读自然语言中意义最小的单位就是单词,其次是句子,再是段落,最后一整篇文章。下面我们仅仅从单词角度来看问题来说说两种常见的特征表示的方法。最神奇的是,词向量还存在可以加减性,例如:“小猫”-“猫”+...

2023-01-22 #经典句子

何索引数以十亿计的文本向量?

何索引数以十亿计的文本向量?

...方法,下一步就是将它们组合成文本向量(也称为文档或句子向量)。一种简单而常见的方法是对文本中所有单词的向量求和(或求平均值)。图 1:查询向量我们可以通过将两个文本片段(或查询)映射到向量空间并计算向量...

2023-01-22 #经典句子

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

机器翻译:谷歌翻译是如何对几乎所有语言进行翻译的?

...预测某个单词序列的概率,通常在单个集成模型中对整个句子进行建模。凭借神经网络的强大功能,神经网络机器翻译已经成为翻译领域最强大的算法。这种最先进的算法是深度学习的一项应用,其中大量已翻译句子的数据集用...

2023-02-05 #经典句子

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

达观数据:如何用深度学习做好长文本分类与法律文书智能化处理

...一个。我喜欢这类电影,但是不喜欢这一个。这样的两句句子经过词向量平均以后已经送入单层神经网络的时候已经完全一模一样了,分类器不可能分辨出这两句话的区别,只有添加n-gram特征以后才可能有区别。因此,在实际应...

2023-10-09 #经典句子

干货:2019年湖北技能高考文化综合考试大纲

干货:2019年湖北技能高考文化综合考试大纲

...记基础上高一级的能力层级。要求能够领会并解释词语、句子、段落等的意思。C.分析综合:指分解剖析和归纳整理,是在识记和理解的基础上进一步提高了的能力层级。要求能够筛选材料中的信息,分解剖析相关现象和问题...

2023-10-23 #经典句子

两篇AAAI论文 揭示微信如何做文章质量评估

两篇AAAI论文 揭示微信如何做文章质量评估

...献。相关研究可以分为三类:(1) 基于实体的方法,识别句子中的实体,建模相邻句子中实体的联系;(2) 基于词汇的方法,建模相邻句子的词共现信息 (3) 基于神经网络的方法,利用神经网络学习词和句字语义的向量表示,建模...

2023-05-22 #经典句子