自然语言处理中的卷积深度语义匹配模型简介

时间：2023-01-22

下面就让我们来看看卷积深度语义结构模型和深度匹配模型是怎样的原理吧

友情提示：本文共有 2187 个字，阅读大概需要 5 分钟。

这几年深度学习技术异常火热，在自然语言处理方面也是备受关注。下面就让我们来看看卷积深度语义结构模型和深度匹配模型是怎样的原理吧。

1. 卷积深度语义结构模型

在深度语义结构模型的基础上，有人通过考虑词间的顺序提出了卷积深度语义结构模型。与DSSM类似，C-DSSM采用了相同的词哈希技术，将查询与文档中的每个单词表示为一个3万维的向量，然后对每个固定长度（如长度为3）。的滑动窗口内的词向量进行卷积操作，得到另一个固定长度的向量后，C-DSSM在这些卷积的向量上进行全局池化操作，即对所有窗口输出的向量的相同位置取最大值，这样就得到了文档的300维向量表示。最后，C-DSSM利用一个线性变换从这300维向量得到一个128维向量。由于考虑了句子中的单词顺序信息（体现在滑动窗口），与DSSM相比，C-DSSM在相关度判断的准确率上有一定的提升。但是，由于C-DSSM只考虑了滑动窗口内单词的顺序，所以无法表达句子中远距离的依存关系和复杂语义。

DSSM和C-DSSM的相似之处是，先用一个深度模型把文本映射为一个向量，然后用简单的函数，如内积或余弦相似度，来计算两个文本的匹配关系。这种方式具有两个优点：（1）将文本映射为一个简洁表示，便于存储；（2）匹配的计算速度快，可以和一些加速方法如位置敏感哈希（Locality Sensitive Hashing，LSH）技术结合，进一步提高计算速度。因此，该类匹配模型非常适合于信息检索这种对存储和速度要求都比较高的任务。当然，该方法也存在缺点：首先，很多匹配问题不具有传递性（如对话中的匹配）因此不适合用一个度量空间来描述其次，文本的表示学习本身是非常困难的问题，需要有效捕捉与描述对匹配有用的细节信息。

针对DSSM和C-DSSM存在的问题，华为的研究团队提出了一些新的深度匹配模型，包括主题深度匹配模型、树深度匹配模型和卷积网络深度匹配模型这些模型的特点是可直接表示两个文本的匹配关系，并在此基础上能计算出最终的匹配值。

2. 主题深度匹配模型

主题深度匹配模型（DeepMatch_{topic}）将短文本对（或句子对）表示为两个词包，然后在主题层面上进行匹配，基本架构。该模型分为两部分：第一部分是局部匹配层，包含多个局部匹配模型，用来把输入的“短文本对”表达为多个局部匹配模型的匹配结果；第二部分是综合层（fusion layers），可对局部匹配层的输出进一步综合，得到最终匹配结果。与DSSM和C-DSSM这两个模型不同，主题深度匹配模型并不试图表示单个文档，而是致力于表示两个文档的相互作用（或者说匹配本身）。这和后面将介绍的几个模型非常相似。但是，由于主题深度匹配模型采用词包来表示句子，忽略了词在句子内的顺序，使得它与DSSM一样虽然善于捕捉主题层面上的匹配，但并不适合表达相对更精细的语义。

与简单的线性匹配模型类似，每个局部匹配模型由一个双线性模型（bilinear model）构成。不同的是，每个局部匹配模型只覆盖词汇表中一个很小的子集，而“局部”的意义正是如此。这个子集对匹配的两边（比如自动问答中的问题与答案）一般是不同的。比如某个局部匹配模型问题端可能含有“北京”、“特产”和“价格”等，而在答案端可能含有“烤鸭”、“便宜”等。我们对每个局部匹配模型的输出进行一个非线性变换，使其输出落在（-1，+1）区间。综合层是一个多层神经网络，其输入局部匹配模型的输出，而输出是短文本对的全局匹配值。这个多层神经网络可以有稀疏或稠密的权重。实验结果表明，合适的稀疏结构往往可以提高整个匹配模型的泛化能力，尤其是当训练数据比较稀疏时。

主题深度匹配模型的学习过程包括架构选择和参数调整两部分。对于架构选择，我们采用不同粒度的双语主题模型（bilingual topic model）来对两边的词同时进行有重叠的聚类，从而得到神经网络的稀疏结构。对于参数调整，我们用传统的反向传播算法（back propagation）结合正负例的匹配值对比来学习模型的参数。这种调整参数的方式简单有效，非常适合匹配问题。

3. 树深度匹配模型

树深度匹配模型（DeepMatch_tree）采用了依存树作为句子（一般的短文本）的表示。与句法树相比，依存树更易于准确构建，其所有子树的集合可包含对匹配有用的足够信息。从某种意义上讲，树深度匹配模型可以看成是主题深度匹配模型的推广。这个推广有两个意义：（1）从词到包含词的子树结构；（2）从词的集合到单个子树对应的精度上的提升。这种推广可大幅提升两个句子的匹配表示能力。不过作为代价，我们需要大规模图挖掘和大规模的深层神经网络作为支撑。

树深度匹配模型也由局部匹配模型和综合层两部分组成。其局部匹配模型是千万量级的基于依存树的二值匹配模型；每一个局部匹配模型都对应一个子树对，而匹配模型的输出（0或1）取决于输入的句子对是否含有这两个子树对所表示的依存结构。为了能够有效地综合这些匹配模型的输出，综合层必须采用非常稀疏的结构。与主题深度匹配模型相比，树深度匹配模型结构的学习和选择更复杂，也更关键。特别是局部匹配模型中的子树配对就来源于大规模图数据挖掘。树深度匹配模型可以准确地捕捉且表示大量的精细匹配模式，如“价格一失控”；“政府一调节”。与主题深度匹配模型相比，其匹配准确率有了大幅度的提升。

本文如果对你有帮助，请点赞收藏《自然语言处理中的卷积深度语义匹配模型简介》，同时在此感谢原作者。

句子向量

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。