第一句子大全,网罗天下好句子,好文章尽在本站!

科大讯飞:基于中断循环神经网络的文本分类

时间:2023-06-01

很多机器学习的新方法都会先尝试在文本分类任务上进行实验验证

友情提示:本文共有 2454 个字,阅读大概需要 5 分钟。

ACL 2018

基于中断循环神经网络的文本分类

Disconnected Recurrent Neural Networks for Text Categorization

科大讯飞北京研究院HFL实验室

IFLYTEK CO.,LTD

1 引言

文本分类任务是自然语言处理(NLP)领域最基础和传统的任务之一,该任务又会根据领域类型的不同分成很多子任务,例如情感分类、主题分类和问题分类等。很多机器学习的新方法都会先尝试在文本分类任务上进行实验验证。例如深度学习中最常见的两大类模型,卷积神经网络(CNN)和循环神经网络(RNN)及其变体,在文本分类中有很多应用。

RNN模型擅长对整个句子进行建模,捕捉长距离依赖信息。然而研究表明,RNN对整个句子建模有时会成为一种负担,使模型忽略了关键的短语信息。CNN模型则正相反,更擅长抽取局部的位置不变特征,而不擅长捕捉长距离依赖信息。为此,我们提出了DRNN模型,通过限制RNN模型信息的流动,将位置不变性引入RNN模型中。这使得DRNN模型既能捕捉长距离依赖信息,又可以很好地抽取关键短语信息。我们提出的模型在DBPedia,Yelp等多个文本分类数据集上取得了最好的效果。

2 模型介绍

表1是一个主题分类的例子,我们可以看到两句话表意基本相同,都应该被分类到科技类。其中决定分类的关键短语是“unsolved mysteries of mathematics”,对于一个窗口大小为4的CNN模型来说,两个句子中的该短语表示完全相同。然而,当我们把两句话送入RNN模型的时候,因为RNN模型中,每一个时刻的隐层状态都和前面所有词语相关,所以这两个短语的表示是完全不同的。这增大了模型捕捉关键短语的难度,使得RNN模型有时会忽视一些关键信息。

表格1 主题分类示例

为了解决上述问题,我们希望通过将位置不变性引入RNN模型中,使得RNN模型既可以捕捉长距离依赖信息,又可以更好地抽取位置不变的局部特征。具体来说,我们会阻断RNN模型的信息流动,使其最多只能传递固定的步长k。这样的话,每个时刻的隐层状态就只和当前词以及前k-1个词相关。

图1 Disconnected Recurrent Neural Networks

图1是RNN模型、DRNN模型和CNN模型的一个对比图。如图所示,对于RNN来说,隐层状态h与前面所有的词都相关,而对于DRNN,则只与当前词及之前的k-1个词相关。DRNN模型也可以被认为是一种特殊的CNN模型,只是将CNN模型中的卷积核替换成了RNN。显然,DRNN和CNN一样,对于长度为k的短语,无论它在文本中的什么位置,都具有相同的表示。DRNN模型t时刻的隐藏层输出可以表示成如下形式:

DRNN是一种通用的模型框架,可以应用在很多任务中,我们主要将其应用在文本分类任务中,对应的模型结构见图2。我们采用GRU作为DRNN的循环单元,得到Disconnected Gated Recurrent Unit(DGRU)模型。我们首先将DGRU的每个隐层表示送入MLP中,来抽取更高层的特征信息。然后再通过Max Pooling来抽取整个文本中最重要的信息,最后再通过一层MLP,然后送入softmax中进行分类。

图2 整体模型结构

3 实验结果与分析

我们在Zhang et al. (2015)提出的7个大规模文本分类数据集上进行实验,其中AG语料是新闻,DBPedia语料来自于维基百科,Yelp和Amazon语料都是情感分析相关语料,Yahoo! Answers是问答数据集。

图3 DGRU和CNN对比

我们将DRNN模型与CNN、LSTM和GRU进行了对比,从图3中我们可以看到CNN模型的实验效果随着卷积核窗口大小的增大而不断变差,其中CNN窗口为3时实验效果最好。而对于DRNN来说,窗口为15时效果最佳。对于CNN来说,卷积核窗口越大,对应的参数也越多,模型更加容易过拟合。相比之下,在增大DRNN的窗口长度时,参数是保持不变的,因此可以有效地缓解过拟合问题。从表2中我们也可以看到DRNN的效果比LSTM、GRU和CNN更好。

表格2 对比实验结果

我们还比较了不同循环单元和Pooling方法的实验效果,如图4所示。我们采用了nave RNN、LSTM和GRU作为DRNN的循环单元,其中对于naveRNN,当窗口增大的时候,效果快速下降,错误率甚至超过20%,因此没有在图中画出。而GRU和LSTM对比,可以看到在DRNN中,GRU作为循环单元的效果更好。对于不同Pooling方法来说,Max pooling的效果最好,这是与max pooling可以更好地保持模型的位置不变性有关。

图4 不同组件对比

我们发现DRNN的窗口大小太大或者太小都会导致模型的效果不佳,当窗口太大的时候,DRNN则更像RNN模型,丢失了位置不变性。而当窗口太小的时候,DRNN则更像CNN模型,缺失了长距离依赖的能力。因此选择一个合适的窗口大小,对于DRNN模型来说很重要。我们对于最佳窗口的设置进行了研究,对应的实验结果见图5。研究表明最佳窗口大小和训练数据的数据量关系不大,和任务类型关系明显。因此我们在选择最佳窗口的时候可以考虑先在小规模数据上进行实验以选择最佳窗口。

图5 窗口相关实验

最后,我们在7个文本分类任务上进行了实验,实验结果见表3。从表中,可以看到DRNN模型在文本分类任务上效果很好,比同样是结合RNN与CNN特性的CRNN错误率相对下降10-50%。

表格3 实验的错误率(%)

4 总结

我们根据CNN和RNN的各自特性,提出了DRNN模型,将位置不变性引入到RNN模型中,使得DRNN能同时捕捉关键短语信息和长距离依赖信息。实际采用DRNN模型时,选取一个好的窗口大小至关重要,实验表明最佳窗口大小和训练数据量无关,和任务类型有关。通常窗口大小为15到20的DRNN都能取得不错的效果。

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

本文如果对你有帮助,请点赞收藏《科大讯飞:基于中断循环神经网络的文本分类》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
了解XLNet在语言建模中优于BERT的原因

了解XLNet在语言建模中优于BERT的原因

...进步。语言建模是在给定所有先前的单词的情况下,预测句子中的下一个单词的任务。语言模型现在已经成为NLP管道的重要组成部分,因为它们为各种下游任务提供了支撑。语言模型捕获几乎普遍有用的输入文本的一些特性。早...

2023-06-01 #经典句子

两篇AAAI论文 揭示微信如何做文章质量评估

两篇AAAI论文 揭示微信如何做文章质量评估

...献。相关研究可以分为三类:(1) 基于实体的方法,识别句子中的实体,建模相邻句子中实体的联系;(2) 基于词汇的方法,建模相邻句子的词共现信息 (3) 基于神经网络的方法,利用神经网络学习词和句字语义的向量表示,建模...

2023-05-22 #经典句子

自然语言处理起源:马尔科夫和香农的语言建模实验

自然语言处理起源:马尔科夫和香农的语言建模实验

...母表(26 个字母,加上一个空格)中随机抽取字母以生成句子,并获得以下输出:XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD香农说,这句话是毫无意义的噪声,因为当我们交流时,我们不会以相同的概率选取字母。正如...

2023-09-23 #经典句子

如何优雅的写出一篇美赛特等奖论文?

如何优雅的写出一篇美赛特等奖论文?

...行内公式、1-3个跨行公式的排版是最专业的。含有符号的句子,开头不能是符号。适量解释很必要,哪怕有点重复也没关系,因为你的读者不一定能记住前面的。04所有假设以及假设合理性一定记住,无论多么明显的任何假设都...

2023-11-16 #经典句子

AAAI 2020论文分享:持续学习语义理解框架ERNIE 2.0

AAAI 2020论文分享:持续学习语义理解框架ERNIE 2.0

...展开解读。基于该框架,ERNIE 2.0模型通过命名实体预测、句子排序结构重建、语义逻辑关系预测等预训练任务学习词法、结构、语义等多个维度知识,大幅提升了通用语义理解水平。去年12月,基于ERNIE 2.0改进的模型在权威榜单G...

2023-05-22 #经典句子

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

...新的含义,同时也会出现很多新的词汇,往往会使模型对句子、段落以及篇章的理解产生偏差;3)语法、语用不规范,在开放的网络环境下,人们会倾向于使用简洁、高效和不拘一格的表达方式,这样会使得产生的语言不在正...

2023-06-01 #经典句子

句法分析和语义理解专场(视频+实录+PPT)AIS预讲会全程干货分享

句法分析和语义理解专场(视频+实录+PPT)AIS预讲会全程干货分享

...下什么是依存句法分析。依存句法分析的目标就是给一个句子,然后把它上面结构化的信息标出来。它以弧为单位,就是以两个词之间的搭配关系为基本单位。搭配关系就是它们之间的语法关系,有时候可能会有一些语义信息。...

2023-01-22 #经典句子

赛尔笔记|以文档为额外知识的生成式对话

赛尔笔记|以文档为额外知识的生成式对话

...前研究中对文档的不同处理方式,我们将其分为三类(以句子为单位建模,直接建模文档,文档结构化处理),对每个类别进行了简要的介绍。最后我们总结了该研究领域面临的挑战,希望对相关研究者有所帮助。2. 正文在人机...

2023-11-10 #经典句子

关于自然语言处理 数据科学家需要了解的 7 项技术

关于自然语言处理 数据科学家需要了解的 7 项技术

...rn等。(1) 标记化(Tokenization)标记化指的是将文本切分为句子或单词,在此过程中,我们也会丢弃标点符号及多余的符号。这个步骤并非看起来那么简单。举个例子:在上图的实例中,“纽约(New York)”一词被拆成了两个标记...

2023-07-11 #经典句子