第一句子大全,网罗天下好句子,好文章尽在本站!

ICLR2019最佳论文:能学习语言层级结构的深度模型ON

时间:2023-06-01

ICLR 诞生于 2013 年,在众多人工智能领域的会议中显得格外年轻

5月9日,2019年的 ICLR(International Conference on Learning Representations)在美国新奥尔良落下帷幕。ICLR 诞生于 2013 年,在众多人工智能领域的会议中显得格外年轻。虽然创建时间短,在国内计算机科学研究者熟知的CCF列表中并未收录,但ICLR却势头迅猛,快速跻身机器学习顶级会议的行列。这其中最重要的原因就是它“出身不凡”,由刚刚获得2018 年度图灵奖的三巨头中的两位 Yoshua Bengio 与 Yann Lecun 组织建立,几年来吸引了大量优秀的科研人员。

图丨2013年第一届ICLR会议网站主页上,Yoshua Bengio 与 Yann Lecun 联名发布的会议通告。 来源:2013年 ICLR 会议主页

在2013年第一届 ICLR 会议的网站上,Yoshua Bengio 与 Yann Lecun 介绍了他们创办这一会议的初衷:机器学习方法的效果非常依赖于数据的表示(或称为特征)的选择。表示学习领域一直关注如何更好地学习到有意义的、优越的数据表示方法。尽管众多会议上都有与表征学习相关的主题,但缺少一个专注于这一主题的会议。因此,ICLR 在二人的牵头下被创立。也正是在2013年,Bengio 发表了关于表征学习的综述“Representation learning: A review and new perspectives”,总结了这一领域的成果。

表征学习在机器学习、人工智能领域有着相当重要的地位。早在1969年,诺贝尔经济学奖和图灵奖的获得者,人工智能、认知科学之父 Herbert A. Simon(司马贺)在其经典巨著“The Sciences of the Artificial”中,将人类的信息处理过程(包括解决问题,学习和发现新知识)抽象为非常简单的模型。

人类的信息处理过程与长期记忆和短期记忆密切相关。短期记忆是短期存储的记忆,长期记忆就是我们大脑中长期存储的知识,就像在图书馆中存储的海量文献。根据这个简单的信息处理模型,再加上计算机更快的计算速度和海量的存储空间,人工智能应该比人类更为强大才是。

但至少目前,我们看到的情况并非如此。这其中一个重要的原因就是我们还未能破解人类大脑究竟是如何对数据进行编码,对知识进行存储的。处理外界信息的第一步就是要将其编码,投影到某一空间。比如说,当人类仅需要几个例子就可以区分驴和马的不同,而机器却需要大量数据训练时,我们不由得想要探寻:人类是如何对图像进行编码的?他提取了哪些特征可以通过少量样本进行学习?为什么人类学习的知识更灵活,可以在更多方面应用,而机器学习的模型通用性往往很差?这正是表征学习探索的目标:寻找对数据更好的表示方式。

目前深度学习面临着诸多的局限,如深度学习模型似乎无法处理层级结构,有人因此认为它不会通向真正的智能。而获得 ICLR2019 最佳论文奖的论文 “Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks”,则在此方面取得突破,设计了一种利用深度学习模型对语言的层级结构(树状)进行建模的方法。

人工智能在符号主义衰落后曾进入寒冬,因为深度学习的发展迎来又一春。近年来,深度学习同样在不同类型数据的表征学习领域所向披靡。

语言与其他数据一个显著的区别就在于其本身拥有一定的层级结构,因为语言的组成受到语法规则限制,低层级的语义单元组成高层级的语义单元,而最高层级的语义单元就代表了整个句子的含义。人们曾经试图对语言的这种结构进行建模,利用语法规则进行语义解析,建立语义分析树,再根据解析的结果从下而上递归获得句子的表征,例如Stanford的语义依赖分析工具。

然而,针对每一种语言建立详尽的规则系统费时耗力。随着深度学习的兴起,人们开始借助复杂的深度学习模型获得各类数据的表征,文本自然也不例外。文本以序列的形式被直接输入到深度学习模型中,语言原本的层级结构被忽略。我们熟知的各种语言模型,比如去年掀起风潮Bert等均是如此。

本文中,作者试图在深度学习模型中对语言的层级结构(树状结构)建模。想要达到这一目的,一般的思路往往是对模型的整体结构进行改动,例如将模型设计为层级结构。但作者在本文中却另辟蹊径,利用不同层级语义单元的更新频率建立起不同神经元之间的联系,让他们拥有次序和等级。

如上图所示,图(a)是句子成分分析树;图(b)是将其抽象为模块形式。可以看到,表示S和VP的结点都横跨了多个时间步。也就是说,对句子进行编码的各个结点的更新频率是不同的。表示底层词语的结点更新更为频繁,而表示更高层次语义单元的神经元更新频率较低,表示整个句子语义的结点(S)更新频率最低。图(c)的颜色深浅表示不同层级神经元更新的频率。同时,如果一个高层级的神经元更新了,其后的一系列神经元都应该更新。

然而在原本的 LSTM 模型中,神经元之间的更新是彼此独立、互不联系的。为此,作者对 LSTM 单元中进行了改动,增加了两个门:master forget gate和master input gate,它们使用新的激活函数 cumax 根据在其之前的神经元的状态控制要存储和遗忘的信息。通过引入这样的门机制便建立起了神经元之间相互依赖的更新规则,使神经元之间便有了次序,有了层级的区别。除此之外,该模型与使用 LSTM 建立的语言模型无异。

那这样的做法能否取得对文本更好的表征呢?作者进行了一系列实验检验 ON-LSTM 的结果,包括建立语言模型评估模型捕捉各种语言现象的能力、无监督的成分解析等全面测评了模型对语言的建模能力,均取得了较好的效果。

图:论文中的语义解析示例。左边为2层 ON-LSTM 模型的解析结果,右侧为人类标注的答案。

成分是作者进行的一系列实验之一。作者利用 ON-LSTM 模型预测每个结点成为句子切分点的概率,然后根据概率值将这些切分点由大到小排序,依次对句子进行切分,一些实验结果的示例如上图所示。从图中可以看出,虽然对模型结构没有大的改动,但 ON-LSTM 的确在对文本进行建模时在一定程度上捕捉到了数据中的层级结构。同时,该模型并没有使用任何预先给定的专家知识,这些切分规则完全从数据中学习。

近年来,针对深度学习的争议愈发热烈。尽管深度学习在下围棋、打游戏等任务上表现亮眼,但也面临许多反对的声音。有些研究人员认为从符号主义到连接主义是人工智能的倒退,因为像黑箱子一样的深度学习模型可以给出结论,却不会解释原因;也有人认为深度学习存在相当多的局限性,它不会通向真正的智能,而是迟早会走到尽头。2018年10月,纽约大学教授 Gary Marcus 就曾发文质疑深度学习,他认为深度学习模型无法处理层级结构,深度学习应该与经典的符号主义相结合。而今天介绍的这篇论文,似乎让我们看到了深度学习在学习层级结构方面的潜力,对深度学习的探索也许远远没到尽头。

最后,我们以 DeepTech 在去年11月采访 Bengio 时,他对 Gary Marcus 对深度学习质疑的回应结束本文:

“我不知道接下来几年深度学习将走向何方,毕竟我没有水晶球。每个研究人员都有他自己的想法。我认为这很好,因为我们都不知道最优解来自何方,因此研究的多样性非常重要。作为一个社区,我们必须鼓励探索。因为没有人能确切地掌握未来。”

本文如果对你有帮助,请点赞收藏《ICLR2019最佳论文:能学习语言层级结构的深度模型ON》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
了解XLNet在语言建模中优于BERT的原因

了解XLNet在语言建模中优于BERT的原因

...进步。语言建模是在给定所有先前的单词的情况下,预测句子中的下一个单词的任务。语言模型现在已经成为NLP管道的重要组成部分,因为它们为各种下游任务提供了支撑。语言模型捕获几乎普遍有用的输入文本的一些特性。早...

2023-06-01 #经典句子

两篇AAAI论文 揭示微信如何做文章质量评估

两篇AAAI论文 揭示微信如何做文章质量评估

...献。相关研究可以分为三类:(1) 基于实体的方法,识别句子中的实体,建模相邻句子中实体的联系;(2) 基于词汇的方法,建模相邻句子的词共现信息 (3) 基于神经网络的方法,利用神经网络学习词和句字语义的向量表示,建模...

2023-05-22 #经典句子

自然语言处理起源:马尔科夫和香农的语言建模实验

自然语言处理起源:马尔科夫和香农的语言建模实验

...母表(26 个字母,加上一个空格)中随机抽取字母以生成句子,并获得以下输出:XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD香农说,这句话是毫无意义的噪声,因为当我们交流时,我们不会以相同的概率选取字母。正如...

2023-09-23 #经典句子

如何优雅的写出一篇美赛特等奖论文?

如何优雅的写出一篇美赛特等奖论文?

...行内公式、1-3个跨行公式的排版是最专业的。含有符号的句子,开头不能是符号。适量解释很必要,哪怕有点重复也没关系,因为你的读者不一定能记住前面的。04所有假设以及假设合理性一定记住,无论多么明显的任何假设都...

2023-11-16 #经典句子

AAAI 2020论文分享:持续学习语义理解框架ERNIE 2.0

AAAI 2020论文分享:持续学习语义理解框架ERNIE 2.0

...展开解读。基于该框架,ERNIE 2.0模型通过命名实体预测、句子排序结构重建、语义逻辑关系预测等预训练任务学习词法、结构、语义等多个维度知识,大幅提升了通用语义理解水平。去年12月,基于ERNIE 2.0改进的模型在权威榜单G...

2023-05-22 #经典句子

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

...新的含义,同时也会出现很多新的词汇,往往会使模型对句子、段落以及篇章的理解产生偏差;3)语法、语用不规范,在开放的网络环境下,人们会倾向于使用简洁、高效和不拘一格的表达方式,这样会使得产生的语言不在正...

2023-06-01 #经典句子

句法分析和语义理解专场(视频+实录+PPT)AIS预讲会全程干货分享

句法分析和语义理解专场(视频+实录+PPT)AIS预讲会全程干货分享

...下什么是依存句法分析。依存句法分析的目标就是给一个句子,然后把它上面结构化的信息标出来。它以弧为单位,就是以两个词之间的搭配关系为基本单位。搭配关系就是它们之间的语法关系,有时候可能会有一些语义信息。...

2023-01-22 #经典句子

赛尔笔记|以文档为额外知识的生成式对话

赛尔笔记|以文档为额外知识的生成式对话

...前研究中对文档的不同处理方式,我们将其分为三类(以句子为单位建模,直接建模文档,文档结构化处理),对每个类别进行了简要的介绍。最后我们总结了该研究领域面临的挑战,希望对相关研究者有所帮助。2. 正文在人机...

2023-11-10 #经典句子

关于自然语言处理 数据科学家需要了解的 7 项技术

关于自然语言处理 数据科学家需要了解的 7 项技术

...rn等。(1) 标记化(Tokenization)标记化指的是将文本切分为句子或单词,在此过程中,我们也会丢弃标点符号及多余的符号。这个步骤并非看起来那么简单。举个例子:在上图的实例中,“纽约(New York)”一词被拆成了两个标记...

2023-07-11 #经典句子