复旦桂韬：当NLP邂逅Social Media——构建计算机与网络语言的桥梁

时间：2023-06-01

这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频

友情提示：本文共有 4780 个字，阅读大概需要 10 分钟。

不到现场，照样看最干货的学术报告！嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。AI未来说·青年学术论坛自 2019 年 1 月 19 日启动以来，论坛已连续举办十二期，累计吸引上万人报名参加，报名群体遍布全国三十多个省份，境内外十三个国家，四百余所高校和科研院所。第十二期AI未来说·青年学术论坛（百度奖学金博士生特别专场）已于2020年1月5日下午在北京市百度科技园 K6 报告厅举行。复旦大学桂韬为大家带来报告《当NLP邂逅Social Media--构建计算机与网络语言的桥梁》。

桂韬，复旦大学自然语言处理实验室博士生，导师是张奇和黄萱菁教授。一直致力于网络语言的自然语言处理研究，包括信息抽取、序列标注、强化学习、元学习等。

报告内容：社交媒体已经深入到了我们生活的方方面面，网络语言在社交领域的沟通中得到了越来越广泛的应用，但是非规范化的社交语言会给我们常用的自然语言处理（NLP）算法带来性能上的下降。报告主要内容聚焦于社交媒体与NLP的结合领域，以及如何构建计算机与网络语言的桥梁。

当NLP邂逅Social Media--构建计算机与网络语言的桥梁

桂韬博士的报告分享主要包括网络语言概述、网络语言困境、网络语言脱困和网络语言价值等四个部分。

桂韬博士先介绍了网络语言概述的部分。社交媒体主要有以下特点：1）自发传播，社交媒体是人们彼此分享思想见解及建立关系的在线平台，每个人都能够根据自己的意愿在社交平台上发布消息，以及发布评论；2）“社会化”属性，表现于社交媒体用户之间的关系的构建，强调人与人的互动，这也是社交媒体上魅力最大的一点；3）表现形式多样，包括文本、视频、音频、图片以及社区等。

社交媒体是人们在网络上发表意见、开展活动的总称，由于其自发传播、“社会化”属性和表现形式多样等特点，它已经成为人们日常生活中不可或缺的一部分。比如，近年来，以微博、微信以及社交网站等为代表的社会媒体在我国发展迅速。据2018年《微信数据报告》显示，微信月活跃用户突破十亿，每天产生450亿条消息。随着网路的不断普及，人们越来越多的交流也通过网络实现，也因此诞生一种网络上的自然交际语言，即网络语言。

网络语言的出现主要包括以下原因：1）非人为因素，输入错误或者常识上的拼写错误；2）追求某种娱乐性或某种目的，故意拼错一些单词或使用某些语言。由于网络语言的非规范性，使其不同于正常文本，也因此给热点追踪、信息查询和自动摘要等自然语言的应用带来了非常大的困难。常见的网络语言有“明年他要C位出道”，“这是神马规矩”，“I服了U”和“皮一下，很开心”等。

网络语言的困境包括：1）标注数据少，新闻领域的标注数据比网络语言大上几百倍，标注数据量少加上多样性导致NLP算法的性能非常差；2）旧词新意、另造新词，随着网络的发展，很多正规词汇不断被赋予新的含义，同时也会出现很多新的词汇，往往会使模型对句子、段落以及篇章的理解产生偏差；3）语法、语用不规范，在开放的网络环境下，人们会倾向于使用简洁、高效和不拘一格的表达方式，这样会使得产生的语言不在正规语法的约束下，因此会给基于正规语法结构的NLP算法带来非常大的困难。

为应对网络语言所面临的困境，桂韬博士提出了使用迁移学习、外部知识、全局语义和动态建模等四个方法来帮助网络语言脱困。

针对标注数据少的问题，提出可以使用新闻语料和无标注语料来辅助训练，比如使用CNN建模词语字符级别的信息，可以非常好地解决网络语言拼写错误的问题。并介绍了TPANN（Target Preserved Adversarial Neural Network, EMNLP 2017 ）方法来寻找新闻语料和网络语言语料的共同特征，然后把新闻预料上训练的模型迁移到网络语言语料上进行词性标注等，该方法在Twitter的三个词性标注数据集上都取得了很好的结果。

此外，通过对网络语言的学习和分析，可以发现网络语言不仅包含正规的文本表达方式，还包含自己特有的表达方式。这些特有的表达方式是无法通过迁移学习从正式文本当中迁移过来，为了在迁移学习的时候不会使得特有的表达方式受到损害，又提出了DCNN（Dynamic Conversion Neural Networks, EMNLP 2018）方法。该方法仍然是用一个网络来建模正规表达文本和不正规表达文本，但是模型可以根据不同的表达方式来生成不同的分布，然后基于不同的分布生成不同的参数，即正规表达文本通过模型会生成一组参数来建模正规表达文本，而不正规表达文本通过模型会生成另一组参数来建模不正规表达文本，这样可以保留网络语言的特性，并通过可视化的实验进行了验证。

旧词新意和另造新词是非常容易引起语言上歧义的问题，特别是对于中文来说，字与字之间以及词与词之间是没有分隔符的，如果出现歧义现象会对中文的NLP算法产生非常大的损害。先前的NLP算法都是基于循环神经网络来做的，但是存在很大的缺陷，一是由于序列建模，往往速度很慢，二是在建模句子以后无法对可能存在歧义词的权重或表达重新调整。为了在建模句子以后可以重新调整可能存在歧义的词，同时能够并行处理，提出了一种LR-CNN(Lexicon Rethinking Convolutional Neural Network, IJCAI 2019)方法。该想法是非常简单的，当CNN卷积网络的宽度是2的时候，能够把一个句子匹配的所有词在不同的位置上一一对应上，所以该方法能非常好地并行处理所有的字和词。引入反思的机制，可以在模型构建整个句子之后对可能存在匹配歧义的词调整它们的表达和权重，从而达到消除歧义的结果。该方法在社交媒体语料和新闻语料上进行测试时，在不同长度的句子上都取得了比Lattice LSTM好的结果，同时在速度上也有很大的提升（尤其是比较长的句子）。

值得注意的是，LR-CNN方法中CNN的感受野比较小，当句子比较短的时候，效果比Lattice LSTM好很多。为了获得更大的感受野，同时又有消除歧义的能力，又提出了一种结合字典和图神经网络的LGN方法，是在自然语言处理领域中第一个在没有句法依存树的情况下、基于中文建模的一个图神经网络。该方法使用词典信息来建模字与字之间的关系，并通过引入全局节点来解决词典可能覆盖不全以及引入全局语义的问题，字与字的关系可以通过全局节点做到两步可达，基于这种机制反复迭代，并结合全局语义为词语消除歧义，并在相关的数据集上取得了很好的结果。

语法、语用不规范的问题也是网络语言面临的困境之一。在社交媒体上，人们会根据自己的使用习惯，发表观点或评论，这样可能会引入各种插入语的问题，导致词与词之间的依赖关系是动态变化的。先前的基于序列建模的方法，往往很难处理这种动态跳跃的问题。针对该问题，提出了基于强化学习的、动态跳跃连接的LSTM方法（AAAI 2019），不仅可以基于前序建模词与词之间的关系，而且可以动态地挑选周围或前面的state来计算当前词的表达，从而可以动态建模依赖关系。该方法除了有理论证明之外，还在英文识别等任务中取得了比基于常规LSTM方法更好的结果。

桂韬博士在介绍完对网络语言NLP算法的改进之后，又介绍了网络语言的价值。使用网络语言挖掘社会价值已经有了很多的应用，包括股票预测、公共卫生分析以及实时事件检测等。并介绍了自己在挖掘网络语言价值上的两个工作：1）使用基于协作的强化学习框架，把多模态网路语言用于早期抑郁症的发现（AAAI 2019）；2)使用基于协作的强化学习框架，把网络语言的交互用于用户行为的预测（SIGIR 2019）。

最后，桂韬博士分享了自己的代码地址（https://github.com/guitaowufeng）和学术主页（https://scholar.google.de/citations?user=BrOLQdwAAAAJ&hl=zh-CN）。更多精彩内容请关注视频分享~

AI未来说*青年学术论坛

第一期数据挖掘专场

1. 李国杰院士：理性认识人工智能的“头雁”作用

2. 百度熊辉教授：大数据智能化人才管理

3. 清华唐杰教授：网络表示学习理论及应用

4. 瑞莱智慧刘强博士：深度学习时代的个性化推荐

5. 清华柴成亮博士：基于人机协作的数据管理

第二期自然语言处理专场

1. 中科院张家俊：面向自然语言生成的同步双向推断模型

2. 北邮李蕾：关于自动文本摘要的分析与讨论

3. 百度孙珂：对话技术的产业化应用与问题探讨