第一句子大全,网罗天下好句子,好文章尽在本站!

分享回顾丨如何利用NLP技术从海量文本中提取观点?

时间:2024-01-20

主要内容包括结合实践经验,盘点观点挖掘的应用场景及价值、目前业界主流的观点挖掘技术以及该技术目前面临的挑战

A

BOUT CLASS

关于课程

本文为3月29日晚,达观数据联合创始人、文本审核组总负责人张健在将门技术社群,分享“文本观点挖掘技术及其应用”课题的内容回顾。主要内容包括结合实践经验,盘点观点挖掘的应用场景及价值、目前业界主流的观点挖掘技术以及该技术目前面临的挑战。

NO.1

什么是文本观点挖掘?

在简单介绍观点挖掘的基本概念之后,张健首先对“观点”的五个组成要素进行了强调:

观点评价对象(客体);观点评价对象的属性。例如,我评价谁哪里哪里好,又哪里哪里不好,“哪里”就是属性;观点所蕴含的情感极性。包括正面、负面、中性等;观点的持有者;在考虑到处理问答、对话的流程,涉及到主体的识别。观点的时间。这对观点是有一定影响意义在的,因为随着时间变化,观点持有者也可能改变自己的观点。

结合自己的业务经验,张健罗列了观点挖掘可能涉及到的一些任务类型,具体而言:

1

情感分类

我们所收集到的一些观点文本,可能都存在一定的情感倾向性,觉得XX是好的,XX是不好的,这可以帮助分析文本的倾向性;

2

观点抽取

从一段文本中属于观点的文本内容抽取出来,主要是为了方便分析人员从文本中获取结构化的有用的信息;

3

观点过滤

主要是由于海量数据当中会存在大量无效的信息,这需要被清理掉,以免影响观点挖掘的处理效率和准确率;

4

评价质量

这并非评价好坏之分,而是对于分析人员来说,这些评价需要有足够的信息量,能够对销售决策更有帮助。这在电商场景当中最为常见;

5

意图识别

在很多场景下,都是可以根据观点来发现观点持有者真正的意图,例如可以发现这个观点持有者究竟想不想要购买商品。

NO.2

为什么要做文本观点挖掘?

如上图所列举的,文本观点挖掘有非常丰富的应用场景,因而相对来说,也会有较高的商业价值。

产品营销分析。例如我们可以用来分析运营商的营销策略是否恰当,通过对消费者的评价文本进行情感分类,可以获得一些正向或负向的反馈,由此来帮助改进策略;竞品对比分析。例如需要将自己的产品与竞品进行对比,来分析出产品的优劣势及发展策略。

以上这两方面,最主要是可为产品辅助决策。以前存在的大多是一些数值型的分析结果,例如网站的日活、流失率、留存率等,但却不能很直观地表现出究竟是什么样的原因导致了这样的结果。如果拥有产品的评价文本数据,那么我们就可以通过观点挖掘技术,将非结构化数据转化为结构化数据,从观点中获取更加直观、感性的信息,从而可能发现更多的问题。

3. 大众舆论导向。这是政府比较关注的项目,例如出台政策,想要调研该政策发布后的民意情况;

4.用户画像。最简单的,会根据容易获取到的一些用户行为来进行判断,如果要做得更精细一点,那么我们就可以从用户自身留下的声音来挖掘出有效的信息。例如在小说网站的观点挖掘中,我们可以通过用户的书评来分析他对某些类型的偏好情况;

5. 精准推送。在做好用户画像之后,我们就可以根据用户的偏好情况来实现精准推送,提升收益率;

6. 预测分析。例如PPT右图的股票趋势预测图。我们可以通过社交平台评论观点挖掘,来分析舆论情绪分布,如图中的两条红色的情绪线(冷静、警惕),我们会发现股票指数与情绪指数是存在一定关联的。在业务场景中,我们对大量的股评报告进行语义分析,利用股评报告中蕴含的观点信息结合股市信息及其他可能的影响因素,来预测股票走势。

NO.3

文本观点挖掘处理任务

1

情感分类

情感分类最主要的目标就是情感文本的情感倾向,例如正面、负面、中性等。某些企业可能要求更高,会要求分析出高兴、惊讶、愤怒等维度,这已经属于情绪分析的范畴了,需要更多数据的支持。本次课程仅止于正负面分析判断的介绍。

文本的情感分类包含三大类别:

文档级别(document-level)的情感分类。判断文本整体情感态度。句子级别(sentence-level)的情感分类。 判断句子这个层次上的情感分类。属性级别(apect-level)的情感分类。因为一个文档/句子会表达很多观点,不同观点可能有不同的情感属性。倘使我们分析时需要聚焦到某个属性,就可用到这个层次的分析。

句子级别的情感分类

张健首先依次列举了句子级别情感分类所使用的一些方法,包括监督方法和无监督方法。无监督方法中介绍了基于句法模板的情感分类和基于情感词典的情感分类。

其中,情感词典的构建是一件比较费力的事。因为不同领域的情感词典并不统一,需要有针对性地进行构建。

监督方式的情感分类部分,介绍了基于机器学习的有监督方法与基于深度学习的有监督方法。

属性级别的情感分类

回到情感分类的命题当中,刚才提到的更多是对一个句子或者一段文本计算出文本的情感极性。但如果一个句子当中,存在多种评价对象,或要获取到指定评价对象的情感倾向时,就需要用到属性级别的情感分类。

跨领域情感分类

情感分类对于领域比较敏感,不同领域下的情感分类通常存在较大差异。跨领域情感分类是比较有实用意义的领域,近期的论文聚焦在迁移学习的方法来提升跨领域文本分类的准确性,但在实际应用方面还需进一步提升效果。

多语种情感分类

多语种情感分类是为了解决指定语种标注数据不足的问题,使用语料充裕的语种(例如英语)的标注数据来提升情感分类效果。具体实现可基于翻译引擎,或基于语言分布表示。

2

观点抽取

观点挖掘当中除了情感分类,很重要的一步就是观点抽取,需要将文本当中有价值的信息提取出来。张健列举了电商场景下的案例来对实际操作方法进行了说明。

3

观点过滤

例如一些虚假评论,从评论本身难以分辨,所以这个时候就需要结合多个维度的信息来构建特征,进行训练和判断。

在特征类型当中,如语言特征。英文当中会有固定的频率,例如喜欢都大写,都发表在30字以内等语言特征。而行为特征也比较重要,例如网络水军,最基本的行为特征就是一条评论文本重复发,或者多次发布相似度较高的文本。

4

评价质量

最后需要提到观点挖掘当中的任务,是评价质量的问题。

有些网站会对评论进行管理,用户可以对评论进行反馈,例如微博的点赞。但是这种点赞需要时间积累来形成客观的、合理的评分。通过进行评价评分,我们也可以根据以往的历史评分记录,来预测新评论的质量区间。

5

观点挖掘的挑战

6

总结

文本的观点挖掘,目前的技术手段已经能够分析出比较不错的结果。但是仍然存在很多处理得不够彻底的方面,譬如说上面提到的几方面挑战,或者文本中很多隐式的语义表达,很多情况下还需要依赖于标记数据集的增加,无法通过更好的技术手段去处理。

观点挖掘目前比较热门的是使用深度学习的方式去解决其中一些子问题。另外,观点挖掘可以通过与像知识图谱等其他领域的结合,获取更有价值的分析结果。例如情感分析与问答结合,通过分析如果存在情感交互的话,用户体验会更好。

此外,文本观点挖掘的发展还是主要依赖于NLP技术的整体提升。在工业实践当中,目前文本语料数据的积累还是比较困难,特别是短文本,具有稀疏性,很难通过简单模型去表达复杂语义。

+

题外话

非常感谢将门此次提供的分享机会。达观数据专注于人工智能领域的文本挖掘处理,利用NLP(自然语言处理)、机器学习、深度学习等技术,为企业开发出文字数据处理、企业知识管理的解决方案,提升企业数据化运营能力和经营业绩。

目前行业内很多挖掘还是人工来用手工的规则和脚本实现,而我们希望能够减轻此类重复繁琐劳动的负担,让各行各业的企业都能够享受到人工智能所带来的红利。

相关阅读

干货分享 |企业如何用文本挖掘技术提升运营效果?新年将至,沉睡的文本数据也该醒醒了干货分享|达观数据情感分析架构演进

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(4)
  1. 戒你如烟2024-01-20 12:13戒你如烟[网友]103.5.38.106
    谢谢分享这篇回顾!了解如何利用NLP技术从海量文本中提取观点,让我对自然语言处理有了更深入的认识。
    顶0踩0
  2. 一日之成2024-01-20 10:22一日之成[网友]203.30.66.158
    提取观点的NLP技术真是让人惊叹!想象一下,从海量文本中迅速获得用户意见,简直是太高效了。
    顶10踩0
  3. aゞ得得以得以得得2024-01-20 08:30aゞ得得以得以得得[网友]203.168.6.195
    NLP技术真的厉害!通过提取观点可以更好地了解用户的需求,对于企业发展非常有帮助。
    顶0踩0
  4. 中正平2024-01-20 06:38中正平[网友]121.56.112.80
    这篇文章真是太有用了!学会了如何利用NLP技术从海量文本中提取观点,以后分析文本就更快捷了。
    顶0踩0
相关阅读
没想到!NLP(自然语言处理)居然有这么多应用场景?

没想到!NLP(自然语言处理)居然有这么多应用场景?

...道多少?如果你听说过人工智能,那么对于自然语言处理技术一定也不陌生,自然语言处理技术属于人工智能的一个子领域,它对计算机和人类的交互方式产生了很重要的影响。为了更方便大家理解,在介绍什么是NLP之前,首先...

2007-08-13 #经典句子

百度NLP主任架构师全面讲解百度语义表示技术及最新进展

百度NLP主任架构师全面讲解百度语义表示技术及最新进展

孙宇,百度NLP主任研发架构师、语义计算技术负责人。本文根据作者在“2019自然语言处理前沿论坛”语义理解主题的特邀报告整理而成。本报告提纲分为以下3个部分:· 语义表示· 语义匹配· 未来重点工作语义计算方向在百度N...

2023-12-23 #经典句子

百度NLP | 神经网络语义匹配技术

百度NLP | 神经网络语义匹配技术

...以抽象为文本与文本的相似度匹配问题。传统的文本匹配技术如信息检索中的向量空间模型 VSM、BM25 等算法,主要解决词汇层面的匹配问题,或者说词汇层面的相似度问题。而实际上,基于词汇重合度的匹配算法有很大的局限性...

2019-06-13 #经典句子

2019 自然语言处理前沿论坛 百度NLP技术全揭秘

2019 自然语言处理前沿论坛 百度NLP技术全揭秘

...科技评论按,近日,由百度联合中国计算机学会中文信息技术专委会、中国中文信息学会青工委举办的「2019 自然语言处理前沿论坛」上,来自百度和各大高校的嘉宾们分享了关于 NLP 技术研究的心得体会。本次论坛主题为「机...

2023-08-11 #经典句子

搜狗搜索承办“AIS 2019”论文研讨会 聚集国内顶尖人才共话NLP前沿发展

搜狗搜索承办“AIS 2019”论文研讨会 聚集国内顶尖人才共话NLP前沿发展

...,举办AIS论文研讨会的最大目标就是促进学术界、业界的技术交流。自2016年起,AIS研讨会已经成功举办四届,从最初的两三百人,到现在参加人数接近千人,可谓取得了巨大进展。未来,中国中文信息学会还将举办更多的顶级...

2023-12-08 #经典句子

百度飞桨又开源中文NLP开源工具箱:主打工业应用 支持6大任务

百度飞桨又开源中文NLP开源工具箱:主打工业应用 支持6大任务

...务等。除了全面,PaddleNLP的效果也还不错。比如基于百度海量搜索数据,PaddleNLP训练了的语义匹配模型在真实FAQ问答场景中,比基于字面的相似度方法AUC提升5%以上。无论你在聊天机器人、智能客服、新闻推荐、信息检索、阅读...

2023-10-01 #经典句子

业界首用NLP可控文本生成模型 百度输入法发布10.0新版AI助聊帮你轻松表达

业界首用NLP可控文本生成模型 百度输入法发布10.0新版AI助聊帮你轻松表达

来源:时刻头条智能化浪潮下,AI技术已成为手机输入法领域升级创新的重要因素,满足着用户在聊天、交互中不断上升的个性化需求。近日,拥有深厚AI实力、相关功能落地广泛的百度输入法迎来年度重大AI版本10.0发布,在领...

2023-06-29 #经典句子

文心(ERNIE)3项能力助力快速定制企业级NLP模型 EasyDL全新升级!

文心(ERNIE)3项能力助力快速定制企业级NLP模型 EasyDL全新升级!

...心(ERNIE)是依托百度深度学习平台飞桨打造的语义理解技术与平台,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与应用能力。在2020世界人工智能大会,百度...

2013-07-09 #经典句子