第一句子大全,网罗天下好句子,好文章尽在本站!

自动生成文本摘要

时间:2023-07-02

而这需要的就是文本摘要自动生成技术!文本摘要充斥着我们生活的方方面面,新闻关键词的提炼是文本摘要;在像Google、百度等搜索引擎的结果同样需要文本

友情提示:本文共有 1351 个字,阅读大概需要 3 分钟。

当我们浏览网站站点或搜索新闻的时候,经常能看到这样的题目:“BAT领头,市值8000亿……”、“删前速看!XXX视频流出”等,可是当我们点进去的时候,往往会发现,都是标题党,文章和内容完全不符合!如果这时候有一种工具能先替我们阅读新闻,再提炼出关键内容,那么我们肯定不会再受到标题党的影响,这对我们的生活无疑会有非常大的便利。而这需要的就是“文本摘要自动生成”技术!文本摘要充斥着我们生活的方方面面,新闻关键词的提炼是文本摘要;在像Google、百度等搜索引擎的结果同样需要文本摘要,目前的百度搜索摘要主要还是把关键词前后语句作为摘要,不能反映文章主要内容和关键词的相关度,该升级了。目前主流的文本摘要自动生成有两种方式,一种是抽取式(extractive),另一种是生成式(abstractive)。

抽取式顾名思义,就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式则是计算机通读原文后,在理解整篇文章意思的基础上,按自己的话生成流畅的翻译。抽取式的摘要目前已经比较成熟,但是抽取质量及内容流畅度均差强人意。伴随着深度学习的研究,生成式摘要的质量和流畅度都有很大的提升,但目前也有一些问题,例如在文本长度太长的时候抽取内容不佳。

抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被业界广泛运用。大体思想是先去除文章中的一些停用词,什么是停用词呢?停用词可以是使用十分广泛,甚至是过于频繁的一些单词。比如英文的“I”、“is”、“a”、“the”,中文的“我”、“的”之类词几乎在每个文档上均会出现,查询这样的词搜索引擎就无法保证能够给出真正相关的搜索结果,难于缩小搜索范围提高搜索结果的准确性,同时还会降低搜索的效率。因此,在真正的工作中,搜索引擎会忽略掉特定的常用词,在搜索的时候,如果我们使用了太多的停用词,也同样有可能无法得到非常精确的结果,甚至是可能大量毫不相关的搜索结果。另外一种停用词是指文本中出现频率很高,但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。如常见的“的”、“在”、“和”、“接着”之类,比如“SEM分享是个关于SEM的博客”这句话中的“是”、“的”就是两个停用词。过滤掉停用词之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。再对上述得到的关键语句进行排序,便能得到文本中最核心的语句,也就是摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”,“孙悟空”这样的词汇都会通过切词,独立对待,无法建立文本段落中的完整语义信息。

生成式文本摘要主要依靠深度神经网络结构实现,2014年由GoogleBrain团队提出的Sequence-to-Sequence序列,开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器(Encoder、Decoder)架构。其中Encoder、Decoder均由数层RNN/LSTM构成,Encoder负责把原文编码为一个向量C;Decoder负责从这个向量C中提取信息,获取语义,生成文本摘要。

本文如果对你有帮助,请点赞收藏《自动生成文本摘要》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

...,不太适合于长文本的任务。随后谭继伟博士对新闻标题自动生成、单文档摘要、多文档摘要以及淘宝短标题生成进行了详细介绍,并对它们进行了总结与概括。对于文本摘要的主要挑战是大规模高质量训练数据依赖和端到端学...

2023-05-03 #经典句子

床长人工智能教程pdf下载——文本自动生成研究进展与趋势

床长人工智能教程pdf下载——文本自动生成研究进展与趋势

...类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可包括文本到文本的生成意义到文本的生成数据到文本的生成以及像到文本的生成等。上述每...

2023-11-20 #经典句子

开源|谷歌发布最新“天马”模型 自动生成文本摘要已超越人类!

开源|谷歌发布最新“天马”模型 自动生成文本摘要已超越人类!

我们知道,Transfromer在处理长序列文本方面比CNN/RNN表现更为出色,因此,最强大的预训练模型,如BERT、GPT均采用的是Transfromer基础架构。而且事实证明,在处理诸如机器翻译、文本摘要、语音识别、问答系统等多种语言任务时,...

2023-05-05 #经典句子

变身抓重点小能手:机器学习中的文本摘要入门指南 | 资源

变身抓重点小能手:机器学习中的文本摘要入门指南 | 资源

...量子位 出品 | 公众号 QbitAI如果你是科研狗,一定有过被摘要支配的恐惧。如果你想在浩如烟海的互联网信息里寻找重点,一定想要快速排除多余的内容。基于机器学习的自动文本摘要工具,将一键解放你的双手,化身抓重点小...

2023-05-05 #经典句子

无文本 NLP:从原始音频生成富有表现力的语音

无文本 NLP:从原始音频生成富有表现力的语音

...非常不同的结果,HuBERT 提供了最好的整体结果。第四,自动生成指标与人的相关性很好。最后,这些指标是通过计算速度更快的零样本指标来预测的零资源语音基准,作为快速迭代的良好代理。三个编码器(wav2vec、CPC 和 HuBERT...

2023-11-20 #经典句子

语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统

语音生成效果评价不再逐句进行:谷歌提长文本语音生成评价新系统

...给出了不同语音呈现方法下的平均意见得分(MOS)结果。自动生成的语音无处不在,从驾驶中的人声导航,到手机上的虚拟助手,还有家中的智能扬声器设备。虽然为了使生成语音更加逼真而进行了大量研究与实验,例如为低资...

2023-05-18 #经典句子

基于 Tensorflow eager 的文本生成 注意力 图像注释的完整代码

基于 Tensorflow eager 的文本生成 注意力 图像注释的完整代码

...示例。以下每个示例都是端到端的,并遵循类似的模式:自动下载训练数据集。预处理训练数据,并创建tf.data数据集以在输入管道中使用。使用tf.keras模型子类API定义模型。使用eager function训练模型。演示如何使用训练模型。示...

2023-10-03 #经典句子

业界首用NLP可控文本生成模型 百度输入法发布10.0新版AI助聊帮你轻松表达

业界首用NLP可控文本生成模型 百度输入法发布10.0新版AI助聊帮你轻松表达

...心意图识别,结合语义检索和文本生成算法,毫秒级响应自动撰写结果,同时也是行业内唯一支持生成正负向多种情绪自动撰写的产品。在智能纠错能力方面,百度输入法基于词法、句法分析和语义理解模型等多维特征构建出的...

2023-06-29 #经典句子