第一句子大全,网罗天下好句子,好文章尽在本站!

如何用自然语言处理与机器学习构建摘要?

时间:2023-05-05

看书的时候,书背后的简要使我们大概了解其内容;新闻软件往往会有关于文章内容的标题;而概要对于影评来说也是特别重要的

友情提示:本文共有 1676 个字,阅读大概需要 4 分钟。

全文共1903字,预计学习时长5分钟

我们的生活中有许多地方会用到概要。看书的时候,书背后的简要使我们大概了解其内容;新闻软件往往会有关于文章内容的标题;而概要对于影评来说也是特别重要的。

随着自然语言处理和机器学习等技术的出现,我们为何不用它们来生成概要而无需介入人力呢?在你决定为了即将到来的考试概括教材之前,先来了解一些重要的概念吧。

文本摘要有两类,抽取式和生成式。

抽取式摘要

抽取式摘要可被定义为精心挑选出所有重要的句子,并保持原样将其添加至摘要。

· 阅读文本,拆分成句子;

· 解析每个句子,根据某些参数识别其中更为重要的句子,将其打分;

· 选出分数更高的句子;

· 将这些句子添加至摘要。

生成式摘要

生成式摘要更像是人们平常总结一个文本的方式,理解并分析文章。

· 阅读文本;

· 分析文本和句子背后的深意;

· 选出重要主题,创造新的句子(是否运用原文词汇是不确定的);

· 将这些这句添加至摘要。

两相比较,抽取式摘要更加简便一些,因为它不必考虑语义或词汇。本文将讨论抽取式摘要,再从头创造自己的文本摘要。

词频——逆文档频率(TF-IDF)

看到一句话,我们能轻易地确认它的内容以及试图表达的信息。但是,一台电脑无法做到。该怎么做呢?如上述所说,将句子分级,并选出级别最高的句子。谁来决定这些句子的级别?TF-IDF来决定。

词频-逆文档频率对于增添至最终摘要的句子选择来说是基础。TF-IDF的数值计算是这样的:词频-逆文档频率=术语频率×逆文档频率。

词频(TF)

词频计算的是文档中一个词语出现的次数。仅看词频得出的结果很有可能是不准确的,因为同样的单词(‘w’)在长文档中会比短文档出现更多次。但是,如果我们将其除以总字数的话,最终数据便会变得更准确,这使词频得出的数量对我们来说更有价值。

词频(w,d)=某词‘w’在文档中的出现次数/该文档的总字数‘d’

这就结束了不是吗,为什么还需要其他计算呢?如果你仔细想想,特别常见的词(如“is,am,was”)的词频值会非常高。词频本身在这种情况下会变得很多余,这个时候就需要我们的救星IDF了。

逆文档频率(IDF)

在开始IDF之前,先讨论一下文档频率(DF)。DF是指在共N个文档中包含某词‘w’的文档数量,字母D即所有文档。

文档频率(w, D)=包含单词‘w’的文档数量

然而,文档频率并不是我们关注的内容,反之才相关。逆文档频率揭晓每个术语承载了多少信息。在逆文档效率的作用结果中,常见词将会有很低的IDF值,而少见的术语会有更高优先级。我们之所以使用这个数值的算法是因为,对于大型文档而言该术语的数值会异常升高。

IDF(w, D)=log(N/(DF(w, D)+1))

用(DF+1)作分母,以避免分母为零。在某些情况下,分母为零会导致严重的错误。

TF-IDF(w,d)=TF(w,d)*log(N/(DF+1))

所有计算完成后,根据TF-IDF分数和阈值将每个文档(在此处是句子)分级,最终得出文本的摘要。那么,现在开始编码吧!

编码部分

输入库:

清扫文本:

将文本文件转为一个个句子,这将成为我们的文档。

每个句子中的单词数量:

为所有文档中的每个单词创建频率列表:

此处创建一个列表,其中存储了文档中每个单词的频率。

计算TF和IDF值:

第一个功能计算每个文档(此处指句子)中单词的词频,第二个功能计算句子中每个单词的逆文档频率。

记算TF-IDF值:

计算每个术语的TF-IDF值。

将所有文档分级:

阈值根据句子中每个单词的TF-IDF值来计算每个句子的分数。

生成摘要:

阈值是通过线性函数计算TF-IDF值的平均值得出。注意,平均值阈值可通过与标志相乘调整,以增减摘录规模。

是时候运行所有的功能啦!

确保文档是在格式为(*.txt)的一个文件中,并和Python脚本在同一个目录中。

测试:

完成啦!不过这不是总结文本的唯一方式,除此之外还有很多技巧可以完成摘要。

一次美妙旅途的结束了,笔者感受到了很多乐趣,也希望你享受一起编程、学习文本摘要的过程。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

本文如果对你有帮助,请点赞收藏《如何用自然语言处理与机器学习构建摘要?》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
谈谈科技论文摘要写作的认识与体会

谈谈科技论文摘要写作的认识与体会

...无法叙述一、两个很简短、具体的结论,有时可采用一些句子来概括地对自己的研究结果予以简单介绍。这里还应注意的是,摘要的内容应该是整篇论文的精华。例如,对于实验研究论文,摘要应该着重描写采用的方法、主要的...

2022-12-09 #经典句子

床长人工智能教程pdf下载——文本自动生成研究进展与趋势

床长人工智能教程pdf下载——文本自动生成研究进展与趋势

...换和处理从而获得新文本的技术,具体说来包括文本摘要句子压缩句子融合文本复述等。国际上对上述不同技术均进行了多年的研究,相关研究成果主要发表在自然语言处理相关学术会议与期刊上,例如等。国际上几个主要的研...

2023-11-20 #经典句子

阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

...展的任务可以把文本摘要分为单文档摘要、多文档摘要和句子摘要,其中值得注意的是句子摘要,简单来说就是把长句子生成短句子。根据摘要生成的方式又可以把文本摘要分为抽取式摘要和生成式摘要,并且对它们进行了简要...

2023-05-03 #经典句子

论文英文摘要如何撰写

论文英文摘要如何撰写

...文内容,找准重点,分清主次,善于重新组合语言,注重句子的前后呼应,内容全面、真实、客观,避免使用含糊不清的句子,避免出现大词、谦词、敬词,尤其广告语,简化句子结构,减少不必要的字词及词汇,成文后认真阅...

2023-11-06 #经典句子

巴伊兰大学:事件新闻推文的交互式摘要生成

巴伊兰大学:事件新闻推文的交互式摘要生成

...面上探索信息更有意义,而不是像之前针对基于整个原始句子进行那样粗糙(见第6节)。我们利用抽象的方法来支持两种有用的交互模式。首先,我们将信息呈现在一个子弹式(bullet-style)的摘要中,其中最重要的信息一开始在项目...

2023-01-26 #经典句子

浅析科技论文摘要英译中几个方面的原则

浅析科技论文摘要英译中几个方面的原则

...必要指出,使用被动语态就能避免不必要的人称代词,使句子结构更加经济、紧凑。另外,被动语态的句子在结构上有较大的调节余地,有利于采用恰当的修辞手段,扩展名词短语,扩大句子的信息量,有利于突出有关的概念、...

2022-11-20 #经典句子

探讨科技论文英文摘要的撰写方法和技巧

探讨科技论文英文摘要的撰写方法和技巧

...了确保英文摘要翻译的准确、完整,医刊汇编译从用词、句子完整性、时态、语态、人称、标点符号等方面,对英文摘要的撰写方法和技巧进行探讨。一、用词。科技论文英文摘要措词得体的一个重要方面取决于翻译人员掌握该...

2022-11-16 #经典句子

3步骤3要点 在字数限制内写好论文摘要

3步骤3要点 在字数限制内写好论文摘要

...题陈述、方法、结果和结论。每一个组成部分通常是一个句子,有时是两个句子。论文摘要还必须包含易于搜索的关键字和短语。秘 诀!列出一些您所在领域的研究人员可能会用于搜索的短语和关键词,确保同样的短语出现在...

2023-06-24 #经典句子