.
声明:本人只是分享一些床长人工智能教程相关的免费pdf下载文档而已,并非床长人工智能网校的收费文章。尊重版权,支持原创!
摘要
我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。
文本自动生成就是实现这一目的的关键技术。
按照不同的输入划分,文本自动生成可包括文本到文本的生成意义到文本的生成数据到文本的生成以及像到文本的生成等。
上述每项技术均极具挑战性,在自然语言处理与人工智能领域均有相当多的前沿研究,近几年业界也产生了若干具有国际影响力的成果与应用。
本文对上述前沿技术的国内外研究现状进行了全面总结,并对发展趋势进行了展望。
关键词自然语言生成文本到文本的生成意义到文本的生成数据到文本的生成像到文本的生成
引言
文本自动生成是自然语言处理领域的一个重要研究方向,实现文本自动生成也是人工智能走向成熟的一个重要标志。
简单来说,我们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。
文本自动生成技术极具应用前景。
例如,文本自动生成技术可以应用于智能问答与对话机器翻译等系统,实现更加智能和自然的人机交互我们也可以通过文本自动生成系统替代编辑实现新闻的自动撰写与发布,最终将有可能颠覆新闻出版行业该项技术甚至可以用来帮助学者进行学术论文撰写,进而改变科研创作模式。
按照不同的输入划分,文本自动生成可包括文本到文本的生成意义到文本的生成数据到文本的生成以及像到文本的生成等。
上述每项技术均极具挑战性,在自然语言处理与人工智能领域均有相当多的前沿研究,近几年业界已产生了若干具有国际影响力的成果与应用。
最值得一提的是,美联社自年月开始已采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了的工作量。
美国洛杉矶时报也有一种用来撰写突发新闻的应用软件。
美国已有多家公司能够提供新闻写作软件与服务,比如美国自动洞察力公司
已采用语言专家软件撰写了亿篇报道,包括橄榄球财经报道。
这些进展标志着文本自动生成不再属于纸上谈兵的技术,而是已经对人类工作和生活产生了重大影响。
目前国内学界与工业界对文本自动生成技术的重视程度并不够,普遍缺乏对该方向前沿技术与进展的了解。
因此,本技术报告将首次对文本自动生成前沿技术进行综合全面的调研分析与总结,为国内同行提供一个全面了解文本自动生成技术的重要参考。
同时,期望学界和工业界一起努力,尽早实现中文文本自动生成系统,抢占中文文本自动生成技术的制高点。
需要指出的是,自然语言处理领域的自然语言生成技术专指从机器可读数据生成自然语言文本的技术,而本文所介绍的文本自动生成技术的范畴则更加广泛,还包括了文本到文本的生成技术以及像到文本的生成技术。
文本到文本的生成
国际研究现状
文本到文本的生成技术主要指对给定文本进行变换和处理从而获得新文本的技术,具体说来包括文本摘要句子压缩句子融合文本复述等。
国际上对上述不同技术均进行了多年的研究,相关研究成果主要发表在自然语言处理相关学术会议与期刊上,例如等。
国际上几个主要的研究单位包括密歇根大学南加州大学哥伦比亚大学北德克萨斯大学爱丁堡大学等。
需要指出的是,机器翻译从某种程度上也可看作是一种从源语言到目标语言的文本生成技术,但由于机器翻译自身是相对独立的一个研究领域,因此本文的内容不再涵盖机器翻译技术。
文本摘要
文本摘要技术通过自动分析给定的文档或文档集,摘取其中的要点信息,最终输出一篇短小的摘要通常包含几句话或上百字,该摘要中的句子可直接出自原文,也可重新撰写所得。
摘要的目的是通过对原文本进行压缩提炼,为用户提供简明扼要的内容描述。
根据不同的划分标准,文档摘要可以主要分为以下几种不同类型
根据处理的文档数量,摘要可以分为单文档摘要和多文档摘要。
单文档摘要只对单篇文档生成摘要,而多文档摘要则对一个文档集生成摘要。
根据是否提供上下文环境,摘要可以分为主题或查询无关的摘要和主题或查询相关的摘要。
主题或查询相关的摘要在给定的某个主题或查询下,能够诠释该主题或回答该查询而主题或查询无关的摘要则指不给定主题和查询的情况下对文档或文档集生成的摘要。
根据摘要所采用的方法,摘要可以分为生成式和抽取式。
生成式方法通常需要利用自然语言理解技术对文本进行语法语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。
而抽取式方法则相对比较简单,通常利用不同方法对文档结构单元句子段落等进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。
抽取式方法应用较为广泛,通常采用的结构单元为句子。
根据摘要的应用类型,摘要可以分为标题摘要传记摘要电影摘要等。
这些摘要通常为满足特定的应用需求,例如传记摘要的目的是为某个人生成一个概括性的描述,通常包含该人的各种属性,例如姓名性别地址出生兴趣爱好等。
用户通过浏览某个人的传记摘要就能对这个人有一个总体的了解。
文档自动摘要的研究在书馆领域和自然语言处理领域一直都很活跃,最早的应用需求来自于书馆。
书馆需要为大量文献书籍生成摘要,而人工摘要的方式效率很低,因此亟需自动摘要方法取代人工高效地完成文献摘要任务。
随着信息检索技术的发展,文档自动摘要在信息检索系统中的重要性越来越大,逐渐成为研究热点之一。
文档自动摘要技术的第一篇论文来自,经过数十年的发展,同时在与组织的自动摘要国际评测的推动下,文本摘要技术已经取得长足的进步。
值得一提的是,由南加州大学
博士现就职于微软亚洲研究院开发的摘要质量自动评估工具的广泛使用也是自动摘要技术快速发展的一个推动力。
国际上文档自动摘要方面比较著名的几个系统包括的系统,哥伦比亚大学的系统,密歇根大学的系统等。
年雅虎耗资万美元收购了一项自动新闻摘要应用,标志着新闻摘要技术走向成熟。
目前的文本摘要方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与抽取。
这类方法的好处是易于实现,能保证摘要句子具有良好的可读性。
该类方法主要包括两个步骤一是对文档中的句子进行重要性计算或排序,二是选择重要的句子组合成最终摘要。
第一个步骤可采用基于规则的方法,利用句子位置或所包含的线索词来判定句子的重要性也可采用各种机器学习方法。。。