第一句子大全,网罗天下好句子,好文章尽在本站!

Google发布表格文字生成数据集ToTTo

时间:2023-12-15

ToTTo拥有121,000个训练样本,以及7,500个用於开发和测试的样本,Google提到,由於其标注的高精确性,该数据集很适合用来作为,高精确文字生成研究的基准

友情提示:本文共有 1426 个字,阅读大概需要 3 分钟。

Google发布了一个称为,由开放领域的表格到文字(Table-To-Text)生成数据组成,包含来源的表格数据,以及总结表格数据的句子配对,另外,还有可用来评估模型幻觉(Hallucination)的文字生成任务。ToTTo拥有121,000个训练样本,以及7,500个用於开发和测试的样本,Google提到,由於其标注的高精确性,该数据集很适合用来作为,高精确文字生成研究的基准。

在过去几年,自然语言生成研究已经有巨大的进步,但Google提到,尽管神经系统已经可以产生顺畅流利的文字,但是仍然会产生可理解,但是并非忠於(Faithful)来源数据的文字,这种情况被称之为幻觉,Google举例,像是神经基准模型总结比利时足球运动员Constant Vanden Stock,在维基百科的条目信息框,总会错误总结Constant Vanden Stock是位美国花样滑冰运动员。模型产生幻觉的可能性,使得有高准确性要求的应用,无法使用自然语言生成系统。

透过评估生成的文字是否忠实呈现来源内容,可以缓解这个问题,不过这个评估过程有其困难性,幸运的是,诸如表格等结构化来源内容的评估,通常会比较容易,而且结构化数据,还可以用来测试模型在因果以及数字的推断能力。

但Google表示,现有的大规模结构化数据集通常存在杂讯,也就是参照的句子,无法完全由表格数据推断出来,进而使得在模型开发中,难以量测幻觉。

因此Google制作了ToTTo数据集,除了包含表格到文字数据对之外,还添加一系列受控的生成任务,该任务会提供维基百科表格,以及一组选定的数据格,作为生成总结这些数据格句子的材料,这些任务存在多种挑战,包括数值推论、开放领域词汇以及多样的表格结构等。

ToTTo数据集使用了一种特别的数据标注方法,以产生没有杂讯的数据集,Google提到,要从表格数据中,获得自然又乾净的目标句子,是一件困难的工作,诸如Wikibio和RotoWire之类的数据集,其配对表格和文字的过程,总会出现许多杂讯,而这让研究人员难以区分,究竟幻觉是由数据杂讯造成的,还是模型本身缺陷造成的。

而且即便注释者从头开始编写句子,也会因为要忠於表格数据,而使得最後结果缺乏结构和样式的多样性,为了解决这些问题,ToTTo使用新颖的数据注释策略,Google要求注释者分阶段修改现有维基百科的句子,而这个方式让句子既乾净又自然,且还能包含有趣且多变化的语言特性。

Google使用目前最先进的三个模型,产生了一些基准结果,实验结果显示,BERT-to-BERT模型在BLEU与PARENT两个指针,表现的比Pointer Generator和Puduppully et al. 2019模型更好,但这3个模型,在研究人员另外准备的挑战子集上,性能表现皆不好,Google表示,因为挑战子集饱含领域外样本,对於3个模型都更具挑战性。

但这些结果并不足以评估文字生成系统的幻觉,为了更好地了解幻觉,研究人员假设内容上的不一致,都是幻觉造成,并手动评估最佳表现基准,以确定句子忠於来源表格内容的程度,而结果显示,BERT-to-BERT较人类专家,多出约20%的幻觉。

基准测试显示,即便是现在最先进的模型,也难以解决幻觉、数值推论以及稀有主题等问题,而且即便模型输出正确,但是信息也不如参考信息丰富。透过提供这些基准测试,Google说明ToTTo是可用於建模研究,并且发展模型评估指针的数据集。

本文如果对你有帮助,请点赞收藏《Google发布表格文字生成数据集ToTTo》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(3)
  1. 情何以。2024-01-09 13:26情何以。[贵州省网友]103.255.228.205
    这对研究人员和数据分析师来说真是太方便了,Google的工具真是贴心。
    顶5踩0
  2. Roylins2024-01-01 03:16Roylins[新疆网友]45.121.97.2
    期待尝试!Google的工具总是能给人惊喜。
    顶3踩0
  3. 梦断烟云2023-12-23 17:06梦断烟云[河北省网友]103.63.35.177
    太棒了,Google又发布了一个有用的工具,这将大大提高我们处理数据的效率。
    顶0踩0
相关阅读
古北水镇携手Google艺术与文化 打造线上长城展

古北水镇携手Google艺术与文化 打造线上长城展

中国旅游研究院副院长李仲广先生、中国文物保护基金会副秘书长李继龙先生、古北水镇旅游公司副总裁金林生先生、著名长城专家董耀会、中央美术学院教授孙

2013-08-19 #经典句子

阅读懒人有福了!Google Assistant将推新功能 42种语言念文章

阅读懒人有福了!Google Assistant将推新功能 42种语言念文章

图/翻摄自YouTube/ Android陈心怡/外电报导据报导,Google在消费电子展CES上「预览」Android手机上Google Assistant的新功能,该功能可以将其转变为功能强大的阅读器

2023-12-03 #经典句子

经典回顾:克莱单节37分 打破安东尼 格文得分纪录!

经典回顾:克莱单节37分 打破安东尼 格文得分纪录!

那是在1月24日,勇士主场对阵国王的比赛,克莱全场25投16中,三分15中11,砍下52分助勇士以126比101轻松取胜

2023-05-04 #经典句子

Google 翻译出现宗教话语 可能是因为用了圣经训练模型导致

Google 翻译出现宗教话语 可能是因为用了圣经训练模型导致

这其中甚至包括信德语巴基斯坦和印度、科萨语南非等极少人使用的语种

2023-05-18 #经典句子

秒懂!图文解密10个Google高级搜索指令 助力外贸人找客户找资料

秒懂!图文解密10个Google高级搜索指令 助力外贸人找客户找资料

我们在度娘搜索查询可以找到不少文章,发现许多文章的查询说明都不太合适,有的指令不太常用或者已经被Google弃用

2018-11-17 #经典句子

我和女儿改高中作文《生活因挫折而精彩》 有批注 点评和升格文

我和女儿改高中作文《生活因挫折而精彩》 有批注 点评和升格文

题记夕阳,淡淡的,将那万丈光芒洒向大地,河水被照得熠熠生辉,像一滩碎金!我的修改:夕阳,淡淡的,浅浅的,把落日的余晖洒向大地,照在水面,熠熠生

2019-06-27 #经典句子

亲测:这5个号称“一键生成原创文章”网站 真的能原创吗?

亲测:这5个号称“一键生成原创文章”网站 真的能原创吗?

这期给大家测试一下几个一键生成文案的工具

2014-06-28 #经典句子

GOOGLE 翻译增AI 离线翻译支援59 种语言

GOOGLE 翻译增AI 离线翻译支援59 种语言

日前Google 更为离线翻译功能进行更新,将原本线上才能使用的神经机械翻译系统延伸至离线,更支援59 种语言

2023-07-27 #经典句子