脸书开发新模型TaBERT可理解自然语言并从表格查资料

时间：2012-11-10

研究人员提到，TaBERT是第一个跨结构化与非结构化资料的预训练方法，克服了查询对应到数据库表格结构的挑战

友情提示：本文共有 879 个字，阅读大概需要 2 分钟。

脸书开发了一个经预训练的模型TaBERT，可以理解自然语言的句子，并且从表格查询结果，以回答自然语言句子的提问，TaBERT能够回答像是“哪个国家的GDP最高？”这类的问题。研究人员提到，TaBERT是第一个跨结构化与非结构化资料的预训练方法，克服了查询对应到数据库表格结构的挑战。

自然语言处理的改进，无论是网络搜索还是人工智能助理的查询，都能拥有更好的人机交互体验，而大规模预训练语言模型，在近期机器理解自然语言文本，扮演了重要的角色。TaBERT则是运用了预训练技术，连接自然语言理解和结构化资料查询，研究人员提到，TaBERT可以让数字助理更精确地回应“下午的气温几度？”和“太平洋西北地区有多少人口？”等问题，因为TaBERT可从各种数据库或是表格中找到答案。

脸书使用了2,600万张表格和关联的英文句子来训练TaBERT，研究人员表示，先前的预训练语言模型，都仅使用自由格式的自然语言文本训练模型，而这让模型仅能够处理自然语言格式的任务，但并无法处理同时需要对自然语言和数据库进行推理的问题。

脸书以两个常用的基准资料集进行实验，分别是用于监督式文本转SQL任务的Spider资料集，以及弱监督式解析任务的WikiTableQuestions资料集，脸书提到，弱监督式学习会比监督式学习更具挑战性，因为解析器无法取得标签查询，而且必需要探索非常大的查询搜索空间。实验结果显示，无论是弱监督式或是监督式任务，TaBERT的结果都更好，而且也证明使用表格和语言资料进行预训练，是可行且有效的方法。

TaBERT是以语言处理模型BERT作为基础，研究人员把自然语言查询以及表格作为输入，让TaBERT学习句子以及数据库的上下文表示，而该表示也可以用在其他神经网络下游，以产生数据库命令，并且能以任务相关的训练资料，来微调TaBERT表示。

研究人员提到，TaBERT可以被应用在事实核实和验证应用程序中，因为第三方事实核实单位，通常也是依赖已经存在的静态知识库资料，而TaBERT可以将查询对应到相关数据库中，因此不仅能够验证事实，也能参照相关数据库给出解释。

本文如果对你有帮助，请点赞收藏《脸书开发新模型TaBERT可理解自然语言并从表格查资料》，同时在此感谢原作者。

TaBERT 开发新模型表格可理解

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。