友情提示:本文共有 879 个字,阅读大概需要 2 分钟。
脸书开发了一个经预训练的模型TaBERT,可以理解自然语言的句子,并且从表格查询结果,以回答自然语言句子的提问,TaBERT能够回答像是“哪个国家的GDP最高?”这类的问题。研究人员提到,TaBERT是第一个跨结构化与非结构化资料的预训练方法,克服了查询对应到数据库表格结构的挑战。
自然语言处理的改进,无论是网络搜索还是人工智能助理的查询,都能拥有更好的人机交互体验,而大规模预训练语言模型,在近期机器理解自然语言文本,扮演了重要的角色。TaBERT则是运用了预训练技术,连接自然语言理解和结构化资料查询,研究人员提到,TaBERT可以让数字助理更精确地回应“下午的气温几度?”和“太平洋西北地区有多少人口?”等问题,因为TaBERT可从各种数据库或是表格中找到答案。
脸书使用了2,600万张表格和关联的英文句子来训练TaBERT,研究人员表示,先前的预训练语言模型,都仅使用自由格式的自然语言文本训练模型,而这让模型仅能够处理自然语言格式的任务,但并无法处理同时需要对自然语言和数据库进行推理的问题。
脸书以两个常用的基准资料集进行实验,分别是用于监督式文本转SQL任务的Spider资料集,以及弱监督式解析任务的WikiTableQuestions资料集,脸书提到,弱监督式学习会比监督式学习更具挑战性,因为解析器无法取得标签查询,而且必需要探索非常大的查询搜索空间。实验结果显示,无论是弱监督式或是监督式任务,TaBERT的结果都更好,而且也证明使用表格和语言资料进行预训练,是可行且有效的方法。
TaBERT是以语言处理模型BERT作为基础,研究人员把自然语言查询以及表格作为输入,让TaBERT学习句子以及数据库的上下文表示,而该表示也可以用在其他神经网络下游,以产生数据库命令,并且能以任务相关的训练资料,来微调TaBERT表示。
研究人员提到,TaBERT可以被应用在事实核实和验证应用程序中,因为第三方事实核实单位,通常也是依赖已经存在的静态知识库资料,而TaBERT可以将查询对应到相关数据库中,因此不仅能够验证事实,也能参照相关数据库给出解释。
本文如果对你有帮助,请点赞收藏《脸书开发新模型TaBERT可理解自然语言并从表格查资料》,同时在此感谢原作者。