第一句子大全,网罗天下好句子,好文章尽在本站!

Facebook 开源自然语言处理模型 可检索文档回答问题

时间:2010-05-13

RAG 可以通过通过动态地改变或补充其内部知识,使研究人员能够控制模型掌握的内容,研究人员不必对其计算能力进行再培训就可以获得最先进的结果

友情提示:本文共有 1526 个字,阅读大概需要 4 分钟。

Facebook 和 AI 初创公司 Hugging Face 今天开源了一种 AI 模型检索增强生成(RAG),这是一种自然语言处理模型,可以查找和解释上下文信息来完成一系列任务。

RAG 可以通过通过动态地改变或补充其内部知识,使研究人员能够控制模型掌握的内容,研究人员不必对其计算能力进行再培训就可以获得最先进的结果。

从今天开始,RAG 可以作为 Hugging Face 转换器库的组件提供,与新的数据库集成,提供 RAG 所依赖的索引知识源。

RAG 整合知识的“后期融合”方式

自然语言理解领域的前沿工作已经产生了通用模型,这些模型虽然常常存在缺陷,但是是可以推广的。到目前为止,大多数模型已经应用于无需知识背景就可以生成解决方案的任务中,比如情绪分析这类任务。

相比之下 RAG 使用输入数据从像 Wikipedia 这样的数据库中检索相关的文档。例如,给出一个“地球上第一个哺乳动物是什么时候出现的?”的问题,RAG 可能会提供“哺乳动物”、“地球历史”、“哺乳动物进化”等文献作为上下文与输入连接,然后输入模型以生成输出文本。

根据 Facebook 的说法,RAG 利用了一种“后期融合”的形式来整合检索到的文档中的知识,这意味着它在聚合最终的预测分数之前对文档问题对进行答案预测。当它可以访问包含答案线索的文档时,如果答案不是逐字陈述的,RAG 的性能会进一步提高。在某些情况下,RAG 甚至会生成答案,而这些答案并不包含在检索到的任何文档中。

RAG 擅长知识密集型自然语言问题

Facebook 称,当对诸如包含来自 Google 搜索用户的问题的 NaturalQuestions 之类的开放域数据集进行基准测试时,RAG 显示了在找不到答案的情况下生成正确答案的诀窍。

RAG 还擅长于知识密集型的自然语言问题,Facebook 通过创建受 Jeopardy 启发的问题进行了探索。与其他同类模型相比,RAG 产生的问题更加具体、多样且更加真实。这也许是因为 RAG 能够利用从多个来源获得的不同信息综合出不同的答案的能力。

RAG 的研究经理 Sebastian Riedel 表示,虽然 RAG 在 Facebook 的生产中没有使用,但其背后的团队正在积极迭代以减少潜在的偏见。他们将培训数据集中的文档限制在 Wikipedia 上,他们认为 Wikipedia 比当今许多语言模型的网络爬虫更安全。

RAG 的最大优势:灵活性

研究人员正在探索 RAG 的一个版本,这个版本可以最大程度地降低剩余风险,以便达到一贯的输出安全的程度。他们正在研究如何扩展 RAG,使其多通道化,并使其同时使用多个知识源进行操作。

Sebastian Riedel 说:“RAG 的真正优势在于它的灵活性,要改变一个预先训练过的语言模型所知道的东西,需要用新的文档对整个模型进行再训练。通过 RAG,我们可以通过交换用于知识检索的文档来控制它所知道的内容。我们在带有 RAG 的 NaturalQuestions,CuratedTrec 和 WebQuestions 上获得了非常出色的结果,表明可以用生成的而不是提取的读取器来实现最新的机器读取性能。”

Facebook 认为 RAG 具有广阔的潜力,它断言这将使研究人员能够仅用几行代码就可以为知识密集型任务部署解决方案。

Facebook 方面称,“RAG 允许 NLP 模型绕过再培训步骤,访问和提取最新的信息,然后使用生成器输出结果。我们预见未来对知识密集型任务的研究潜力,这些任务就像今天的情绪分析这样的轻量级知识任务一样简单易懂。”

技术编辑:芒果果丨发自 思否编辑部

公众号:SegmentFault

本文如果对你有帮助,请点赞收藏《Facebook 开源自然语言处理模型 可检索文档回答问题》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
有凭有据!先查资料 再答题 Facebook开源检索增强型语言模型 最擅长处理知识密集型任务

有凭有据!先查资料 再答题 Facebook开源检索增强型语言模型 最擅长处理知识密集型任务

...入结果直接传递给生成器,而是使用输入来检索一组相关文档,这也让RAG在性能比传统Seq2Seq模型有所提升。举个例子,在以下问题编码器中,输入“第一个哺乳动物是什么时候出现在地球上?”RAG会先从Wikipedia之类的数据库中...

2011-06-25 #经典句子

Facebook 开源工具包 LASER 支持 93 种语言

Facebook 开源工具包 LASER 支持 93 种语言

...更高的零样本跨语言自然语言推理准确率。它还在跨语言文档分类(MLDoc 语料库)方面获得了很好的结果。我们的句子嵌入在并行语料库挖掘方面也有很好的表现,在 BUCC(BUCC 是在 2018 年举行的一个构建和使用可比较语料库研...

2022-12-28 #经典句子

Facebook开源NLP迁移学习工具包 支持93种语言 性能最优

Facebook开源NLP迁移学习工具包 支持93种语言 性能最优

...作者:Holger Schwenk 编辑:肖琴【新智元导读】Facebook今天开源了增强版的NLP工具包LASER,支持93种语言,用28种不同的字母表编写。这成为第一个成功探索大型多语言句子表示的开源NLP工具。Facebook今天宣布扩展并增强了NLP工具包L...

2022-12-28 #经典句子

百度NLP | Familia:开源的中文主题模型应用工具包

百度NLP | Familia:开源的中文主题模型应用工具包

...面的数值表示该词在主题中的重要程度。由于 LDA 中采用文档内的 Bag-of-Words 假设,词与词之间的位置信息是被忽略的。在很多工业界场景中,我们往往需要限制某些位置相近的词产生自同一主题,通过 SentenceLDA 能很好地满足这...

2011-07-08 #经典句子

百度CTO王海峰最新演讲:理解语言 拥有智能 改变世界

百度CTO王海峰最新演讲:理解语言 拥有智能 改变世界

...,涉及到怎么跟语音、视觉的模块进行配合,实现一个多文档、多模态的语义理解。首先是阅读理解,让机器像人一样理解文本的内容。如果是人类,也是要来学习,我们读了一篇文章以后,理解了其中的内容,可以回答跟内容...

2023-11-01 #经典句子

百度CTO王海峰:百度自然语言处理技术飞速发展 赋能产业智能化

百度CTO王海峰:百度自然语言处理技术飞速发展 赋能产业智能化

...,涉及到怎么跟语音、视觉的模块进行配合,实现一个多文档、多模态的语义理解。首先是阅读理解,让机器像人一样理解文本的内容。如果是人类,也是要来学习,我们读了一篇文章以后,理解了其中的内容,可以回答跟内容...

2023-06-19 #经典句子

百度NLP主任架构师全面讲解百度语义表示技术及最新进展

百度NLP主任架构师全面讲解百度语义表示技术及最新进展

...究了Topic Model的语义表示技术,这种方法的核心思路是把文档词汇空间降维,将文档映射到浅层主题的分布上,而这种主题空间要比词的分布空间更小一些。通过降维的方法,可以得到每个词到主题的映射,通过这种主题的方法...

2023-12-23 #经典句子

百度飞桨又开源中文NLP开源工具箱:主打工业应用 支持6大任务

百度飞桨又开源中文NLP开源工具箱:主打工业应用 支持6大任务

...解(MRC)任务中,会给定一个问题(Q)以及一个或多个段落(P)/文档(D),然后利用机器在给定的段落中寻找正确答案(A),即Q + P or D => A. 机器阅读理解(MRC)是自然语言处理(NLP)中的关键任务之一,需要机器对语言有深刻的理解才能找到正...

2023-10-01 #经典句子