第一句子大全,网罗天下好句子,好文章尽在本站!

微软与Nvidia发布全球最大含5 300亿个参数的AI语言模型

时间:2024-01-09

近年来自然语言处理领域,得利于Transformer语言模型的大规模运算、大资料集,和高端的训练算法,使得语言模型能够具有大量参数,进行更丰富、细致的语言

友情提示:本文共有 1344 个字,阅读大概需要 3 分钟。

微软和Nvidia合作研究语言模型,发布了目前最大的单体Transformer语言模型MT-NLG(Turing Natural Language Generation Model),具有5,300亿个参数,作为Turing NLG 17B和Megatron-LM的后继者,MT-NLG的规模是目前这类最大模型的3倍,能在完成预测、阅读理解、常识推理、自然语言推理和词义消歧等自然语言任务,提供极高的准确性。

近年来自然语言处理领域,得利于Transformer语言模型的大规模运算、大资料集,和高端的训练算法,使得语言模型能够具有大量参数,进行更丰富、细致的语言理解,因此语言模型也能更有效地作为零样本或是少样本学习器,应用在更广泛的自然语言任务中。

现在训练大型语言模型,仍具有不小的挑战性,研究人员解释,即便是最大的GPU内存,也难以放下这么大量的参数,而且如果不对算法、软件和硬件堆栈进行优化,过长的运算时间将会使得训练模型变得不切实际。

微软和Nvidia密切合作,应用GPU和分布式学习软件堆栈,实现超高效率模型训练,并且使用数千亿的令牌,构建高品质自然语言训练语料库,共同开发训练配置,以优化效率和稳定性。

模型训练使用基于NvidiaDGX SuperPOD的Selene超级计算机,以混合精度训练完成,该超级计算机搭载560台DGX A100服务器,这些服务器使用HDR InfiniBand以全胖树拓扑连接,每台DGX A100拥有8颗A100 80GB Tensor Core GPU,之间以NVLink和NVSwitch相互联接。

研究人员解释,只有这种能够在数千个GPU间实现平行性的架构,才能在合理的时间,训练具有数千亿个参数的模型。但就现有的平行策略,包括资料、工作管线和张量切片,还是无法用于训练这种模型。

因此研究人员结合Megatron-LM和PyTorch深度学习优化函数库DeepSpeed,创建了高效且可扩展的3D平行系统,将资料、工作管线和基于张量切片的平行性结合在一起,来克服训练大型语言模型所遭遇的困难。

Megatron-LM的张量切片能够扩展节点内的模型,并借由DeepSpeed工作管线的平行性,来跨节点扩展模型。就5,300亿个参数的MT-NLG来说,每个模型副本需横跨280个A100 GPU,具有8路张量切片和跨节点的35路工作管线并行性,并且通过DeepSpeed的资料平行性,扩展模型至数千个GPU。

MT-NLG在多种类型的自然语言任务,都达到了目前最佳的结果,以少样本预测来说,比较或是寻找两句子间的关系,通常是对语言模型较具有挑战性的任务,但是MT-NLG能够使用更少的令牌训练,也就是说,更大型的模型训练速度更快。

除了一般自然语言任务都已经难不倒MT-NLG,MT-NLG还具有基本的数学运算能力,研究人员提到,虽然离真正具有算术能力还有一段距离,但该模型展现了超过记忆算数的能力。

另外,研究人员还在HANS资料集测试MT-NLG,借由向模型提供包含简单句法结构的句子作为问题,并且提示模型给予答案,过去这样的用例,即便结构相当简单,但是自然语言推理模型仍会对于这类输入感到苦手,但是MT-NLG在不需要微调的情况下,就能表现良好。

本文如果对你有帮助,请点赞收藏《微软与Nvidia发布全球最大含5 300亿个参数的AI语言模型》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(7)
  1. 人间精灵2024-01-19 01:57人间精灵[河北省网友]203.32.140.180
    微软和Nvidia的合作再次展现了他们在人工智能领域的领先地位,真是令人钦佩!
    顶0踩0
  2. 浅斟低唱。2024-01-17 16:09浅斟低唱。[河南省网友]220.101.204.68
    希望这个AI语言模型能够帮助解决更多实际问题,为人类带来更多便利。
    顶6踩0
  3. 冰倾霜曼2024-01-16 06:20冰倾霜曼[上海市网友]203.128.109.228
    这个AI语言模型的参数数量简直惊人!难以想象它在自然语言处理方面的应用。
    顶0踩0
  4. Just雯雯2024-01-14 20:31Just雯雯[天津市网友]103.242.128.44
    看来人工智能的发展越来越快,真是让人惊叹不已。
    顶5踩0
  5. 三峡扁舟2024-01-13 10:42三峡扁舟[河北省网友]203.29.217.33
    拭目以待,这将会是一个里程碑式的突破,希望能给世界带来更多的创新!
    顶0踩0
  6. 星◆つ◇永恒2024-01-12 00:53星◆つ◇永恒[宁夏网友]103.39.229.161
    这个AI语言模型的规模太可怕了,想象它的潜力让人激动不已!
    顶7踩0
  7. 沙缘2024-01-10 15:04沙缘[湖南省网友]203.95.240.69
    太厉害了!微软和Nvidia真是技术大牛!
    顶0踩0
相关阅读
NVIDIA对话式AI新进展:让情感合成语音为视频配音

NVIDIA对话式AI新进展:让情感合成语音为视频配音

...已经被应用到I AM AI系列视频中,为这个介绍重塑各行业全球AI创新者的系列视频制作了生动的解说。不久之前,这些视频还都是由人类配音的。以前的语音合成模型对合成声音节奏和音调的控制十分有限,因此AI配音无法唤起观...

2023-09-24 #经典句子

鸿蒙为自主创新开了好头 掌握话语权靠实力说话

鸿蒙为自主创新开了好头 掌握话语权靠实力说话

...互联网操作系统一直是美国在垄断。在PC操作系统时代,微软视窗操作系统一直霸占市场。在手机客户端时代,苹果、谷歌的安卓系统则牢牢控制大局。中国也曾斥巨资组织精干专家队伍攻关开发,但结果并不尽如人意。因此,...

2023-06-29 #经典句子

一文了解全球语音技术市场格局

一文了解全球语音技术市场格局

...分别为:Nuance(31.60%)、谷歌(28.40%)、苹果(15.40%)、微软(8.10%)和科大讯飞(4.50%)等。值得注意的是科大讯飞已经超越老牌计算机巨头IBM位列全球第五位。全球智能语音市场规模及占有率2.国内:中国拥有庞大的用户群基...

2015-05-22 #经典句子

OPPO开启人工语音新玩法 试试一句话召唤微软小冰?

OPPO开启人工语音新玩法 试试一句话召唤微软小冰?

...助手能够在用户日常生活中起到很好的辅助作用。近日,微软在北京举行第七代小冰发布会,会上除了介绍新一代小冰在人工智能方面的提升外,还宣布了OPPO平台设备即将开启召唤小冰功能,这就意味着未来OPPO Breeno即可唤醒微...

2012-01-02 #经典句子

亡羊补牢未为晚?甲骨文与亚马逊 微软 谷歌的“云图之役”

亡羊补牢未为晚?甲骨文与亚马逊 微软 谷歌的“云图之役”

...形势下的落寞。在云计算市场中,亚马逊公司一马当先,微软、谷歌也在穷追猛赶。而1977年成立、早已走过了“不惑之年”的甲骨文,却只能想方设法地拼命追。今年2月3日,甲骨文公司表示,已在五个国家增加了新的云计算数...

2019-11-04 #经典句子

微软亚洲互联网工程院:大规模语言模型的技术趋势和落地实践

微软亚洲互联网工程院:大规模语言模型的技术趋势和落地实践

...参数达10 亿量级,后面就越来越像军备竞赛: 2020年3月,微软推出了图灵模型,参数量达到了170亿;三个月后的GPT3又把参数量翻10倍,达到1780亿;之后,谷歌的Switch Transformer达到了万亿参数。在中国,华为盘古达到了1000亿、鹏...

2023-10-19 #经典句子

买特斯拉不能用加密货币? 埃隆·马斯克一句话 比特币急挫15%

买特斯拉不能用加密货币? 埃隆·马斯克一句话 比特币急挫15%

...比特币,并将很快接受比特币作为汽车支付的一种形式。微软联合创始人比尔·盖茨已经在很多场合多次说过比特币挖矿对环境的负面影响。盖茨说,比特币每笔交易的用电量比人类已知的任何其他方式都要多,这不是什么好事...

2014-04-08 #经典句子

创新天才马斯克这句话 道出了拼职场“立于不败之地”的根本法则

创新天才马斯克这句话 道出了拼职场“立于不败之地”的根本法则

...的年轻人,更注重手机的用户体验和拓展。诺基亚选择与微软合作,微软的手机系统几乎是按照电脑系统做的,无论是打开网页还是程序都相当繁琐,用了微软系统的诺基亚,缺少了很好的用户体验,自然被更多的消费者抛弃。...

2023-06-29 #经典句子