英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3

时间：2023-07-02 21:06:37　来源：网络整理　作者：bianji123

在 11 分钟内训练 GPT-3，在 8 秒内训练 BERT。

这是英伟达给AI圈的一点“小震撼”。

在最新的训练基准测试中， H100集群横扫八项测试，全部刷新记录，并且在大型语言模型任务中表现尤其出色！

在大型语言模型任务中，H100集群的加速性能接近线性增长。

即随着集群处理器数量的增加，加速效果几乎逐年增加。

这意味着集群内 GPU 之间的通信非常高效。

此外，H100还完成了推荐算法、CV、医学图像识别、语音识别等任务，并且是唯一参与8项测试的集群。

在算力就是生产力的时代，大家都知道这一波成果意味着什么。

据悉，这套测试系统由和AI联合开发，托管在云厂商上。

单节点性能显着提升

这次v3.0新增了两个任务：

大语言模型（基于GPT-3）

推荐算法

这意味着测试任务包括更大的数据集和更高级的模型。

这是一个由3584个H100区块组成的超大型集群，刷新了上述记录。

其具体成果如下：

这是在本轮测试中生产的最大集群。

事实上，他们还提交了包含768台H100的集群进行测试，并将其部署在云端和本地。

结果表明两者的性能几乎相同。

进一步证明，随着集群中显卡数量的增加，其性能提升可以接近线性增长。

（Pre-Eos为本地部署，+为云端部署）

此外，在本轮测试中，英伟达还刷新了单节点加速记录。

与6个月前MLPef v2.1的数据相比，单个DGX H100系统（由8个H100组成）在各种任务中平均加速17%。

与A100 Core GPU相比，最高可加速3.1倍（BERT任务）百思特网。

这些加速效果的实现主要得益于两个方面。

一方面，H100本身就足够强大。

基于最新架构，H100采用台积电4nm工艺，集成800亿个晶体管，相比A100增加了260亿个。

核心数量达到史无前例的16896个，是A100的2.5倍。

因为是面向AI计算，所以在H100中专门配备，使得大模型的训练速度可以直接6。

另一方面，它依赖于集群内的加速网络。

这里使用的是-2网络，这是该网络架构的第七百思特网代。

据官网介绍，可以提供软件定义网络、网内计算、性能隔离、卓越的加速引擎、RDMA以及高达400Gb/s的安全加速。

据悉，共有90个系统参与了最新一轮测试，其中82个系统使用了 GPU，还有7个系统来自Intel。

Intel的加速系统使用64-96个Intel Xeon 8380处理器和256-389个Intel加速器。

其高端系统完成LLM的培训时间为311分钟。

基于这份报告的测试结果，有分析人士表示，他感受到的最大震撼并不是H100本身的性能，而是在云端训练AI所取得的优异成绩。

那么这次与合作的云厂商是谁呢？谁来联合开发系统AI？

计算集群将进一步扩大

先看一下。

成立于2017年，是一家大型云厂商，号称提供业界最快、最灵活的大规模GPU计算资源，提供渲染、机器学习等云解决方案，速度比大型公有云快35倍，成本降低 80%。

而且这家云供应商很受科技巨头的欢迎，英伟达之前就已经暗示过了。

5月获得2亿美元融资，主要来自对冲基金，B轮融资总额达4.21亿美元。

6月，有消息称微软已与微软签署AI算力协议，用于计算基础设施，未来几年的投资金额可能达数十亿美元。

英伟达还向该公司投资了 1 亿美元，4 月份对该公司的估值为 20 亿美元。

另一家人工智能初创公司 AI 由创始成员 ( ) 等人创立。

该公司成立于3月22日，已筹集2.25亿美元融资，估值超过12亿美元。

该公司开发了大型语言模型 Pi，在 H100 集群上进行训练。

据了解，Pi的定位是帮助人类更好地与计算机交互。它可以通过聊天内容逐渐了解用户，然后提供更加个性化的答案，类似于个人智能管家的感百思特网觉。

AI最新博客称，基于目前的合作，他们计划在未来几个月进一步扩大底层计算基础设施的规模。

参考链接：

本文地址：https://www.best73.com/zdmzt/271979.html

特别声明：以上内容来源于编辑整理发布，如有不妥之处，请与我方联系删除处理。

相关资讯 查看更多

综合资讯

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3

英伟达 H100 给 AI 圈的一点“小小震撼”：11 分钟训完 GPT-3