在 11 分钟内训练 GPT-3,在 8 秒内训练 BERT。
这是英伟达给AI圈的一点“小震撼”。
在最新的训练基准测试中, H100集群横扫八项测试,全部刷新记录,并且在大型语言模型任务中表现尤其出色!
在大型语言模型任务中,H100集群的加速性能接近线性增长。
即随着集群处理器数量的增加,加速效果几乎逐年增加。
这意味着集群内 GPU 之间的通信非常高效。
此外,H100还完成了推荐算法、CV、医学图像识别、语音识别等任务,并且是唯一参与8项测试的集群。
在算力就是生产力的时代,大家都知道这一波成果意味着什么。
据悉,这套测试系统由和AI联合开发,托管在云厂商上。
单节点性能显着提升
这次v3.0新增了两个任务:
大语言模型(基于GPT-3)
推荐算法
这意味着测试任务包括更大的数据集和更高级的模型。
这是一个由3584个H100区块组成的超大型集群,刷新了上述记录。
其具体成果如下:
这是 在本轮测试中生产的最大集群。
事实上,他们还提交了包含768台H100的集群进行测试,并将其部署在云端和本地。
结果表明两者的性能几乎相同。
进一步证明,随着集群中显卡数量的增加,其性能提升可以接近线性增长。
(Pre-Eos为本地部署,+为云端部署)
此外,在本轮测试中,英伟达还刷新了单节点加速记录。
与6个月前MLPef v2.1的数据相比,单个DGX H100系统(由8个H100组成)在各种任务中平均加速17%。
与A100 Core GPU相比,最高可加速3.1倍(BERT任务)。
这些加速效果的实现主要得益于两个方面。
一方面,H100本身就足够强大。
基于最新架构,H100采用台积电4nm工艺,集成800亿个晶体管,相比A100增加了260亿个。
核心数量达到史无前例的16896个,是A100的2.5倍。
因为是面向AI计算,所百思特网以在H100中专门配备,使得大模型的训练速度可以直接6。
另一方面,它依赖于集群内的加速网络。
这里使用的是-2网络,这是该网络架构的第七代。
据官网介绍, 可以提供软件定义网络、网内计算、性能隔离、百思特网卓越的加速引擎、RDMA以及高达400Gb/s的安全加速。
据悉,共有90个系统参与了最新一轮测试,其中82个系统使用了 GPU,还有7个系统来自Intel。
Intel的加速系统使用64-96个Inte百思特网l Xeon 8380处理器和256-389个Intel加速器。
其高端系统完成LLM的培训时间为311分钟。
基于这份报告的测试结果,有分析人士表示,他感受到的最大震撼并不是H100本身的性能,而是在云端训练AI所取得的优异成绩。
那么这次与合作的云厂商是谁呢? 谁来联合开发系统AI?
计算集群将进一步扩大
先看一下。
成立于2017年,是一家大型云厂商,号称提供业界最快、最灵活的大规模GPU计算资源,提供渲染、机器学习等云解决方案,速度比大型公有云快35倍,成本降低 80%。
而且这家云供应商很受科技巨头的欢迎,英伟达之前就已经暗示过了。
5月获得2亿美元融资,主要来自对冲基金,B轮融资总额达4.21亿美元。
6月,有消息称微软已与微软签署AI算力协议,用于计算基础设施,未来几年的投资金额可能达数十亿美元。
英伟达还向该公司投资了 1 亿美元,4 月份对该公司的估值为 20 亿美元。
另一家人工智能初创公司 AI 由创始成员 ( ) 等人创立。
该公司成立于3月22日,已筹集2.25亿美元融资,估值超过12亿美元。
该公司开发了大型语言模型 Pi,在 H100 集群上进行训练。
据了解,Pi的定位是帮助人类更好地与计算机交互。 它可以通过聊天内容逐渐了解用户,然后提供更加个性化的答案,类似于个人智能管家的感觉。
AI最新博客称,基于目前的合作,他们计划在未来几个月进一步扩大底层计算基础设施的规模。
参考链接: