云端算力竞赛新突破：创纪录英伟达GB200参与MLPerf测试，性能提升超两倍

一场关于算力基础设施的较量正在云端悄然展开——人工智能（AI）基础设施供应商CoreWeave联手英伟达和IBM，刚刚交出了MLPerf史上最大规模的MLPerf Training v5.0测试结果，也是动用最多英伟达GB200超级芯片的MLPerf基准测试成绩。

美东时间6月4日周三，CoreWeave公布，此次联手英伟达和IBM的测试中，使用了2496块GB200 Grace Blackwell超级芯片，运行CoreWeave的AI优化云平台，凸显了CoreWeave云平台的规模之大，以及CoreWeave对当今严苛AI工作负载的充分准备。

CoreWeave称，此次测试中构成了迄今为止在MLPerf基准测试中规模最大的英伟达GB200 NVL72集群，这一规模比之前唯一来自云服务商的提交结果大34倍。

而且，在基准测试套件中规模最大、最复杂的Llama 3.1 405B基础模型训练中，上述GB200 NVL72集群仅用27.3分钟就完成了整个流程。相比其他参与测试者提交的相似规模集群测试结果，CoreWeave的英伟达GB200集群将训练性能提升超过两倍。

CoreWeave认为，这一结果凸显了GB200 NVL72架构带来的显著性能飞跃，也体现了，在提供一致且一流的AI工作负载性能方面，CoreWeave基础架构拥有强大实力。

CoreWeave的首席技术官兼联合创始人Peter Salanki表示："AI实验室和企业选择CoreWeave，是因为我们提供专门构建的云平台，具备他们工作负载所需的规模、性能和可靠性。"

MLPerf Training v5.0测试采用训练套件中最大模型行业参与度创新高

MLPerf Inference基准套件于2019 年首次推出，此后不断更新新的模型和场景，以此确保它仍然是衡量 AI 计算平台推理性能的有用工具。MLPerf Inference v5.0是目前最新的版本，可测量一系列不同模型和用例的推理吞吐量。

本周三，开放式产业联盟MLCommons发布了MLPerf Training v5.0基准测试结果，展现了AI领域的快速增长和演进。本轮测试包含创纪录的提交总数，大部分基准测试的提交数量相比v4.1版本都有所增加。

MLCommons称，MLPerf Training v5.0此次引入了新的Llama 3.1 405B大语言模型（LLM）预训练基准测试，它是训练基准测试套件中引入的最大模型，替代了之前版本中基于GPT3的基准。

MLCommons称，虽然刚刚纳入测试，但Llama 3.1 405B基准测试收到的提交数量已经超过了前几轮基于GPT3的测试，显示出大规模训练的受欢迎程度和重要性。

MLCommons披露，本轮MLPerf Training v5.0测试收到来自20个提交机构的201项性能测试结果，创纪录的超过200项提交结果显示，行业参与度创新高。延续自上一轮的绝大部分单项基准测试的提交数量都有所增加。

按英文名称头字母顺序排序，本轮MLPerf Training v5.0测试的参与机构包括AMD、华硕、思科、CoreWeave、戴尔科技、GigaComputing、谷歌云、惠与、IBM、Krai、Lambda、联想、MangoBoost、Nebius、英伟达、甲骨文、云达科技、SCITIX、超微电脑和TinyCorp。

MLCommons MLPerf的负责人David Kanter称，特别欢迎首次提交MLPerf 训练测试的 AMD、IBM、MangoBoost、Nebius 和 SCITIX。他还强调联想在本轮测试中提交的首组功耗基准测试，因为AI训练系统的能效问题日益严峻，亟需精准测量。

相关文章