摩根大通专家访谈:AI数据中心“产能过剩”了吗?训练和推理基建如何部署?

发布时间:2025-06-19 10:02:24

本文作者:小古

本文作者:龙玥

来源:硬AI

近期,摩根大通与Scale AI数据科学家、Meta前高级数据科学家Sri Kanajan举行电话会议,深入探讨超大规模AI数据中心架构趋势。

Kanajan认为,AI基础设施部署仍处于早期阶段,对产能过剩的担忧有限。算法进步正降低训练算力消耗,基础设施通过“训练转推理”实现高效循环利用,训练集群在新一代GPU推出后被快速重新配置为推理工作负载。不过,电力和冷却问题仍是扩展下一代数据中心的主要瓶颈。

算法革新:算力需求从训练向推理迁移

据摩根大通报告,近期算法突破——如混合模型(含DeepSeek)、精度训练及策略性强化学习——显著降低了整体AI模型训练所需的计算量。这促使行业将优化重点转向推理环节。

Kanajan指出,当前,业界正积极采用模型蒸馏、压缩等技术精炼模型,力求在不大幅增加原始算力投入的前提下提升性能。

基础设施:动态部署,担忧产能过剩尚早

Kanajan认为,AI基础设施部署仍处早期阶段,特别是考虑到云服务商对其投资的长期回报预期,当前对产能过剩的担忧有限。

一个关键的动态利用策略是:当训练周期结束且新一代GPU上市时,现有训练集群会被快速重新配置,以支持推理工作负载。这种“训练转推理”的生命周期转换,确保了计算资源能高效适配从密集训练到均衡推理的需求变化。

在建设模式上,训练集群通常部署在专为优化离线GPU利用率而新建的隔离设施(“绿场”);而推理集群则倾向于通过扩建现有数据中心(“棕地”),尤其在大都市区,以支撑持续的在线AI服务。

能源挑战:电力冷却成最大瓶颈

电力和冷却挑战仍是扩展下一代数据中心的主要瓶颈。

在Kanajan看来,随着数据中心追求更高密度和承载更密集的计算负载,电力供应和散热问题已成为下一代数据中心规模扩展的普遍性瓶颈。

超大规模企业正积极探索创新方案,如在I型架构设计中采用液冷技术,甚至评估核能或替代能源以实现7x24小时稳定供电。同时,强大的电网互联策略对保障数据中心不间断运行至关重要。

Meta引领数据中心架构创新

在数据中心设计方面,摩根大通报告重点提及了Meta的创新做法。与传统超大规模厂商设计支持多租户云的H型布局不同,Meta选择了专门针对内部AI工作负载的I型校园式配置。

据报告,这种设计在功耗、冷却和机架密度方面实现了改进,这些因素对支持高性能训练集群至关重要。

在硬件策略上,Meta正在平衡品牌解决方案与白盒方案。网络方面,虽然Arista的强大能力在当前基础设施中仍然必不可少,但Meta正与Celestica等白盒供应商合作,长期目标是将其内部软件与白盒硬件集成。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

本文转载自互联网,如有侵权,联系删除。

相关文章