摩根大通专家访谈：AI数据中心“产能过剩”了吗？训练和推理基建如何部署？

本文作者：龙玥

来源：硬AI

近期，摩根大通与Scale AI数据科学家、Meta前高级数据科学家Sri Kanajan举行电话会议，深入探讨超大规模AI数据中心架构趋势。

Kanajan认为，AI基础设施部署仍处于早期阶段，对产能过剩的担忧有限。算法进步正降低训练算力消耗，基础设施通过“训练转推理”实现高效循环利用，训练集群在新一代GPU推出后被快速重新配置为推理工作负载。不过，电力和冷却问题仍是扩展下一代数据中心的主要瓶颈。

算法革新：算力需求从训练向推理迁移

据摩根大通报告，近期算法突破——如混合模型（含DeepSeek）、精度训练及策略性强化学习——显著降低了整体AI模型训练所需的计算量。这促使行业将优化重点转向推理环节。

Kanajan指出，当前，业界正积极采用模型蒸馏、压缩等技术精炼模型，力求在不大幅增加原始算力投入的前提下提升性能。

基础设施：动态部署，担忧产能过剩尚早

Kanajan认为，AI基础设施部署仍处早期阶段，特别是考虑到云服务商对其投资的长期回报预期，当前对产能过剩的担忧有限。

一个关键的动态利用策略是：当训练周期结束且新一代GPU上市时，现有训练集群会被快速重新配置，以支持推理工作负载。这种“训练转推理”的生命周期转换，确保了计算资源能高效适配从密集训练到均衡推理的需求变化。

在建设模式上，训练集群通常部署在专为优化离线GPU利用率而新建的隔离设施（“绿场”）；而推理集群则倾向于通过扩建现有数据中心（“棕地”），尤其在大都市区，以支撑持续的在线AI服务。

能源挑战：电力冷却成最大瓶颈

电力和冷却挑战仍是扩展下一代数据中心的主要瓶颈。

在Kanajan看来，随着数据中心追求更高密度和承载更密集的计算负载，电力供应和散热问题已成为下一代数据中心规模扩展的普遍性瓶颈。

超大规模企业正积极探索创新方案，如在I型架构设计中采用液冷技术，甚至评估核能或替代能源以实现7x24小时稳定供电。同时，强大的电网互联策略对保障数据中心不间断运行至关重要。

Meta引领数据中心架构创新

在数据中心设计方面，摩根大通报告重点提及了Meta的创新做法。与传统超大规模厂商设计支持多租户云的H型布局不同，Meta选择了专门针对内部AI工作负载的I型校园式配置。

据报告，这种设计在功耗、冷却和机架密度方面实现了改进，这些因素对支持高性能训练集群至关重要。

在硬件策略上，Meta正在平衡品牌解决方案与白盒方案。网络方面，虽然Arista的强大能力在当前基础设施中仍然必不可少，但Meta正与Celestica等白盒供应商合作，长期目标是将其内部软件与白盒硬件集成。

本文来自微信公众号“硬AI”，关注更多AI前沿资讯请移步这里