AI加速器揭秘:华为如何挑战英伟达的“AI霸主”地位?

引子

在上海世界人工智能大会(WAIC 2025)上,华为展示了 CloudMatrix 384 AI 计算系统,定位为英伟达 GB200 NVL72 的竞争对手。尽管华为的单颗芯片性能可能不如英伟达,但通过采用“超节点”架构,利用更多的昇腾 910C 芯片和创新的系统级设计,CloudMatrix 384 在性能上有望超越英伟达的产品。 (Reuters)

WAIC 2025

🏢 官方评价

华为云副总裁黄瑾在2025年5月16日的AI峰会上强调,CloudMatrix 384超节点具备六大技术创新:MoE亲和架构:支持大规模专家并行(EP320)和高效推理。 以网强算:采用全对等互联架构,提升通信效率。 以存强算:优化内存带宽,降低内存瓶颈。 长稳可靠:确保系统稳定性和可靠性。 朝推夜训:适应推理和训练的不同需求。 即开即用:支持快速部署和使用。新浪财经

华为云副总裁黄瑾

核心技术架构

昇腾910C处理器:每颗处理器集成64个AI核心,采用7nm工艺,支持BF16混合精度计算,单颗性能达到780 TFLOPS。(CCTV) 全对等光互联架构:通过392 GB/s的卡间带宽,实现384颗处理器的高效协同,支持低延迟通信,突破传统架构的瓶颈。(量子位) 模块化部署:系统由16个机柜组成,其中12个为计算机柜,每柜配置32颗处理器,4个为交换机柜,采用扁平化拓扑结构,降低延迟。(PDF股票数据)

⚙️ 性能对比与优势

指标

CloudMatrix 384

英伟达GB200 NVL72

BF16算力

300 PFLOPS

180 PFLOPS

HBM总容量

48 TB

13.2 TB

内存带宽

1229 TB/s

584 TB/s

总功耗

559.4 kW

145 kW

每FLOP功耗

高于NVL72 2.3倍

这些创新旨在应对大模型训练和推理对算力的高需求,推动AI产业的新发展路径。华为 CloudMatrix 384 超节点自 2025 年 4 月发布以来,已引起业界广泛已关注,并获得多方评价。以下是各专业媒体和 AI 专业人士对其的综合评价:

📰 专业媒体及专业人士评价

CCTV: 尽管CloudMatrix 384的功耗较高,但其在算力和内存带宽方面的优势,使其在大规模AI训练和推理场景中表现出色。(business.cctv.com)

量子位:CloudMatrix 384 采用全对等互联架构,通过新型高速互联总线实现 384 张卡互联成为一个超级云服务器,最高提供 300 PFLOPS 的算力规模,比业界同类产品领先 67%。该系统在吞吐量、延迟和成本控制方面表现出色,适用于大规模 AI 模型的训练和推理。在 WAIC 2025 上,CloudMatrix 384 超节点被誉为“镇馆之宝”,其基于昇腾 910C 的超节点架构和全对等互联技术,打破了传统算力、延迟和成本之间的“不可能三角”,为 AI 应用提供了强大的算力支持。 (Qbitai, Qbitai)

CloudMatrix 384

<

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容