AI加速器揭秘：华为如何挑战英伟达的“AI霸主”地位？

引子

在上海世界人工智能大会（WAIC 2025）上，华为展示了 CloudMatrix 384 AI 计算系统，定位为英伟达 GB200 NVL72 的竞争对手。尽管华为的单颗芯片性能可能不如英伟达，但通过采用“超节点”架构，利用更多的昇腾 910C 芯片和创新的系统级设计，CloudMatrix 384 在性能上有望超越英伟达的产品。 (Reuters)

WAIC 2025

🏢 官方评价

华为云副总裁黄瑾在2025年5月16日的AI峰会上强调，CloudMatrix 384超节点具备六大技术创新：MoE亲和架构：支持大规模专家并行（EP320）和高效推理。以网强算：采用全对等互联架构，提升通信效率。以存强算：优化内存带宽，降低内存瓶颈。长稳可靠：确保系统稳定性和可靠性。朝推夜训：适应推理和训练的不同需求。即开即用：支持快速部署和使用。新浪财经

华为云副总裁黄瑾

核心技术架构

昇腾910C处理器：每颗处理器集成64个AI核心，采用7nm工艺，支持BF16混合精度计算，单颗性能达到780 TFLOPS。(CCTV) 全对等光互联架构：通过392 GB/s的卡间带宽，实现384颗处理器的高效协同，支持低延迟通信，突破传统架构的瓶颈。(量子位) 模块化部署：系统由16个机柜组成，其中12个为计算机柜，每柜配置32颗处理器，4个为交换机柜，采用扁平化拓扑结构，降低延迟。(PDF股票数据)

⚙️ 性能对比与优势

指标	CloudMatrix 384	英伟达GB200 NVL72
BF16算力	300 PFLOPS	180 PFLOPS
HBM总容量	48 TB	13.2 TB
内存带宽	1229 TB/s	584 TB/s
总功耗	559.4 kW	145 kW
每FLOP功耗	高于NVL72 2.3倍	–

这些创新旨在应对大模型训练和推理对算力的高需求，推动AI产业的新发展路径。华为 CloudMatrix 384 超节点自 2025 年 4 月发布以来，已引起业界广泛已关注，并获得多方评价。以下是各专业媒体和 AI 专业人士对其的综合评价：

📰 专业媒体及专业人士评价

CCTV: 尽管CloudMatrix 384的功耗较高，但其在算力和内存带宽方面的优势，使其在大规模AI训练和推理场景中表现出色。(business.cctv.com)

量子位：CloudMatrix 384 采用全对等互联架构，通过新型高速互联总线实现 384 张卡互联成为一个超级云服务器，最高提供 300 PFLOPS 的算力规模，比业界同类产品领先 67%。该系统在吞吐量、延迟和成本控制方面表现出色，适用于大规模 AI 模型的训练和推理。在 WAIC 2025 上，CloudMatrix 384 超节点被誉为“镇馆之宝”，其基于昇腾 910C 的超节点架构和全对等互联技术，打破了传统算力、延迟和成本之间的“不可能三角”，为 AI 应用提供了强大的算力支持。 (Qbitai, Qbitai)