引子
在上海世界人工智能大会(WAIC 2025)上,华为展示了 CloudMatrix 384 AI 计算系统,定位为英伟达 GB200 NVL72 的竞争对手。尽管华为的单颗芯片性能可能不如英伟达,但通过采用“超节点”架构,利用更多的昇腾 910C 芯片和创新的系统级设计,CloudMatrix 384 在性能上有望超越英伟达的产品。 (Reuters)

WAIC 2025
🏢 官方评价
华为云副总裁黄瑾在2025年5月16日的AI峰会上强调,CloudMatrix 384超节点具备六大技术创新:MoE亲和架构:支持大规模专家并行(EP320)和高效推理。 以网强算:采用全对等互联架构,提升通信效率。 以存强算:优化内存带宽,降低内存瓶颈。 长稳可靠:确保系统稳定性和可靠性。 朝推夜训:适应推理和训练的不同需求。 即开即用:支持快速部署和使用。新浪财经

华为云副总裁黄瑾
核心技术架构
昇腾910C处理器:每颗处理器集成64个AI核心,采用7nm工艺,支持BF16混合精度计算,单颗性能达到780 TFLOPS。(CCTV) 全对等光互联架构:通过392 GB/s的卡间带宽,实现384颗处理器的高效协同,支持低延迟通信,突破传统架构的瓶颈。(量子位) 模块化部署:系统由16个机柜组成,其中12个为计算机柜,每柜配置32颗处理器,4个为交换机柜,采用扁平化拓扑结构,降低延迟。(PDF股票数据)
⚙️ 性能对比与优势
|
指标 |
CloudMatrix 384 |
英伟达GB200 NVL72 |
|---|---|---|
|
BF16算力 |
300 PFLOPS |
180 PFLOPS |
|
HBM总容量 |
48 TB |
13.2 TB |
|
内存带宽 |
1229 TB/s |
584 TB/s |
|
总功耗 |
559.4 kW |
145 kW |
|
每FLOP功耗 |
高于NVL72 2.3倍 |
– |
这些创新旨在应对大模型训练和推理对算力的高需求,推动AI产业的新发展路径。华为 CloudMatrix 384 超节点自 2025 年 4 月发布以来,已引起业界广泛已关注,并获得多方评价。以下是各专业媒体和 AI 专业人士对其的综合评价:
📰 专业媒体及专业人士评价
CCTV: 尽管CloudMatrix 384的功耗较高,但其在算力和内存带宽方面的优势,使其在大规模AI训练和推理场景中表现出色。(business.cctv.com)
量子位:CloudMatrix 384 采用全对等互联架构,通过新型高速互联总线实现 384 张卡互联成为一个超级云服务器,最高提供 300 PFLOPS 的算力规模,比业界同类产品领先 67%。该系统在吞吐量、延迟和成本控制方面表现出色,适用于大规模 AI 模型的训练和推理。在 WAIC 2025 上,CloudMatrix 384 超节点被誉为“镇馆之宝”,其基于昇腾 910C 的超节点架构和全对等互联技术,打破了传统算力、延迟和成本之间的“不可能三角”,为 AI 应用提供了强大的算力支持。 (Qbitai, Qbitai)

CloudMatrix 384
<




















暂无评论内容