华为在2025年全联接大会上发布的”灵衢”(Unified Bus, 简称UB),是一套为应对AI大模型算力挑战而设计的超节点互联协议与体系架构。其核心目标是打破传统计算系统中总线与网络割裂的瓶颈,构建一个既能实现高速互联,又能支撑超大规模扩展的算力基础设施。

为了帮你快速了解”灵衢”协议的核心构成,下面这个表格汇总了其技术规范的主要内容:
| 规范名称 | 核心内容 | 主要作用 |
|---|---|---|
| 灵衢基础规范 2.0 | 定义系统组成、协议框架、编程模型 | 规定设备与系统的交互行为、互操作要求、资源管理机制 |
| 灵衢固件规范 2.0 | 规定设备固件的架构、功能模块及接口标准 | 确保固件在全生命周期内的可靠性、安全性和兼容性 |
| 灵衢使能操作系统参考设计 2.0 | 阐述操作系统中灵衢组件的架构与接口 | 支持应用、驱动及操作系统开发者进行适配与开发 |

🚀 灵衢的核心创新与架构突破
“灵衢”协议的先进性,主要体现在以下几个方面:
统一架构,融合性能与规模:“灵衢”致力于推倒总线与网络之间的墙。它通过统一的内存语义(Load/Store),让访问远程设备的内存像访问本地内存一样简单。这使得它在架构上能够将成千上万的处理器高效协同,形成一个真正的”数据中心级计算机”。
对等访问,打破传统瓶颈:与传统的以CPU为中心的”主从架构”不同,”灵衢”采用了对等架构。在这个架构中,所有设备(CPU、GPU、内存等)是平等的,任何设备都能直接访问其他设备的内存,无需对方CPU的介入。这显著降低了延迟,并消除了CPU可能成为系统瓶颈的问题。
资源池化,提升利用效率:基于对等架构,”灵衢”可以实现跨服务器的内存、存储和异构算力等资源的全面池化。这意味着一个应用可以灵活使用集群中任何地方的内存,各种计算资源也能根据需求动态组合,从而大幅提升资源利用率。
🌐 实际应用与生态发展
破解超节点互联难题:华为通过”灵衢”协议,引入高可靠机制并重新设计光器件与互联芯片,成功解决了超节点互联在长距离高可靠和大带宽低时延方面的两大技术难点。这使得其Atlas 950超节点能实现2.1微秒的超低时延和TB级的超大带宽。
支撑大规模集群:基于”灵衢”2.0的Atlas 950 SuperCluster集群,可由64个超节点互联,整合超过52万张昇腾950DT卡,提供524 EFLOPS的FP8算力。华为还计划在2027年第四季度推出百万卡规模的Atlas 960 SuperCluster。
灵活的组网方式:”灵衢”支持多种组网技术,包括高性能的UB-Mesh(在机柜内采用2D-FullMesh互联),以及UBoE(将UB协议承载在以太网上),帮助用户利用现有网络设施,降低成本。
构建开放生态:华为开放”灵衢”2.0技术规范,旨在吸引更多伙伴加入,构建开放的算力生态。一些国内芯片企业,如牛芯半导体,已开始研发兼容UB协议的IP核。同时,华为官方也确认,”灵衢”协议不依赖特定指令集,可以很好地被x86、RISC-V等架构集成和使用。
理解华为“灵衢”与RDMA的区别,确实需要仔细梳理。虽然搜索结果中关于“灵衢”的直接技术细节不多,但我可以基于你对“灵衢对等访问”的兴趣,结合RDMA的已知信息,为你整理一个核心对比。
下面的表格清晰地勾勒出了它们在设计目标和运作层级上的主要不同。
| 对比维度 | 华为“灵衢”对等访问 | RDMA (远程直接内存访问) |
|---|---|---|
| 核心定位 | 系统级互联协议与架构,目标是构建超大规模算力池 | 网络数据传输技术,专注于点对点的高效数据移动 |
| 核心机制 | 基于统一内存语义的对等访问,推倒总线与网络间的墙 | 绕过远程CPU,网卡直接读写对方指定内存区域 |
| 性能特点 | 追求超低时延(如2.1微秒)和TB级带宽,支撑集群协同 | 提供低延迟、高带宽的数据传输,内核旁路和零拷贝是其关键技术 |
| 资源感知 | 全局资源池化,可实现跨节点的内存、存储和算力统一调度 | 局部直接访问,需要应用程序预先明确指定要访问的远程内存地址 |
| 部署与生态 | 华为主导并开放的技术规范,与昇腾生态紧密绑定,支持多种组网 | 基于InfiniBand、RoCE、iWARP三大成熟协议,是行业开放标准 |
| 典型场景 | AI训练集群、超大规模高性能计算 | 高性能计算、AI/ML训练、存储(NVMe over Fabrics)、数据库 |
🔄 底层运作的差异
为了让你更直观地理解两者在数据路径上的根本区别,下面这张图揭示了它们不同的工作方式:
flowchart TD
subgraph A[“灵衢对等访问架构”]
A1[应用A] --> A2[“通过统一内存语义<br>直接访问全局地址空间”]
A2 --> A3[“灵衢互联协议<br>(超节点内/间)”]
A3 --> A4[“远程内存/存储/<b>算力</b>”]
end
subgraph B[“RDMA数据传输架构”]
B1[应用A] --> B2[“通过Verbs API<br>指定远程内存地址”]
B2 --> B3[“RDMA协议<br>(InfiniBand/RoCE/iWARP)”]
B3 --> B4[“远程内存<br>(需预先注册和授权)”]
end
从图中可以看出:
灵衢提供了一种系统级的抽象,它将整个集群的资源,包括内存、存储,甚至异构算力(如GPU、NPU),池化成一个全局的、可统一寻址的资源池。应用开发者可以像在单机内编程一样,去使用远程节点的资源,无需关心底层复杂的网络细节。RDMA则更像一个超级快递员。它非常高效,能直接把数据包从一个节点的用户内存,送到另一个节点的用户内存,不经过CPU,也不经过操作系统内核。但这需要应用程序明确地知道“快递”的准确目的地(即远程内存地址),并事先安排好接收工作。
💎 总结与如何选择
简单来说,RDMA是一项解决“如何更快地搬运数据”的技术,而“灵衢”是站在RDMA等底层技术之上,解决“如何让成千上万的处理器像一个整体那样协同工作”的系统架构。
如果你的核心痛点是单一任务或应用需要极致的点对点数据传输性能,例如构建一个分布式的内存数据库或全闪存存储池,那么RDMA是一个非常成熟且直接的选择。如果你的目标是构建一个数千卡甚至万卡级别的AI训练集群,需要将整个数据中心作为一台计算机来管理和调度,那么华为“灵衢” 所代表的超节点互联和系统级对等访问架构,更能从顶层设计上解决你的问题。
希望这个解释能帮助你澄清概念。如果你对“灵衢”在具体组网技术上的细节,或者对RDMA的不同协议(如RoCE和InfiniBand)如何选择更感兴趣,我们可以继续深入探讨。



















暂无评论内容