NeurIPS 2025最佳论文｜阿里巴巴Qwen「如何消除LLM注意力黑洞？」

这是一篇关于 NeurIPS 2025 最新录用论文《Gated Attention for Large Language Models》的深度技术解读。这篇论文由阿里巴巴 Qwen 团队主导，其核心发现已经被应用在下一代 Qwen 模型（Qwen3-Next）中。

核心看点：为什么在此刻，我们需要重新审视 Transformer 中最基础的组件？Qwen 团队发现，只需在注意力机制中增加一个简单的“门控（Gating）”，不仅能让训练更稳定、性能更强，还能意外地消除困扰业界已久的“注意力黑洞（Attention Sink）”现象。

01

想象一下，你正在阅读一本厚厚的百科全书。作为人类，你具备一种高级能力：略读。遇到无关紧要的废话，你的大脑会自动“关灯”，跳过不读。

但对于目前的 Transformer 大模型（LLM）来说，这却是件难事。

核心症结在于那个著名的 Softmax 函数。在标准的注意力机制（Attention）中，Softmax 强制要求所有的注意力分数加起来必须等于 1。

这就导致了一个尴尬的局面：即使当前的上下文完全是噪声或无关信息，模型也必须找个地方把这“1”的注意力分配出去。

这就好比一个强迫症患者，即使屋里没人，也必须盯着墙上的某个点看。

在 LLM 中，这个“墙上的点”一般是序列的第一个 Token（起始符）。由于无处安放的注意力被迫堆积在这里，导致第一个 Token 积累了巨大的、无实际意义的权重。学术界称之为**“注意力黑洞”（Attention Sink）**。

这不仅仅是个美学问题，它导致了模型内部出现 “巨量激活”（Massive Activation） ——某些神经元的数值异常巨大，极易引发训练不稳（Loss Spike），并限制了模型处理超长文本的能力。

Qwen 团队在 NeurIPS 2025 的这项研究，尝试用最简单的方式治好这个“强迫症”。

02

在提出解法前，论文精准地切中了现有标准注意力机制（Standard Softmax Attention）的两大病灶：

问题一：双层线性变换的“虚假繁荣”

在 Multi-Head Attention 的末端，一般是先做一个

NeurIPS 2025最佳论文｜阿里巴巴Qwen「如何消除LLM注意力黑洞？」

（Value）投影，计算完注意力后，再做一个

NeurIPS 2025最佳论文｜阿里巴巴Qwen「如何消除LLM注意力黑洞？」

（Output）投影。从数学上看，两个连续的线性层（Linear Layer）如果没有非线性激活函数隔开，它们本质上等价于一个低秩的线性变换。

通俗理解：你装了两道门，但两道门中间没有墙，也没有锁，它们实际上就是一条更长的走廊。模型在这里浪费了参数，却没能增加表达能力的“深度”。

问题二：输入无关的“强制关注”

如前所述，Softmax 的归一化特性（总和为 1）剥夺了模型“不想看”的权利。它缺乏一种机制来根据输入内容的含金量，动态地调节输出信号的强弱。模型被迫时刻保持“高增益”状态，噪声一旦进入，就会被放大。

03. Gated Attention (GA)

NeurIPS 2025最佳论文｜阿里巴巴Qwen「如何消除LLM注意力黑洞？」

Qwen 团队的解决方案极其符合“奥卡姆剃刀”原则——加一个门（Gate）。

他们在注意力机制的输出端，引入了一个由 Sigmoid 函数控制的门控单元。这个改动虽然微小，却同时解决了上述两个病灶。

核心公式

原有的注意力输出

NeurIPS 2025最佳论文｜阿里巴巴Qwen「如何消除LLM注意力黑洞？」

被修正为

NeurIPS 2025最佳论文｜阿里巴巴Qwen「如何消除LLM注意力黑洞？」

：

NeurIPS 2025最佳论文｜阿里巴巴Qwen「如何消除LLM注意力黑洞？」

其中：

是标准的 Scaled Dot-Product Attention (SDPA) 的输出。
是当前的隐状态输入。
是 Sigmoid 激活函数（输出范围 0 到 1）。
代表逐元素相乘（Element-wise multiplication）。

关键细节 (The Secret Sauce)

为了达到最佳效果，论文通过大量消融实验确定了以下“黄金配置”：

位置最重大：门控必须加在 SDPA 输出之后（即注意力计算完，但在最终 Output 投影之前）。这是本文被称为 “SDPA Output Gating” 的缘由。
细粒度控制：采用 Head-Specific（特定头）的门控。每个注意力头（Attention Head）都有自己独立的门，而不是所有头共享一个门。
输入依赖性：门控的开闭完全取决于当前的输入（Query-dependent）。这意味着模型可以根据“这句话重不重大”来决定“要不要让注意力流过”。

04. 实验与证据

Qwen 团队在 15B 参数的 MoE 模型和 1.7B 的 Dense 模型上，使用 3.5万亿（3.5T）Token 进行了验证。结果极具冲击力：

1. 彻底消灭“注意力黑洞” (The Sink Killer)

这是最令人兴奋的发现。在不加任何额外正则化手段的情况下，仅凭这个门控：

Baseline：在标准模型中，平均 46.7% 的注意力分数被莫名其妙地分配给了第一个 Token（黑洞）。
Gated Attention：引入门控后，这一比例暴跌至 4.8%。

这意味着模型终于学会了“无视”无关信息，而不是被迫盯着第一个词发呆。同时，模型内部的“巨量激活”现象也随之消失，数值分布变得更加健康。

2. 训练稳定性显著提升

在训练大模型时，Loss Spike（损失函数突然激增）是工程师的噩梦。

实验显示，使用了 Gated Attention 的模型，几乎完全消除了 Loss Spikes。
这带来了一个巨大的红利：工程师可以使用更大的学习率（Learning Rate） 和更大的 Batch Size 进行训练，直接提升了训练效率和模型收敛速度。

3. 长文本能力的自然涌现

得益于消除了“注意力黑洞”和噪声干扰，模型在长文本任务上表现更佳。

在 RULER Benchmark（长文本评测）中，将上下文扩展到 32k 甚至 128k 时，Gated Attention 模型的性能相比 Baseline 提升了 超过 10 个百分点。
它证明了：当模型不再依赖“黑洞”作为缓存区时，它的外推能力（Extrapolation）会显著增强。