Distilling LLM Agent into Small Models-大模型Agent能力蒸馏

欢迎已关注v：数据分析能量站

《Distilling LLM Agent into Small Models with Retrieval and Code Tools》是一篇发表于 2025 年 5 月的论文（arXiv:2505.17612），由 KAIST 和 Krafton 等机构的研究者提出。该论文针对大型语言模型（LLM）推理成本高、难以部署的问题，提出了一种名为Agent Distillation的框架，旨在将 LLM 的复杂推理能力与工具使用行为（如检索和代码执行）迁移到参数规模更小的模型（SLMs）中，同时保持任务解决能力的高效性。

上述内容主要围绕“如何让小型语言模型（sLMs）具备大型语言模型（LLMs）级别的问题解决能力”展开，核心内容可总结解释如下：

1 Introduction

背景与问题

大型语言模型（LLMs）在复杂任务中表现卓越（如超越人类平均的大学数学水平），但高昂的推理成本限制了其广泛应用。因此，研究转向小型语言模型（sLMs），但关键挑战是：如何在小模型中保留LLMs的问题解决能力？

现有方案（推理蒸馏）通过让sLMs模仿LLMs的“思维链（CoT）推理轨迹”来学习能力，但存在明显缺陷：sLMs容易“幻觉”（生成错误信息），难以完成精确计算，且对未见过的新知识或计算场景泛化能力差（例如回答“2010年投资100美元苹果股票到2020年的价值”这类需要事实+计算的问题时表现不佳）。

提出的解决方案：智能体蒸馏（Agent Distillation）

为解决上述问题，研究者提出“智能体蒸馏”框架，核心是让sLMs模仿LLM智能体的“推理-行动-观察”完整轨迹，而非仅模仿静态推理。具体来说，sLMs通过学习LLM智能体如何“用工具（检索、代码）推理、行动、观察结果并调整方法”，从而具备“智能体行为”——无需死记硬背事实或计算过程，而是靠工具解决问题，以此提升泛化能力。

为增强蒸馏效果，补充了两种方法：

初始思维前缀（ a first-thought prefix）：无需额外微调，通过调整提示方式，让教师LLM智能体生成更高质量的轨迹，为sLMs提供更优的学习样本。

自洽动作生成（ self-consistent）：测试时让sLMs生成多条解决轨迹，通过代码解释器筛选出结果有效且一致的轨迹，提升鲁棒性。

效果与贡献

在8个基准任务（4个事实推理、4个数学推理，含域内和域外场景）中测试发现：

经智能体蒸馏的0.5B-7B参数sLMs，问题解决能力显著提升；

甚至0.5B、1.5B、3B的小模型，平均性能可媲美通过传统CoT蒸馏的更大模型（1.5B、3B、7B）。

核心贡献在于：提出了能让sLMs通过模仿智能体轨迹获得“工具使用能力”的框架，解决了传统蒸馏的幻觉和泛化问题，为实用小模型的研发提供了新思路。

2 相关工作总结与解读

2.1 语言模型的推理蒸馏

现有研究中，为了让小模型（sLMs）拥有大模型（LLMs）的推理能力，主流方法是“思维链（CoT）蒸馏”：让小模型模仿大模型的“一步步推理过程”（比如解数学题时的分步演算）。这种方法在数学推理等任务中效果不错，现在已成为小模型训练的常用手段。

为了让小模型更好地“举一反三”，近年的方法还加入了外部工具（比如查资料的“检索工具”、算题的“代码执行工具”），帮助小模型专注于“通用的推理思路”，而不是死记硬背知识或计算过程。

但这些现有方法有个局限：它们依赖的是“静态的示范”（比如大模型写好的固定推理步骤），小模型没法和环境互动（比如不能主动查新资料、不能试错调整）。

而本文的做法不同：我们让小模型学习“智能体行为”——在和环境的互动中（比如边查资料边推理、边用代码算边调整），学会“怎么思考”和“怎么用工具”，最终掌握“通过行动解决问题”的能力。

2.2 语言智能体与智能体推理

“智能体”简单说就是能自主设定目标，通过观察世界、采取行动来实现目标的实体。借助大模型，早期研究（比如ReAct）提出了“语言智能体”：用自然语言思考，通过观察和行动来完成各种任务（比如查信息、解复杂题）。

不过，现有研究大多聚焦于“让大模型（比如70亿参数以上）模仿更强的大模型（比如GPT-4）的行为”（比如用更强模型的推理轨迹来微调大模型）。

而本文的工作不同：我们要把大模型的“智能体能力”（比如主动用工具、边互动边解决问题）“压缩”到更小的模型里（比如0.5亿到30亿参数）。同时，我们还解决了两个关键问题：让大模型生成的“示范轨迹”质量更高，以及让小模型在实际测试时更稳定。这种在小模型上实现复杂智能体能力的研究，之前很少有人做，但对打造实用的小型智能体很重要。

核心区别总结

现有“推理蒸馏”：小模型学大模型的“静态推理步骤”，缺乏和环境的互动，依赖记忆；本文：小模型学大模型“边互动边用工具”的动态行为，学会“通过行动解决问题”。

现有“语言智能体研究”：主要让大模型模仿更强的大模型；本文：让小模型（极小参数）拥有大模型的智能体能力，填补了小模型实用化的研究空白。

3 预备知识

这部分主要介绍了两个基础概念：**知识蒸馏**和**推理蒸馏**，它们是后续“智能体蒸馏”的理论基础。用通俗的话解释如下：

1. 知识蒸馏（Knowledge Distillation）

简单说，知识蒸馏就是“让小模型学大模型”——把大型“教师模型”的能力，迁移到小型“学生模型”上。

现代语言模型（比如GPT类模型）的工作方式是“按顺序生成内容”：比如写一句话时，模型会根据前面已经写的词，一个接一个地预测下一个词（这就是“自回归Transformer架构”的核心）。

知识蒸馏的目标很直接：让学生模型在“预测下一个词”这件事上，尽可能模仿教师模型。具体来说，就是让学生模型对每个位置的预测（比如一句话中第n个词），和教师模型的预测越像越好。这里的“像”用一个指标来衡量（文中说的“散度度量”，可以简单理解为“差异值”），蒸馏的过程就是不断减小这个差异，让小模型越来越接近大模型的表现。

2. 推理蒸馏（Reasoning distillation）

在推理任务中（比如解数学题、回答需要逻辑推导的问题），关键不仅是得出答案，还要有“一步步推理的过程”（比如“先算第一步，再算第二步”）。但人工写出这些推理过程成本很高（比如请人标注每道题的解题步骤）。

于是，推理蒸馏的做法是：先用大型教师模型，通过“思维链（CoT）提示”（比如给模型说“请一步步思考”）让它自动生成推理过程（比如解题步骤），然后让学生模型去模仿这些推理过程。

具体目标是：让学生模型生成的推理步骤，尽可能和教师模型生成的步骤一致。通过这种方式，小模型就能学会像大模型一样“一步步思考”，而不用依赖昂贵的人工标注。

总结

知识蒸馏是“大模型教小模型”的通用方法，核心是让小模型模仿大模型的预测习惯；

推理蒸馏是它的“专项版”，专门针对需要“一步步推理”的任务，让小模型模仿大模型生成的推理步骤。

这两种方法都是后续“智能体蒸馏”的基础——只不过智能体蒸馏更进一步，让小模型模仿的不仅是“静态的推理步骤”，而是“和工具互动时的动态行为”。

4 智能体蒸馏（Agent Distillation）

4.1 智能体蒸馏的核心：让小模型学会“和环境互动”

之前的“推理蒸馏”只能让小模型模仿大模型的“静态推理步骤”，但没法让模型学会“和外部环境互动”（比如用工具查资料、用代码算题时根据反馈调整）。而“智能体蒸馏”的目标是：让小模型学会大模型作为“智能体”的完整行为——通过“思考-行动-观察”的循环解决任务。

具体来说，大模型（教师）在解决任务时，会生成一系列“轨迹”（trajectory），每个轨迹由多个循环组成：

思考（r）：比如“我需要算2010到2020年苹果股票的涨幅”；

行动（a）：比如“用代码调用股票数据接口，计算这10年的股价变化”；

观察（o）：比如工具返回的结果“2010年股价是X，2020年是Y，涨幅为Z”。

这些循环会重复多次（比如代码报错了就重新写代码，数据不够就再查一次），直到完成任务。智能体蒸馏就是让小模型（学生）模仿教师生成的这些“思考-行动”过程（观察结果来自环境，不用模仿），最终让小模型也能像大模型一样，通过和环境互动解决问题。

4.2 智能体蒸馏的目标公式

简单说，就是让小模型在每个步骤的“思考”和“行动”，尽可能和大模型的一致。比如大模型在第t步的思考是“需要查2015年的数据”，行动是“调用XX接口”，小模型也要学着在类似场景下生成一样的思考和行动。

4.3 面临的两个关键挑战

虽然思路合理，但把大模型的“智能体行为”蒸馏到小模型（尤其是0.5B-3B这种极小模型）时，会遇到两个问题：

挑战1：教师生成的轨迹质量可能不够好大模型在作为“智能体”时，初始思考可能不如“纯推理”时严谨。比如用“智能体模式”时，大模型可能直接说“我要算涨幅”（太简略），而用“推理模式”时会说“要先查每年股价，再算复利”（更结构化）。这种简略的初始思考会导致轨迹质量下降，小模型学不到好的示范。

挑战2：小模型容易生成“无效行动”小模型学完后，在实际用工具时（比如写代码），经常生成无法执行的代码（比如语法错误、调用不存在的函数），导致任务卡住。

4.4 解决挑战的两个方法

（1）初始思维前缀（first-thought prefix，简称ftp）：提升教师轨迹质量

既然大模型在“推理模式”下的初始思考更严谨，那就把这种严谨的初始思考“嫁接”到智能体的轨迹里。具体做法是：

先用“推理模式”（比如提示“一步步思考”）让大模型生成**第一步思考**（比如“要算股票涨幅，需先查2010年股价P1和2020年股价P2，再用(P2-P1)/P1计算”）；

把这个“第一步思考”作为“前缀”，让大模型以“智能体模式”继续生成后续的“思考-行动-观察”轨迹。

这样一来，教师生成的轨迹会更结构化，小模型能学到更优质的示范。

（2）自洽动作生成（self-consistent action generation，简称sag）：让小模型的行动更可靠

为了减少小模型生成“无效行动”（比如错误代码）的问题，我们让小模型在每个步骤多生成几个可能的“思考-行动”方案，然后筛选出最靠谱的：

比如解决一个计算问题时，小模型用多样化的方式生成4个“思考-行动”序列（比如4段不同的代码）；

用简单的代码解释器跑一遍，过滤掉执行出错的（比如1个代码报错，直接删掉）；

对剩下的有效结果，选“多数一致”的那个（比如剩下3个，其中2个算出相同结果，就选这两个中的一个）。

这样能大大提高小模型在实际测试时的稳定性。

总结

智能体蒸馏的核心是：让小模型模仿大模型“通过思考-行动-观察循环和环境互动”的能力，而不只是死记硬背知识。为了做好这件事，我们用“初始思维前缀”让教师的示范更优质，用“自洽动作生成”让小模型的行动更可靠。通过这两点，小模型就能像大模型一样，灵活用工具解决复杂任务了。

5 实验设置

本部分详细介绍了评估“智能体蒸馏”方法的具体实验安排，包括任务、模型、基线、训练和推理的细节，确保实验可复现且结果可信。

5.1 任务与数据集

我们在两类推理任务上评估方法：事实类推理和数学类推理，同时测试模型的域内（同类型任务）和域外（不同类型任务）泛化能力。

训练数据：使用1000个HotPotQA（事实推理数据集）和2000个MATH（数学推理数据集）的例子。

测试数据：测试集涵盖表1中的多个基准，为降低评估成本，每个测试集限制为500个例子（参考Wang等人的做法[66]）。

评估指标：

数学任务用“精确匹配”（答案完全正确才计分）；

事实推理任务用“LLM作为裁判”（借助gpt-4o-mini模型评判答案准确性[67]）。

5.2 模型选择

教师模型：采用Qwen2.5-32B-Instruct，这是一个320亿参数的指令微调模型。

学生模型：使用Qwen2.5-Instruct系列的四个规模：0.5B、1.5B、3B和7B参数。所有学生模型在蒸馏前都已完成指令微调[1]。

5.3 基线方法

我们对比两种主要的蒸馏范式：

（1）**思维链（CoT）蒸馏**[16]：迁移通过思维链提示生成的“静态推理轨迹”（仅推理步骤，无环境互动）。为公平对比外部知识的作用，我们还加入了“检索增强生成（RAG）”基线——在蒸馏和推理阶段都使用检索工具[19,28,29]。

（2）**本文提出的智能体蒸馏**：迁移“交互式的推理-行动-观察轨迹”。我们采用CodeAct[21,56]的框架，每个步骤包含“思考（Thought）、行动（如Python代码）、观察（Observation）”，并加入本文提出的两种方法：用初始思维前缀（ftp）生成的轨迹进行蒸馏，以及自洽动作生成（sag）。

5.4 训练与推理细节

为保证实验可复现，设置如下：

知识库与检索：用2018年版维基百科作为知识库（替代搜索引擎），供智能体和RAG使用；采用e5-base-v2[69]作为文档和查询的嵌入模型（参考Jin等人的方法[44]）。

轨迹生成：教师模型为每个问题生成1条轨迹，并过滤错误轨迹（无论CoT还是智能体轨迹）。

训练设置：

学生模型采用参数高效微调方法LoRA（秩为64）[70]；

所有模型微调2个epoch，批大小为8，学习率为2×10⁻⁴；

实验在4台NVIDIA A100 80GB GPU上进行。

推理设置：

解码方式为贪心解码；

所有智能体的最大步骤限制为5步；

自洽动作生成（sag）在主实验中设置为：采样8条轨迹（N=8），温度为0.4（鼓励多样性）。

更多细节见附录C。

6 实验结果

本部分展示了“智能体蒸馏”方法的实验结果，从整体表现、事实推理和数学推理三个维度，对比了其与传统思维链（CoT）蒸馏的效果。

6.1 整体结果

智能体蒸馏在所有规模的模型上均持续提升性能：

蒸馏前，除7B模型外，其他小模型（0.5B、1.5B、3B）仅靠提示很难生成有效的智能体行为（比如常生成错误或无法解析的代码）；而经过智能体蒸馏后，这些小模型的表现全面超过CoT蒸馏的模型，尤其在跨领域（域外）任务中优势明显，说明智能体蒸馏能显著提升小模型的泛化能力。

加入“初始思维前缀（ftp）”和“自洽动作生成（sag）”后，效果进一步提升。更关键的是，小模型通过智能体蒸馏能达到甚至超过更大模型的CoT蒸馏效果：

0.5B智能体模型 ≈ 1.5B CoT模型；

1.5B智能体模型 ≈ 3B CoT模型；

3B智能体模型 > 7B CoT模型；

7B智能体模型 > 32B CoT模型。

6.2 事实推理结果

检索工具能提升CoT蒸馏模型在事实推理任务上的表现，但由于CoT的“静态性”（只能用预先检索的文档），在需要动态调整信息使用的任务（比如数学推理）中反而可能拖后腿。

智能体蒸馏的模型即使面对RAG增强的CoT模型，仍能表现更优。原因是：智能体蒸馏让模型学会“主动检索并整合知识”，而不是依赖可能不足或与任务不匹配的“预先抓取的文档”。

6.3 数学推理结果

智能体蒸馏的模型在数学推理任务上整体表现强劲：

1.5B、3B、7B模型在AIME（美国数学邀请赛）和OlymMATH（奥林匹克数学）等复杂任务上提升明显，这得益于蒸馏过程中学会了用代码工具进行复杂计算。

在GSM-hard（难级算术题）任务上，智能体蒸馏提升了模型对罕见数字组合（如多位数运算）的推理稳健性。

唯一的例外是MATH500任务：智能体蒸馏模型表现略逊于CoT模型。这可能是因为Qwen2.5系列在大学数学上有大量指令微调，与CoT的推理模式更契合。但排除这一例外，智能体蒸馏在多数数学任务上仍有显著提升（详见第7节的详细分析）。

核心结论

智能体蒸馏能让小模型（0.5B-7B）在事实和数学推理任务上超越更大规模的CoT蒸馏模型，尤其擅长需要动态互动和工具使用的场景，为高效、实用的小型智能体提供了可行路径。

7 有趣的核心结论

代码专用模型对师生的影响——提升有限

前文（表2）主要使用通用指令微调模型作为教师和学生智能体。由于CodeAct[21]需要生成代码来执行动作，一个自然的问题是：在智能体蒸馏中，使用代码专用模型作为教师或学生，能否得到更好的智能体？

为此，我们用Qwen2.5-Coder-32B-Instruct作为教师，Qwen2.5-Coder-1.5B-Instruct作为学生进行了相同实验（表3）。结果显示：代码专用学生模型对性能影响不大；而代码专用教师模型在生成有效蒸馏轨迹上的影响更显著。但整体来看，平均提升幅度很小，说明代码知识并非学生的关键瓶颈。

初始思维前缀提升复杂推理问题的表现

表2中提到，在MATH500任务上，智能体蒸馏的表现（尤其3B模型）不如CoT蒸馏。为深入分析，我们按问题类别和难度对MATH500的表现进行了拆解。

有趣的是，单纯蒸馏会降低3B智能体在多数难度级别的表现；但使用“初始思维前缀（ftp）”生成的教师轨迹后，3B智能体在4级和5级难度问题上的表现明显提升（5级难度提升尤为显著）。这说明ftp生成的轨迹能帮助学生智能体在复杂推理任务上更稳健，这一趋势在高难度AIME基准测试中也能观察到（表2）。

不过，在某些类别（如预科微积分）中，性能反而下降。我们分析，这是因为这类问题更依赖分析性推理（如三角函数性质应用），而非代码计算，因此与智能体的工具使用模式匹配度较低（详见附录D）。

自洽性提升CoT表现，但带SAG的智能体仍更优

自洽动作生成（sag）通过过滤无效代码、保留与观察一致的动作，提升了小智能体的表现。类似地，自洽性方法[65]也可用于CoT推理（测试时对多个样本进行多数投票），无需外部验证器即可提升性能。一个自然的问题是：在相同计算成本下，带自洽性的CoT是否能超越带sag的智能体？

实验显示（图5）：在CoT本身表现优于sag智能体的MATH基准上，自洽性进一步提升了CoT蒸馏模型的性能；但在更难的AIME基准上，带sag的小智能体在相同生成成本下仍优于CoT模型。此外，在HotpotQA、MuSiQue等事实推理任务中，自洽性仅带来微小提升，说明其在这类场景中作用有限。

智能体需要生成更多token吗？

一个疑问是：蒸馏后的智能体是否比CoT蒸馏模型生成更多token，从而影响小模型的效率和实用性？我们分析了3B蒸馏模型在两个事实推理和两个数学推理任务上的token生成量。

结果（图6）显示，两种方法的总token生成量在两个领域均无显著差异：

事实推理中，智能体因多步检索（多次调用工具收集准确信息）生成更多token；

数学推理中，智能体通过将重复计算（如用for循环）交给代码执行，生成的token反而比CoT模型更少。

SAG显著减少无效代码动作

图7显示了自洽动作生成（sag）的效果：sag减少了代码解析错误和执行错误的生成。这表明，蒸馏后的小智能体具备生成有效代码的能力，但模型越小，生成有效代码的概率越低。

大模型更多使用检索工具，FTP减少检索次数

我们分析了不同规模模型在事实推理基准上使用检索工具的频率（图8）：

大模型比小模型更频繁使用检索，可能因为它们从教师轨迹中蒸馏得更充分，更擅长构建查询和判断何时需要检索；

小模型可能因判断能力弱或容量有限而“少用”检索（例如，过度依赖初始检索到的文档，即使信息不足也不再重新检索）。

有趣的是，初始思维前缀（ftp）减少了检索次数。表2显示，ftp提升了Bamboogle任务的表现，但在HotpotQA和MuSiQue中效果不一，可能与检索减少有关。一种解释是：ftp促使智能体在思考过程中生成事实性陈述，导致小模型更依赖内部知识而非检索，从而增加幻觉风险。这些发现表明，教师轨迹的构成对学生模型学习有效工具使用（尤其解决复杂任务）至关重要（详见附录D）。

这部分主要讲了当前方法存在的不足，以及未来可以改进的方向，用通俗的话解释如下：

8 未来规划

一、局限性（当前方法的短板）

初始思维前缀（ftp）虽然有用，但偶尔会帮倒忙虽然ftp总体上能让大模型生成更好的轨迹（让小模型学得更好），但有时候反而会拖后腿。比如，小模型学了ftp生成的轨迹后，可能更倾向于“自己编事实”（依赖自己的记忆），而不是主动用工具查资料——这会导致错误（比如记错信息）。这说明，现在生成的“教师轨迹”还不够贴合小模型的能力（小模型记忆力差，本应更依赖工具），需要进一步改进轨迹的生成方式。

智能体蒸馏没直接提升小模型的“核心推理能力”现在的方法主要让小模型学会了“用工具解决问题”（比如查资料、写代码），但并没有真正提升它本身的推理能力（比如逻辑分析、抽象思考的能力）。如果遇到不需要工具但需要复杂推理的任务，小模型可能还是不行。

二、未来工作（如何解决这些问题）

改进“教师轨迹”的生成策略针对ftp的问题，未来需要设计更适合小模型的轨迹——比如让轨迹更强调“什么时候必须用工具”“什么时候该停止依赖自己的记忆”，让小模型学的轨迹更贴合它“记忆力差、需要工具辅助”的特点。

利用sag的潜力，加入“过程奖励”自洽动作生成（sag）通过“多生成几个方案，选最优的”提升了小模型的稳定性，这说明测试时多花点计算量（生成更多样本）是有用的。未来可以更进一步：给模型的“思考过程”打分（比如用“过程级奖励模型”），鼓励它生成更合理的步骤（不只是看结果对不对，还要看过程是否靠谱）。

用强化学习提升小模型的核心推理能力现在的智能体蒸馏只是让小模型“学会了用工具”，但它本身的推理能力（比如解复杂逻辑题的能力）并没有本质提升。未来可以让小模型在“用工具解决任务的过程中”进行强化学习——比如，用工具时如果推理错了就“扣分”，推理对了就“加分”，通过这种奖惩机制，让它不仅会用工具，还能更会推理。

简单说，当前方法让小模型“学会了用工具干活”，但还不够灵活（偶尔依赖自己的短板），且“本身的脑子（核心推理）”没变强。未来的研究就是要让它“更会用工具（贴合自身能力）”“过程更靠谱（有奖励机制）”“脑子更聪明（提升核心推理）”。

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END