光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

作者 | 《新程序员》编辑部

出品 | CSDN（ID：CSDNnews）

无语言，不通用。
AI 本质上仍是超级工具，距离真正拥有自主意识、甚至威胁人类，还相当遥远。
中国团队无需复制西方平台，而应打造“只有中国能孕育、但能惠及全球”的平台。
通往更高智能的道路上，光靠 Transformer 是不够的。
Agent 的发展范式是正确的，但短期内面临现实挑战。保守估计仍需要大约五年的时间才能看到更成熟的实现。

10 月 16 日，一场聚焦 AI 技术思辨、趋势剖析与实战探索的 2025 全球机器学习技术大会在北京威斯汀酒店拉开帷幕。本次大会由 CSDN 与奇点智能研究院联合主办，来自全球超 50 位的顶尖学者、产业领军者与一线技术实践者齐聚一堂，共话智能时代的“下一步”。

今日的主会场上，奇点智能研究院院长、CSDN 高级副总裁李建忠，ISO 人工智能技术委员会专家、C++ 标准委员会机器学习组主席、YetiWare CTO Michael Wong，前 OpenAI 研究员、清华大学交叉信息院助理教授吴翼，OpenAI 资深研究科学家 Lukasz Kaiser ，就大语言模型、AI 平台建设和未来智能体系等议题展开了深入讨论，分享各自对技术演进与应用前景的洞察。

作为年度 AI 技术领域的重大盛会，大会现场座无虚席，讨论气氛热烈。在激烈的交流中，思想交锋不断，前沿理念逐渐浮现。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

AI 原生软件研发、AI 开源为关键词，两大报告重磅发布！

本次大会现场，奇点智能研究院院长、CSDN 高级副总裁李建忠和奇点智能研究院开源技术委员会主任、华东师范大学数据科学与工程学院教授王伟重磅发布了两份报告——《AI 原生软件研发成熟度模型 AISMM》和《2025 全球开源发展报告（中文版）》。

《AI 原生软件研发成熟度模型 AISMM》旨在为业界提供基于奇点智能研究院研究的 AI 原生软件研发成熟度演进路线图，AISMM 融合了奇点智能研究团队与业界的最佳实践经验，推动 AI 原生软件研发技术、流程与组织协同演进。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

AISMM 成熟度模型如下所示。横轴代表 AI 原生软件研发的五个阶段：

Level 1 – 辅助提效：引入模型与辅助工具；
Level 2 – 领域集成：引入特定领域知识工程；
Level 3 – 代理协同：引入 AI 的角色和任务能力，实现工程师与 Agent 的协作；
Level 4 – 自主代理：引入 AI 团队和组织能力，优化工具调用与流程；
Level 5 – 软件工厂：引入 AI 自适应创新与交付。

纵轴则对应 AI 原生软件研发的核心要素，覆盖基础设施、知识工程、流程工具、组织人才、安全治理。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

AISMM 成熟度模型遵循三大核心原则：

一是软件研发数字化——工程师所知道的，Agent 都应该知道；
二是上下文+记忆——工程师所见即 Agent 所见；
三是执行能力——Agent 不仅提供提议，更需要执行任务，调用各种工具完成实际操作。这也意味着工程师能执行的，Agent 都应该能够执行。

李建忠指出，当前 AI 原生软件研发的主要挑战并非模型能力本身，而在于上下文与记忆的获取及工具执行能力的限制。即便模型能力足够强，如果缺乏任务相关上下文或无法调用必要工具，仍无法完成实际任务。根据这一模型的标准以及奇点研究院观察，行业中多数企业已处于 Level 2 阶段，正向 Level 3 迈进，而部分企业仍停留在 Level 1。奇点智能的专家团队也和多家行业领头羊公司合作，协助客户打造 AI 原生的软件研发团队、流程和工具，合作客户涵盖包括汽车、通信、无人机、航天、企业软件等领域。

紧接着，由奇点智能研究院与联合国咨商开源创新专业委员会（UNOSI）牵头编制的《2025 全球开源发展报告（中文版）》在大会上正式发布。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

王伟对报告的核心内容和亮点进行了详细解读，并展示了部分重大研究成果：

全球开源生态呈现“美中引领、多国并进、区域特色鲜明”的多极化趋势。中国在活跃开发者、开源贡献、开发者影响力和研究论文四项指标中稳居全球第二，贡献增长全球第一，高影响力人才位列第三，但全球化程度仅第十，显示国际协作与话语权仍有提升空间。
在全球开源影响力排行榜中，中国已成为关键一极，企业数量和人才储备亮眼，多家本土企业和项目具备全球影响力，正从“参与者”向“贡献者”与“引领者”稳步跃升。
根据对全球开源技术全景洞察发现，人工智能与大模型呈“中美双极主导”格局，美国整体贡献领先，新项目平均星标近 3 万，创新活跃。大数据与数据工程领域，底层存储与计算类项目稳固基座。云基础设施受安全合规和运维效率需求驱动，Kubernetes 核心地位稳固，Ceph、Cilium 等组件协同发展。数据库领域，实时 OLAP 与搜索技术仍为核心，向量数据库与 AI 增强数据库加速渗透，形成“检索—生成—分析一体化”新范式。PyTorch 基金会生态中，vLLM 和 SGLang影响力快速攀升，大语言模型服务化成为热点。
在开源 AI 发展上，中美主导大模型研究。美国在高被引论文数量上领先，中国在论文总量和学术创新力指数上突出。研究主题聚焦深度学习架构、神经网络优化和大规模训练方法，同时跨模态融合与生成式 AI 快速崛起。专利布局显示，中国在产业化推进中领先，但美国在底层架构、训练框架与安全治理等高价值专利上占优势，体现其核心技术控制力。国产开源大模型如 Qwen、DeepSeek 的实践，为全球 AI 开放共享、社区协作和治理合作提供新思路。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

大模型技术思考与 AI 产业范式洞察

过去一年，大模型、智能体应用和产业范式都发生了显著变化。奇点智能研究院院长、CSDN 高级副总裁李建忠在《大模型技术思考与AI 产业洞察》主题演讲中，基于他在 AI 领域的最近的研究与实践，分享了对大模型技术发展趋势的深刻洞察。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

李建忠结合当前技术趋势，谈了大模型领域几个值得关注的核心洞察：

语言模型是通用智能的核心枢纽。李建忠认为，单靠视觉或强化学习难以实现通用智能。视觉模型经过多年发展，也主要停留在识别层面，即便是 ImageNet，也依赖大量的语言标注；强化学习虽在 AlphaGo、AlphaZero 等封闭系统中表现出色，却难以泛化。正是大语言模型让语言成为视觉智能和强化学习泛化的基础——“无语言，不通用”。
推理模型已成为大模型发展的主流，但仍处于早期阶段。李建忠指出，未来值得深入探索的关键方向包括提升强化学习的并行性、在小规模数据上进行强化学习训练，以及提升模型 Agent 训练的泛化能力等方面。
大模型正从“对话助手”演进为“智能体平台”。当前许多前沿模型已内置 Tool Use（工具使用）训练，通过强化学习和特定架构设计，使模型能在动态环境中通过试错学习决策策略，并结合外部工具完成复杂任务。
上下文与记忆制约大模型落地。李建忠强调，记忆并非越多越好，它需要适当丢弃（类似人类的遗忘机制）。未来，智能体会逐步演进将记忆内化为模型一部分，自己决定上下文，甚至自己做上下文工程。
智能体的交互模式从同步、被动的请求响应向异步、主动、协作的“伴随式交互”方向发展，其运行时间也显著延长。OpenAI 的 Codex 实验表明，智能体已能持续工作 7 小时；预计明年可能出现运行数天甚至数月，未来可达数年的长任务型智能体，用于科研、工程等复杂目标。
持续学习成为重大方向。李建忠认为，持续学习核心在于强化学习，通过 RL 和环境持续交互，需要关注“动态奖励机制”和“数据分布”。

在智能体产业层面，李建忠表明，我们如今进入了自然语言用户界面（LUI）时代，它是一种多维度、全方位重构人机交互的全新范式。在这一背景下，AI Agent 将引领人机交互的范式转换。氛围编程的兴起，契合了颠覆性创新的三大特征——大规模（Massive）、个性化（Personalized）与低成本（Low Cost）。它让非专业人员也能通过自然语言编程参与软件创造，开启了软件开发的“平权时代”。李建忠指出，正如 Web 前端编程催生了互联网的创新浪潮，氛围编程将成为 AI 时代的增量市场，创造 AI 时代的新形态软件——Agent 智能体。

展望未来，人机交互将进入多设备时代，不再依赖单一的手机或 PC。在这一生态中，智能体平台将发挥核心作用。一方面，它负责分发用户需求，通过 A2A 协议将任务传递给不同的智能体网络；另一方面，它还能通过 MCP 协议调用传统软件与服务，将智能体需求映射到现有的冯诺依曼架构的软件和服务上。李建忠指出，“智能体平台分发入口”将成为未来竞争的焦点。微信的护城河是“内容 + 社交关系”，苹果的护城河是“App + iCloud”，而大模型平台的护城河，则在于“Agent 网络与上下文记忆”。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

AI 平台的悖论：为什么大多数开源 AI 生态系统失败了，及如何构建一个繁荣的生态

在 AI 技术浪潮下，开源平台如雨后春笋般涌现，但真正能够形成全球影响力的却寥寥无几。基于此，ISO 人工智能技术委员会专家、C++ 标准委员会机器学习组主席、YetiWare CTO Michael Wong 围绕《AI 平台的悖论：为什么大多数开源 AI 生态系统失败了，及如何构建一个繁荣的生态》展开演讲，为中国开发者提供了深刻洞察和实操提议。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

纵观 AI 平台的发展历史，“失败者名单”中不乏巨头身影：微软 CNTK、英特尔 Nervana、深度学习先驱 Theano 等，均因技术过硬、资金充足曾被寄予厚望，最终却沦为“AI 基础设施墓地”中的一员——这些案例共同指向一个问题：为何技术优势无法转化为生态胜势？

答案就藏在“平台悖论”的核心逻辑中。Michael Wong 指出，工程师群体普遍信奉“性能至上”，将峰值算力、功能数量、基准测试分数视为核心竞争力；但在开源生态中，这些仅能算作“入场券”。通过分析数十个平台案例，Michael Wong 提炼出了平台成功的三大核心支柱：技术差异化、社区培养、战略定位。他强调，这三者是乘法关系，而非简单相加：任何一项缺失，平台即失败，仅靠一两个支柱的优势远远不够。

技术差异化。关键在于“解决开发者的真痛点”，而非追求参数最优。开发者真正在意的，是从“想法到落地”的效率：能否用 5 分钟完成入门操作？遇到问题时错误提示是否清晰？文档是否能提供精准指导？Hugging Face 的崛起便印证了这一逻辑——其模型性能并非顶尖，但凭借“交互式教程 + 多语言文档 + 清晰 API”，成为全球增长最快的 AI 平台。
社区培养。一个成功的开源社区需要通过持续、尊重的互动培养，将用户逐步转化为核心贡献者：可以从“修复文档错别字”这类低门槛任务入手，让普通用户熟悉贡献流程；通过及时反馈、公开表彰，逐步将用户转化为活跃贡献者。同时，跨文化差异也需重点关注：西方开发者习惯公开辩论，而亚洲开发者更倾向和谐沟通，平台需提供多元交流渠道，如 GitHub 用于技术讨论、微信群用于日常互动，降低不同文化背景开发者的参与门槛。
战略定位。平台必须明确存在价值，核心是“做生态桥梁，而非生态替代者”。从过往经验来看，尝试打造“全能型框架”的平台多以失败告终，而聚焦细分领域、深度整合现有生态的平台更易存活。以 ONNX 和 OpenAI Triton 为例，其成功都在于专注特定痛点，与现有生态协作，而非直接竞争。

基于以上，Michael Wong 强调，中国团队无需复制西方平台，而应打造“只有中国能孕育、但能惠及全球”的平台——中国的超级 APP 创造了西方没有的 AI 应用场景，庞大的互联网服务规模也催生了独特的优化需求，这些都是差异化的基础。

同时，他也为中国团队提供了一份可落地的行动指南：前两周明确平台存在理由和生态集成方式；第一个月发布最小可行产品（MVP），确保开发者体验；第二至第三个月积极培养社区，通过低门槛贡献阶梯提升用户参与；第六个月建立可持续治理与资金支持，包括国内外社区渠道、关键文档中英文翻译、明确东西方社区大使。

在演讲的最后，Michael Wong 呼吁，中国团队完全有能力打造下一个全球领先 AI 平台，只要在技术、社区和战略三者之间找到平衡，并充分发挥东西方生态理解方面的优势。他坚信，未来 AI 生态将多极共存，而能够架起生态桥梁的平台，将会是真正的赢家。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

AReaL：面向智能体的全异步强化学习框架

自 2022 年 ChatGPT 引领大模型时代以来，强化学习（Reinforcement Learning, RL）技术一直是推动范式创新的重大力量。在本次大会中，前 OpenAI 研究员、清华大学交叉信息院助理教授吴翼介绍了由清华大学和蚂蚁集团相关团队共同开发的开源强化学习框架 AReaL，旨在解决大模型强化学习训练中的效率和系统瓶颈问题。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

吴翼指出，相较于传统的系统设计，强化学习的算法流程高度动态：模型生成数据、数据评估、执行训练算法、更新参数并循环迭代，这一流程涉及多种计算模式且各阶段相互依赖。在大模型训练中，算法的快速迭代往往受制于系统瓶颈，因此算法工程师与系统工程师必须紧密协作，共同优化训练框架。

此外，训练任务输出长度的不确定性也给效率带来了挑战。在 Reasoning RL（推理强化学习）场景中，模型处理复杂推理任务时，输出可能达到 16K、32K 甚至百万 Token，而在传统 Batch 训练方式下，不同长度的输出容易导致 GPU 内存浪费和效率低下，甚至出现 OOM（out-of-memory）错误。

为了应对上述问题，吴翼及其团队推出了全异步强化学习框架 AReaL。AReaL 的核心设计是打破传统 Batch 限制，实现训练和推理的全异步执行。具体来说，推理引擎将持续生成训练数据，而训练引擎在收集到足够数据后进行参数更新，并将新参数回传给推理引擎。在参数更新阶段，推理任务仅需短暂打断（约 1%~3% 时间）即可使用新参数继续生成，无需等待 Batch 完整结束——这样一来，GPU 利用率可接近 100%，同时也大幅减少了等待时间。

不过吴翼也坦言，AReaL 的异步架构会带来一个不可避免的问题：同一条训练数据可能由多个模型版本生成，造成所谓的模型版本滞后（Staleness）问题。如果处理不当，Staleness 会导致训练效果下降。对此，吴翼指出通过对强化学习算法进行小幅度改动，就可以将 Staleness 控制在合理范围（4~10），在保证训练效果的同时，实现效率最大化。吴翼表明，在 Reasoning RL 场景下，AReaL 可带来约 2.77 倍的训练加速，相当于原来 24 小时的训练可缩短至 9~10 小时。

而在 Agent RL（智能体强化学习）场景中，训练环境更加复杂且不可控，由于智能体需要与外部环境实时交互，这就带来了交互延迟和不可预测的计算时间。以搜索智能体为例，AI 需根据问题在互联网上搜索答案。部分问题可以在 10~20 分钟完成，但复杂问题可能需要 1~2 小时搜索，传统 Batch 训练会被极长的搜索时间拖慢。针对这个问题，AReaL 的异步架构允许训练参数持续更新，推理任务异步执行，显著提高了训练效率并降低不可控因素影响。吴翼透露，在 Agent RL 场景下，AReaL 可在最难的搜索任务上为模型带来约 20-30% 的准确率提升，同时带来超过 5 倍的训练速度提升。

为了降低上手门槛，今年 8 月其研究团队还开源了 AReaL-lite，该版本具备模块化和轻量化特点，算法工程师通过修改 1~2 个文件即可完成复杂训练任务。在演讲最后，吴翼透露 AReaL 的下一阶段将推进全面服务化，计划整合模型选型、训练调度、评估部署全流程，构建 Agent 能力提升的完整闭环平台：“我们希望这个框架不光是个框架，也能变成一个完整的 Agent 全生态服务。”

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

从“记忆”到“策略”：Lukasz Kaiser 揭示通往“研究器”模型的终极蓝图

OpenAI 资深研究科学家 Lukasz Kaiser，在其演讲中为我们描绘了一条清晰的 AI 发展路径，其核心在于解决一个他称之为“迫切需要弄清楚”的挑战：如何让机器从更少的数据中学习。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

Kaiser 生动地使用了“蜗牛”作为比喻。早期的循环神经网络 (RNN)，就像一只“在词语序列上行走的蜗牛”，处理信息缓慢且记忆有限。随后，作为巨大飞跃的 Transformer 诞生了，它如同“一只把所有过往词语都背在壳里的蜗牛”，通过并行处理和全局注意力机制，极大地增强了模型的能力，并催生了 ChatGPT 等应用。

不过，Kaiser 明确指出，通往更高智能的道路上存在瓶颈。他强调：“光靠 Transformer 是不够的，列如在数学领域；你不能只靠记忆，你需要学习策略。”

这一论断引出了当前的前沿——“推理器”(Reasoner) 模型。与需要“记住全世界所有动物园开门时间”的 Transformer 不同，推理器学会的是“一个查询搜索引擎的策略”，这代表了从“知识记忆”到“方法学习”的本质转变。这种模型在解决数学竞赛等复杂问题上已展现出卓越的能力。

在演讲的高潮部分，Kaiser 首次向公众揭示了其团队正在探索的终极形态——“研究器”(Researchers)。这代表了一次范式的彻底跃迁。他这样描述道：“想象一下，一个模型不再是单一的思考者，而是能并行启动成千上万个‘思维线程’的庞大研究系统，它能从任意信息中学习，而不仅仅是那些我们能事先验证对错的数据。”

这并非遥远的科幻。Kaiser 展示的初步成果已足够震撼：一个内部模型在推理 17 分钟后，成功改善了一篇前沿人类数学论文中的核心定理。

Lukasz Kaiser 为我们擘画的，是一条清晰而宏大的进化蓝图：从“知识的搬运工”(Transformer)，到“策略的思考者”(Reasoner)，最终演变为“科学的合伙人”(Researcher)。这预示着一个新纪元的到来——在这个纪元里，AI 将不再仅仅是我们的工具，而是能与人类科学家并肩，共同探索未知疆域的智慧伙伴。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

圆桌对话：AI 产业范式转变的核心命题

当 AI 技术迈入产业范式转变的关键节点，行业内关于技术路线的争议与未来方向的探索愈发激烈：视觉派与语言派的路线之争尚未平息，Agent 究竟是重构产业的真范式还是短暂的技术泡沫仍存分歧，再到通往 AGI（通用人工智能）的现实路径，整个行业面临理论与实践的双重挑战。

在 CSDN &《新程序员》执行总编唐小引的主持下，本次圆桌对话邀请了四位业界专家：奇点智能研究院院长、CSDN 高级副总裁李建忠，小米集团技术委员会 AI 实验室主任王斌，群核科技首席科学家唐睿，以及面壁智能副总裁贾超。他们围绕技术路线选择、Agent 的范式价值到 AGI 发展路径规划等关键议题展开深入探讨，共同分享了各自的前沿思考和实践经验。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

“视觉派” vs “语言派”的路线之争

近来，不少 AI 大佬都认为 LLM 存在重大缺陷，列如杨立昆、Richard Sutton，Sutton 认为 LLM 无法从持续的实际互动中学习，并且推测 LLM 终将触达互联网数据的边界，继而陷入过度依赖专家微调的困境，这也使得业界展开了一场关于智能的源泉究竟是“语言”还是“视觉”的争论。

唐睿从理性和应用驱动的角度分析了这一问题关系。他认为，如果应用需求主要聚焦在信息获取与处理，单纯依赖语言模型就足够；而对于绘画或尝试理解世界的任务，视觉模型则更为适合。不过，当涉及到物理世界中的智能应用时，仅依赖语言或视觉已无法满足需求。与屏幕空间中的 AI（如通过键盘和屏幕与 ChatGPT 交互）不同，物理世界的 AI 需要能够理解和操作三维空间。唐睿表明，从应用导向的角度出发，自己更多关注三维空间智能，即“空间派”。

在讨论视觉派与语言派的差异时，贾超指出，语言本身也是智能的一种体现，而视觉同样具有其独特的智能核心。他认为，从通用人工智能（AGI）的发展趋势来看，未来的智能必然是一个能够整体感知、思考和交互的“世界模型”，能够像人类一样进行交互。这意味着 AI 将同时处理语音、视觉、文本等多种模态的实时输入，并给出相应的实时输出。贾超强调，未来 AI 的发展方向必然朝向全模态、多维交互的系统演进。

王斌从自身经验出发，提出了“融合派”的观点。王斌回顾了自己在自然语言处理方向的研究经历，以及在小米 AI 实验室负责视觉、语音等相关工作的经验，他认为语言与视觉在智能系统中各有不可替代的优势。列如，有些抽象概念很难用图像或视频完全表达，而语言则能够更精准地传达；反过来，用自然语言描述一张图像，也常常难以覆盖图像中所有细节。因此，他强调语言与视觉在实际应用中具有互补性。王斌认为，未来 AI 的发展更可能是融合式的，即多模态技术互为补充，共同支撑复杂智能应用。

李建忠指出，尽管 AI 领域本质上不存在“派别之争”，但在实际发展过程中，视觉派和语言派的观点曾在社区中引发激烈讨论，部分争论甚至带来了对大语言模型的误判。其认为，良性的讨论是必要的，但争论若演变为“你死我活”的对立，则不利于行业发展。不同模态在具体场景中各有价值，但最终应走向统一。在这种统一中，语言仍应占据核心地位，由于语言在表达抽象概念和支撑人类推理、泛化智能方面具有不可替代的作用。

他表明，2012～2020 年之间单纯依赖视觉模型的历史经验表明，其能力在工业和产业生态中未能产生实质性提升，而语言模型的发展（如 ChatGPT、DeepSeek 等）已经验证了其核心价值。在语言模型基础上引入视觉多模态和强化学习，能够更好地利用人类知识，并在物理空间和推理任务中发挥更大作用。他反对剥离语言模型单独发展视觉或强化学习，认为这会重蹈早期纯视觉识别或 AlphaGo/AlphaZero 单一策略的覆辙。

Agent：“真范式” vs “泡沫”

各种 Agent 层出不穷，似乎成为了一种万能公式，但实则际可用性仍存疑，到底是范式还是泡沫？

对此，李建忠认为，Agent 的确展现出“真范式转换”的特征，在研究和工业界都取得了显著进展。他对业界存在“泡沫”这一说法也持乐观态度，其表明，技术革命往往伴随理念领先而实践落后的阶段，这是任何创新时代的常态。所谓“泡沫”，更多意味着理念先行，而落地尚需时间和条件，这并不等于失败，而是技术迭代的自然过程。列如，MIT 的报告显示投资回报率暂未达到预期，但这并不意味着项目没有价值，许多投入实际上是为未来投资。

在智能体落地的现实层面，李建忠表明，企业部署 Agent 需要在基础设施、云沙箱环境、工具权限和流程改造等方面进行大量投入。如果这些环节尚未成熟，Agent 的实际效果可能暂时不理想。但这些投入属于长期投资，未来可能在团队能力和技术积累上获得回报。目前，Agent 发展面临两大瓶颈：一是产业环境和基础设施仍需完善，例如对上下文的感知能力以及对工程师可操作工具的支持；二是训练侧的泛化能力尚需提升，需要数据端和模型端的协同进步。总体来看，尽管当前投入存在成本，但对未来 AI 长期发展和智能体应用的成熟具有重大战略价值。

王斌表明，Agent 本身或许是人类追求的一种终极智能梦想。近年来，随着大模型的出现，Agent 的某些设想开始变得可行，但现实中仍存在诸多挑战。他进一步指出，当前对 Agent 的定义尚未统一。许多人所称的 Agent，更多是固定工作流的实现，而真正意义上的 Agent 应具备自我规划、自主学习和任务调度能力，几乎可以取代人类完成各种任务。在实际应用中，他认为主要存在三方面挑战：

一是评价体系不完善。现有实验室的评测方法难以全面反映真实环境下的性能，这直接影响技术落地。
二是工程设施和基础环境不足，包括上下文管理和工具支持等方面仍不成熟。
三是面对复杂、多步任务时，Agent 的能力仍有限。现有系统在简单任务上表现尚可，但一旦涉及多步骤、复杂操作，效率和可靠性会显著下降，难以满足产品化需求。

总体来看，王斌认为，Agent 的发展范式是正确的，但短期内面临现实挑战。对于真正的通用智能 Agent，他保守估计仍需要大约五年的时间才能看到更成熟的实现。

唐睿从社会学与哲学视角分析了 Agent 的价值与作用。他认为，即便暂且将 Agent 视为一种工具而非自主智能体，其作用仍具有深远意义。新生产工具会引发新的社会分工，Agent 的出现也可能重塑工作流程和角色分工。即便 Agent 本身不具备完全自主能力，它仍可以承担特定任务，辅助人类完成工作，从而形成新的协作模式。

在实际应用中，唐睿指出，Agent 面临的最大挑战仍在于评价体系和信息反馈机制。他以空间智能的实践为例，说明在多维工作流（如从 1D 到 2D，再到 3D 场景生成）中，信息对齐和交流依旧困难。即使在单一维度上，不同专业背景的人类协作者之间的沟通也存在障碍，而 Agent 在多任务、多步骤场景下的表现更加复杂。为解决这些问题，他提出了两条发展路径：一是强化特定 Agent 的能力，通过数据或微数据进行训练，提升其任务处理精度；二是优化多 Agent 间的交流机制，建立有效的信息反馈和翻译体系，以保证不同 Agent 之间能够协同运作，实现复杂任务的顺利完成。

贾超认为，Agent 作为一种范式是成立的，但目前仍夹杂必定泡沫。他指出，市场上不少所谓 Agent，仅仅是将模型与工具封装在一起，缺乏真正的自主能力。他进一步分享了从端侧视角看到的独特机遇：“从某种意义上说，每一个强劲的端侧模型本身就是一个高度任务导向的Agent。” 在智能座舱、PC 助手等场景中，端侧 Agent 已在执行具体任务，展现出巨大的落地价值。

在当前实践中，Agent 面临的核心挑战主要包括工具调用的稳定性、长上下文处理能力，以及自主规划和个性化学习能力。贾超回顾了团队从 2023 年起的实践经验，早期受限于模型能力，工具调用常常失败；而随着模型能力提升，包括稀疏化架构和 MoE 等新技术的引入，工具调用和长上下文处理已有明显进步。他预计，这些基础能力在未来一年内将进一步提升，但真正的自主规划和个性化能力仍需要两到三年时间突破。

此外，他强调强化学习在 Agent 发展中的关键作用。在特定环境（如GUI、浏览器）中进行决策的智能体，通过奖励信号来优化其完成任务的策略。这使得模型能够从试错和环境反馈中学习，弥补了静态预训练的不足。贾超提出，当前多数人想到的 Agent 多为云端大脑，但未来端侧模型能力将持续增强，可实现端云协同。对于日常、即时、隐私交互任务，端侧即可高效处理；仅少数复杂任务才依赖云端，这不仅保证了响应速度，也保护用户隐私。这意味着，未来 Agent 竞争的核心，将从模型参数大小，转向端侧模型的任务处理效率和知识密度。

总体来看，贾超认为，云端模型探索的是智能的上限，而端侧模型决定的是AI产业落地的下限和速度。上限决定我们能走多远，但下限和速度，才决定这个产业能走多快，能惠及多少人。

通往 AGI 的路径，到底该怎么走？

本质上，无论是视觉派 vs 语言派的路线之争、还是关于 Agent 的争论，其背后的核心问题都是：通往 AGI 的路径，到底该怎么走？针对这个问题，李建忠指出，AGI 的定义在业界存在争议：

如果以接近人类智能水平为标准，数字空间的 AI 模型已经展现出惊人的能力，例如一些模型已经在奥林匹克竞赛中获得金牌，达到了人类高智商群体的水平；
但如果要将目标扩展到物理空间，仍需要补充在物理世界中的世界模型（World Model）能力。

李建忠强调，在视觉派与语言派的争论中，正是由于视觉派对语言模型能力的怀疑，导致目前多模态研究缺乏聚焦、统一的路线，出现了诸多分歧。而他认为，在世界模型中，语言依旧处于核心地位，由于仅靠视觉观察无法完全掌握物理规律。他举例说，在哥白尼之前，人类通过观察物理世界得出“地心说”这样的谬论，而科学家如牛顿、笛卡尔正是通过语言交流、讨论和逻辑推理，才得以发现自然规律，而不是单靠视觉观察。因此，即便物理世界超级重大，但语言依旧是不可或缺的中枢。

王斌则表明，空间智能可以理解物理世界的位置关系和规律，可与语言能力互为补充。因此在他看来，未来 AGI 的实现可能并不依赖单一路径，而是空间智能与语言能力的融合。但王斌也补充道，他并不是特别关注 AGI的准确定义，于他而言，重大的是系统能完成实际任务，而未来的发展可能谁也无法完全预测。

从实际应用出发，唐睿提出了空间智能在物理世界的实现方法。他解释，在屏幕或数字世界中，AGI 只需欺骗视觉即可，但若要与真实物理环境交互，则需要世界模型和大量计算资源。

在空间智能应用中，有多种场景。例如，可以生成游戏场景供玩家娱乐，也可以生成机器人训练的仿真场景。在娱乐性场景中，创作追求概念化和泛化，物理准确性要求相对低；而在科学或机器人仿真中，物理精度至关重大。因此，在空间智能生成过程中，要根据需求分配算力。但唐睿也强调，目前没有任何模型能够完全替代物理仿真，因此对于高精度物理模拟，仍需将计算资源用于仿真计算。

最后，贾超从用户终端落地的视角分享了观点。他认为从目前来看，智能系统在某些方面已经达到了 AGI 的部分能力，但 AGI 的未来不仅是智能化，更应普惠和个性化。

贾超表明，每个智能终端都具备必定算力，这为端侧模型的落地提供了可能。他还观察到，芯片厂商也越来越重点关注端侧 AI 能力，开始在下一代芯片规划中思考如何将端侧模型集成到 SoC（系统级芯片）中，实现架构与算法的深度融合。因此，贾超对端侧 AI 的未来发展充满信心，认为其在短期内会迎来爆发式增长，将来每个用户都可以拥有根据个人特性打造的专属端侧模型。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

AI 基础软件开源创新闭门研讨会成功举办！

大会期间，“AI 基础软件开源创新闭门研讨会”圆满结束。该研讨会由奇点智能研究院与华东师范大学—开源创新与变革联合实验室联合主办，旨在深入剖析当前全球 AI 基础软件的生态格局、开源战略与未来路径。在 AI 大模型成为产业核心驱动力的今天，基础软件栈作为连接硬件算力与上层应用的“操作系统”，其重大性不言而喻，此次会议的召开恰逢其时。

本次研讨会汇聚了国内外产学研界的顶尖专家，构成了一个覆盖理论、实践、开源社区与产业战略的完整对话阵容。与会嘉宾包括：主办方代表奇点智能研究院院长李建忠、首席技术咨询师吴咏炜与王博，以及奇点智能研究院开源技术委员会主任、华东师范大学数据科学与工程学院教授王伟。国际标准领域的权威专家，ISO人工智能技术委员会专家、C++标准委员会机器学习组主席Michael Wong 也受邀出席并分享了全球视野。

一线开源项目与核心技术的开发者构成了讨论的中坚力量，包括 SGLang 核心开发者、新加坡南洋理工大学在读博士李升桂，清华大学计算机系博士后、MiniCPM-V 主要作者肖朝军，Dify 资深架构师姜勇，通义实验室算法科学家、通义 DeepResearch 核心作者乔子乐，以及智源研究院 AI 框架研发负责人敖玉龙。同时，来自产业界的领军人物也带来了宝贵的实践洞察，包括清程极智副总裁何万青、无问芯穹技术副总裁张权路、摩尔线程算法工程师莫凡和百度资深工程师张军，他们的参与确保了讨论的深度与落地性。

会议议程围绕四大核心议题框架——设计哲学与原则、软件设计维度、关键技术决策和生态策略——展开了深入且坦诚的探讨。讨论不仅局限于宏观战略，更是切入了具体的技术决策与实践痛点。在“设计哲学”层面，与会者以 CUDA 为例，深入剖析了其在引入 Tensor Core 等新硬件特性后，如何在编程复杂性与易用性之间取得平衡，探讨了在生态演进中是否存在为易用性而牺牲其他价值点的关键抉择。

在“关键技术决策”环节，讨论尤为激烈。专家们辩论了未来 AI 底层编程的主流范式：是以 Triton 为代表、通过“Python-first”降低门槛的高层抽象，还是继续依赖类 C/C++ 的底层精细控制？这一趋势背后的驱动力成为焦点。同时，会议还深入编译器与中间表明（IR）层面，探讨何种 IR 设计更有利于跨平台兼容与算法创新，并展望了构建“通用 AI 编译层”的可能性。面对 GPU、NPU 等异构算力并存的现状，如何设计软件栈以避免生态碎片化，实现“一次编写，随处高效运行”的目标，也引发了深刻思考。

而在“生态策略”上，研讨会直面了国产算力生态面临的现实挑战。专家们就“兼容领先者生态标准”与“独立发展自有编程模型”两种路径的优劣进行了权衡，并探讨了后发追赶的有效手段。此外，会议还借鉴 CUDA 的成功经验，剖析了其在开源与闭源之间的平衡策略、对CMake等开发者生态的精准布局，以及通过 GTC 大会、高校合作等系统性运营手段构建强劲社区护城河的方法。从开发者入门体验、文档质量、调试工具链完善度到社区治理机制，一系列关乎生态成败的细节问题都得到了充分的交流与碰撞。整场研讨会在高水平的智慧激荡中，为推动中国 AI 基础设施生态的高质量发展凝聚了宝贵共识。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场

大会首日精彩纷呈

除了精彩的主题演讲，本次大会还特别设置了智能体工程与实践、大语言模型技术演进、AI 赋能软件研发与氛围编程、多模态与世界模型等多个专题论坛。来自字节跳动、阿里巴巴、微软、京东、新浪微博、腾讯、理想、快手、小红书、深信服、360，以及北京大学、清华大学、北京邮电大学和 ANP 开源技术社区的技术专家，分享了他们在前沿探索和实际应用中的经验与心得。

会场外的展区同样热闹非凡。在此，特别感谢蚂蚁开源、腾云智算、人民邮电出版社异步社区、清华大学出版社、电子工业出版社博文视点等合作伙伴的大力支持。展位吸引了大量观众，大家积极交流，近距离体验各类创新成果。

光靠Transformer不够、驳斥“AI Agent泡沫论”！万字解密ML 2025大会首日最强思辨现场