三谈人工智能的强化学习

OpenAI创始研究科学家、特斯拉前AI高级总监Andrej Karpathy,近期接受Dwarkesh的访谈,其中有几个超级有启发的观点,跟大家分享下;

三谈人工智能的强化学习

人工智能的冷思考

观点1:Agent的发展还需要十年

相比于国内,圈内媒体都在喊「智能体元年」,Andrej Karpathy 的话像是给业内泼了一盆冷水。

原叙述如下:“要让 Agent 真能接手员工的工作,缺的不是小修小补,而是一整套能力:更高的智能,更强的多模态,更可靠的电脑操作。Agent 没有持续学习能力——你告知它们一件事,它们不会真正“记住”;它们在认知上也有缺陷,综合起来就是无法独立完成工作。把这些问题都解决好,恐怕需要十年”。
“这让我想起特斯拉自动驾驶。当年大家都以为只要再堆一点算力、再多几辆测试车,就能解决问题。但现实是每一个进步都要付出指数级的代价。AI 也一样,模型 Demo 和可靠产品之间的鸿沟,比许多人想象的要宽得多。”
我的感受:使用了市场上Agent智能体,智能水平更多像是结合了LLM的RPA,复杂任务还是需要人工监督。
观点2:强化学习是糟糕的选择,但其他方法更糟

原叙述如下:“AI学习过程类似,并行尝试几百种解法,只要一次蒙对,就会强化整条路径,包括所有错误的步骤。于是,AI 学到的不是“对的过程”,而是“凑巧的轨迹”。这和人类完全不同。我们找到答案后,会反思为什么正确、哪些部分无效,有“过程监督”。我们学习的不是答案,而是方法论。人类学习的本质是“元学习”:我们在学习怎么学习。AI 还做不到这点,今天的模型,缺乏这种“内心回顾”的能力。
我的感受:详见前述文章“为什么AI不能举一反三”,AI目前还缺乏反思和抽象能力。

观点3:“人类糟糕的记忆,是一种特性,不是缺陷。”

原文叙述如下:“AI 记得一切,却学不会抽象;人类遗忘许多,却能举一反三。”Karpathy 在谈到 LLM 的“记忆 vs 认知”时说,模型过度擅长记忆,能逐字复述训练语料,这反而会“分散注意力、阻碍通用思考”。相反,人类由于记忆不那么好,被迫寻找可泛化的模式,这是一种优势。他用“权重里的知识是朦胧回忆、上下文是工作记忆”的比喻,进一步主张应削减模型的背书式记忆,保留并强化认知核心,让模型少依赖内置知识、多进行检索与推理。
我的感受:AI 拥有完美记忆,就像一个从不睡觉的学生。它不断记笔记,却从未进行过“梦的蒸馏”。而人类恰恰在睡眠中把零散的经验整合成新的模型。

三谈人工智能的强化学习

类脑模式计算

补充信息:Dwarkesh Podcast 并不是一个播客新闻节目,而是一个以深度长访谈著称的播客频道。它由独立创作者 Dwarkesh Patel 主持,专注于探讨人工智能(AI)、经济学、哲学、科技等领域的复杂话题。
——代表了一类新媒体趋势,互联网出现一批专业知识的主理人

三谈人工智能的强化学习

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容