当整个行业都在热议 AI Agent 如何开启 AGI (通用人工智能) 之时,一个尴尬的现实摆在眼前:AI 甚至无法可靠地执行点击、打字和滚动等最基本的电脑操作。实际证明,让 AI 精通这些操作,也许比让它生成代码更具挑战性。
在 AI Engineer 的一场分享中,来自亚马逊 AGI 实验室的认知科学家 Danielle Perszyk 提出了一个引人深思的观点:我们或许从一开始就走错了方向。
真正的 AGI 并非存在于一个孤立的「思维机器」中,而是诞生于人与 AI 的共同进化。她和她的团队正在探索一条名为 「有用通用智能」 (Useful General Intelligence) 的新路径,其核心不是「解放 AI」,而是「解放人类」。
让我们一起走进 Danielle 的观点,看看亚马逊在的 Nova Act,以及背后的认知科学理论——为何说真正的智能本质上是「社会性」的。
人类的感知实则是「受控的幻觉」
演讲一开始,Danielle Perszyk 就抛出了一个颠覆常识的观点:「我们所有人此刻都在产生幻觉。」
她解释说,这并非危言耸听,而是一个神经科学实际。我们的大脑被困在头骨里,无法直接接触现实。
它能做的只有三件事:用自己的世界模型做出 预测 ,接收 感官信息 ,然后调和两者之间的 误差 。
因此,神经科学家将我们的大脑称为「预测机器」,并将我们的知觉定义为 「受控的幻觉」 。
我们之所以能正常生活,不是由于我们不产生幻觉,而是由于我们的幻觉处于 受控 状态。这个「控制」是关键。
Danielle 借此引出了对当前 AI 的见解。我们依赖于那些会「幻觉」的聊天机器人进行头脑风暴、内容创作。
而她认为,这种幻觉对于想要变得像我们一样灵活的 AI 来说,是 必要的功能,而非 Bug 。由于幻觉能让我们超越已有数据,进行创造和推演。
因此,她认为摆在我们面前的核心挑战,并非彻底消灭 AI 的幻觉,而是要弄清楚: 我们该如何控制它们? 这个问题,也正是通往可靠、通用 Agent 的钥匙。
AGI 的十字路口:成为「思维机器」还是「增强人类」?
当我们谈论 AGI 时,脑海中浮现的一般是科幻电影中的场景:一个拥有自我意识、能力超越人类的超级智能。Danielle 指出,这种想象实则是一种「民间传说」,其根源可以追溯到 1956 年。那一年,一群工程师和数学家雄心勃勃地开启了「思维机器」项目,尝试一举「解决」智能问题。
虽然他们并未成功,但却奠定了人工智能领域的基础,并引发了一个持续至今的反馈循环:我们构建更强劲的计算机,用互联网连接它们,催生了更复杂的学习算法,这又反过来让计算机变得更强。如今,我们似乎又回到了最初的起点,只是换了个名字——AGI。
这个愿景的核心是:让 AI 更机智,赋予它更多能动性。Danielle 指出: 「请注意,这关乎技术,而与我们无关。」
不过,历史上存在着另一条被忽视的道路。它的倡导者是 Douglas Engelbart ,鼠标和图形用户界面 (GUI) 的发明者。
与痴迷「思维机器」的同行不同,Engelbart 更关心的是 「思维人类」 以及如何 「增强我们的智能」 。他预言,计算机将使我们变得更机智。
历史证明了恩格尔巴特的远见。随着计算机的普及,它们深刻地改变了我们的大脑。我们开始将计算任务「外包」给设备,将认知分布在整个数字环境中。这种人与技术的协同进化,科学家称之为 「技术-社会共同进化」 。
我们发明新技术,而新技术反过来又塑造我们。
目前,我们正站在一个新的十字路口上。
一条路是继续让 AI 更智能,赋予它更多自主权,也就是业界时髦的说法—— 「解放 AI」 。但 Danielle 警告说,「这并不能保证它对我们有用,只能保证我们会看到更多近年来在科技领域出现的同样问题。」
自动化有时会削弱我们的能动性,列如无尽的社交媒体滚动、信息茧房的禁锢,甚至自动补全功能有时也会打断我们的深入思考。
另一条路,也是亚马逊 AGI 实验室选择的方向,是 构建能让我们更机智、赋予我们更多能动性的 AI 。其目标,是 「解放人类」 。
亚马逊的解法:Nova Act 与「原子级可靠性」
如何实现「解放人类」的宏大愿景?Danielle 认为,在早期阶段,需要做到两件事: 满足模型的现状 和 满足构建者的需求 。
这就是 Nova Act 诞生的背景。它是一个由 Agent 模型和 SDK 组成的工具,旨在让开发者能够轻松地构建和部署自己的 Agent。
当今构建 Agent 的一个巨大障碍是,互联网的大部分内容是为视觉 UI 设计的,绝大多数网站缺乏 API 接口。
因此,我们必须将浏览器本身作为一种工具。亚马逊为此专门训练了其基础模型 Nova 的一个版本,使其极度擅长理解和操作 UI,就像人类一样。
开发者使用 Nova Act,只需一个简单的 Act 调用,就能将自然语言指令(如「帮我找到 Redwood City 的两居室一卫公寓」)转化为屏幕上的一系列具体动作。
在后台,Nova Act 会分解任务,并根据每一步执行的结果来规划下一步行动。正如 Danielle 的同事在演示中展示的:
- 基础操作: Agent 自动在租房网站上输入城市、筛选房型,完成搜索。
- 结构化数据提取: 通过定义一个 Pydantic 类,Agent 可以从满是房源信息的页面上抓取数据,并将其整理成匹配该模式的 JSON 格式。
- 与代码集成: 更强劲的地方在于与 Python 的无缝集成。开发者可以编写一个辅助函数,列如调用谷歌地图 API 计算每个公寓到最近的加州火车 (Caltrain) 站的骑行距离。
- 并行处理: 利用 Python 的线程池,可以同时为多个地址启动多个浏览器进行并行计算,大大提升效率。最后,使用 Pandas 库将所有结果汇总成一个表格,并按骑行时间排序。
整个过程的核心理念是 将交互的「原子单位」做到极致可靠 。就像我们可以用单词组合出无限的句子一样,通过将可靠的原子级动作(点击、输入、滚动)串联起来,开发者可以构建出日益复杂的工作流。
Danielle 强调,这种对基础操作的关注至关重大,由于即便是我们习以为常的电脑使用,对 AI 来说也「极具欺骗性的挑战性」。
例如,网页上的一个图标,人类凭借直觉和上下文就能理解其含义,但我们不可能教会 Agent 宇宙中所有的图标。因此,必须让 Agent 通过强化学习 (RL) 去探索和学习。
与许多作为「只读助手」的 LLM 包装器不同,Nova Act 这样的「计算机使用 Agent」能够看到像素并与 UI 交互,这让它们拥有了某种形式的 「具身性」 。
它们与我们共享同一个数字环境,这是构建对齐的、通用 Agent 的必要条件,但还不够。
AGI 的「灵魂」:智能的本质是社会性与心智模型
Danielle 抛出了她最核心的观点。她认为,要理解如何构建可靠、灵活且通用的智能,我们必须回溯到比计算机历史更久远的过去。
Engelbart 曾说:「从我们增强手段的稳步发展的真实意义上说,人工智能的发展已经持续了几个世纪。」Danielle 认为,他说的没错,但实际上,这个故事要长得多。
时间回到大约 600 万年前,我们的祖先面临着环境剧变,只有两个选择:解决智能问题,或者灭绝。最终胜出的物种,是通过一个改变了我们 「社会认知」 的反馈循环做到的。
这个循环听起来异常熟悉:第一,我们的大脑变得更大;然后,我们将大脑连接在一起(形成社会),这使我们能够进一步微调对社会信息的处理能力;而这反过来又促进了我们大脑的进一步增大。
但扩容只是故事的一半。另一半是,我们变得更机智的方式是 将我们的计算任务「外包」给彼此的大脑,并将认知分布在整个社会环境中 。这极大地增强了我们的集体智能。
这里的关键洞见是: 「升级我们智能的历史,并非始于计算机,而是始于一种让我们能够将彼此的心智用作工具的进化适应。」
Danielle 用一句话总结了这个石破天惊的观点: 「让我们的智能变得通用和灵活的东西,是能够推断他人心智的存在。」
这意味着,通用智能 (General Intelligence) 不是一个孤立的超级大脑。也不是一个没有理由与我们对齐的黑箱。更不是一个被锁在盒子里的模型。
真正的通用智能,是通过我们的互动而涌现。它本质上是社会的、分布式的、不断演化的。
因此,我们不能仅仅衡量模型的能力或平台使用时长,我们必须衡量人与 Agent 的「互动质量」,关注那些真正属于「人」的指标:创造力、生产力、战略思维,甚至是心流状态。
而实现这一切的进化适应性工具,就是 语言 。
语言与我们的 「心智模型」 在另一个飞轮中共同进化。它既是心智模型发展的缘由,也是其结果。当我们能更好地理解他人意图时(心智模型更稳定),我们的语言能力就得到提升;而更强的语言能力,又让我们的心智模型变得更加稳定。
最终,心智模型本身成为了「最初的占位符概念」,是能够代表任何概念的第一个「变量」。
「这,就是泛化。」 Danielle 解释道。
这就是人类语言与编程语言或 LLM 所「理解」的语言的根本区别。其他交流系统没有心智模型,编程语言不会实时协商意义,而 LLM 并不理解「词语指向的是心智创造出来的东西」。当我们问「一个词里有什么?」时,答案实则是:「心智」。
未来之路:构建人与 Agent 的共同进化飞轮
从语言开始,人类发明了一系列 「认知技术」 ,每一种都建立在前一种的基础上,让我们能进行日益抽象的思考。这些技术,如书写、数学和计算机,通过在一个社群中不断进化而变得有用。
它们通过将我们的注意力引向环境中的一样事物,协助我们从噪音中筛选出信号,共同构建对世界的模型,从而「控制」了我们大脑天生的「幻觉」。
Danielle 说: 「这听起来就像我们正在构建的东西。」
可以将 Nova Act 视为一种新的认知技术的「原语」,其目标是 「对齐人类与 Agent 的表征」 。
那么,如何让 Agent 真正变得可靠?最终, 它们将需要拥有关于我们心智的模型 。
我们无法直接构建这个模型,但可以为它的涌现创造前提条件。这需要:
- 一个共享环境的模型: 这就是 Nova Act 正在做的,将 UI 作为人机共享的交互世界。
- 支持直觉交互的界面: 让沟通自然流畅。
- 一个共同的语言: 在共享的环境和界面之上,人与 Agent 才能发展出真正对齐的沟通方式。
这将启动一个强劲的飞轮:
- 开发者社区利用 Nova Act 构建出 有用的产品 。
- 有用的产品吸引大量用户使用,从而产生海量的 人机交互数据 。
- 这些宝贵的数据将用于 提升模型 ,使其更懂我们的目标和意图。
- 更智能的 Agent 将协助我们自动化繁琐任务,重新分配技能,甚至发现新知识,最终 让我们所有人都变得更机智 。
这就是亚马逊 AGI 实验室提出的「有用通用智能」的实现路径。它不是一场关于技术本身的军备竞赛,而是一场关于构建集体智慧的宏大社会实验。
其最终目标并非创造一个取代我们的全能的神,而是创造一个能成为我们「集体潜意识」的伙伴,一个能真正解放人类潜能的工具。
正如 Danielle 在演讲结尾所说,这是一项需要所有人参与的集体事业。由于真正的通用智能,终将由我们与 AI 共同构建。





















暂无评论内容