亚马逊的 AGI 设想:超越「思维机器」。

当整个行业都在热议 AI Agent 如何开启 AGI (通用人工智能) 之时,一个尴尬的现实摆在眼前:AI 甚至无法可靠地执行点击、打字和滚动等最基本的电脑操作。实际证明,让 AI 精通这些操作,也许比让它生成代码更具挑战性。

在 AI Engineer 的一场分享中,来自亚马逊 AGI 实验室的认知科学家 Danielle Perszyk 提出了一个引人深思的观点:我们或许从一开始就走错了方向。

亚马逊的 AGI 设想:超越「思维机器」。

真正的 AGI 并非存在于一个孤立的「思维机器」中,而是诞生于人与 AI 的共同进化。她和她的团队正在探索一条名为 「有用通用智能」 (Useful General Intelligence) 的新路径,其核心不是「解放 AI」,而是「解放人类」。

让我们一起走进 Danielle 的观点,看看亚马逊在的 Nova Act,以及背后的认知科学理论——为何说真正的智能本质上是「社会性」的。

人类的感知实则是「受控的幻觉」

演讲一开始,Danielle Perszyk 就抛出了一个颠覆常识的观点:「我们所有人此刻都在产生幻觉。」

她解释说,这并非危言耸听,而是一个神经科学实际。我们的大脑被困在头骨里,无法直接接触现实。

它能做的只有三件事:用自己的世界模型做出 预测 ,接收 感官信息 ,然后调和两者之间的 误差

亚马逊的 AGI 设想:超越「思维机器」。

因此,神经科学家将我们的大脑称为「预测机器」,并将我们的知觉定义为 「受控的幻觉」

我们之所以能正常生活,不是由于我们不产生幻觉,而是由于我们的幻觉处于 受控 状态。这个「控制」是关键。

Danielle 借此引出了对当前 AI 的见解。我们依赖于那些会「幻觉」的聊天机器人进行头脑风暴、内容创作。

而她认为,这种幻觉对于想要变得像我们一样灵活的 AI 来说,是 必要的功能,而非 Bug 。由于幻觉能让我们超越已有数据,进行创造和推演。

因此,她认为摆在我们面前的核心挑战,并非彻底消灭 AI 的幻觉,而是要弄清楚: 我们该如何控制它们? 这个问题,也正是通往可靠、通用 Agent 的钥匙。

AGI 的十字路口:成为「思维机器」还是「增强人类」?

当我们谈论 AGI 时,脑海中浮现的一般是科幻电影中的场景:一个拥有自我意识、能力超越人类的超级智能。Danielle 指出,这种想象实则是一种「民间传说」,其根源可以追溯到 1956 年。那一年,一群工程师和数学家雄心勃勃地开启了「思维机器」项目,尝试一举「解决」智能问题。

亚马逊的 AGI 设想:超越「思维机器」。

虽然他们并未成功,但却奠定了人工智能领域的基础,并引发了一个持续至今的反馈循环:我们构建更强劲的计算机,用互联网连接它们,催生了更复杂的学习算法,这又反过来让计算机变得更强。如今,我们似乎又回到了最初的起点,只是换了个名字——AGI。

这个愿景的核心是:让 AI 更机智,赋予它更多能动性。Danielle 指出: 「请注意,这关乎技术,而与我们无关。」

不过,历史上存在着另一条被忽视的道路。它的倡导者是 Douglas Engelbart ,鼠标和图形用户界面 (GUI) 的发明者。

亚马逊的 AGI 设想:超越「思维机器」。

与痴迷「思维机器」的同行不同,Engelbart 更关心的是 「思维人类」 以及如何 「增强我们的智能」 。他预言,计算机将使我们变得更机智。

历史证明了恩格尔巴特的远见。随着计算机的普及,它们深刻地改变了我们的大脑。我们开始将计算任务「外包」给设备,将认知分布在整个数字环境中。这种人与技术的协同进化,科学家称之为 「技术-社会共同进化」

亚马逊的 AGI 设想:超越「思维机器」。

我们发明新技术,而新技术反过来又塑造我们。

目前,我们正站在一个新的十字路口上。

亚马逊的 AGI 设想:超越「思维机器」。

一条路是继续让 AI 更智能,赋予它更多自主权,也就是业界时髦的说法—— 「解放 AI」 。但 Danielle 警告说,「这并不能保证它对我们有用,只能保证我们会看到更多近年来在科技领域出现的同样问题。」

亚马逊的 AGI 设想:超越「思维机器」。

自动化有时会削弱我们的能动性,列如无尽的社交媒体滚动、信息茧房的禁锢,甚至自动补全功能有时也会打断我们的深入思考。

另一条路,也是亚马逊 AGI 实验室选择的方向,是 构建能让我们更机智、赋予我们更多能动性的 AI 。其目标,是 「解放人类」

亚马逊的 AGI 设想:超越「思维机器」。

亚马逊的解法:Nova Act 与「原子级可靠性」

如何实现「解放人类」的宏大愿景?Danielle 认为,在早期阶段,需要做到两件事: 满足模型的现状 满足构建者的需求

亚马逊的 AGI 设想:超越「思维机器」。

这就是 Nova Act 诞生的背景。它是一个由 Agent 模型和 SDK 组成的工具,旨在让开发者能够轻松地构建和部署自己的 Agent。

当今构建 Agent 的一个巨大障碍是,互联网的大部分内容是为视觉 UI 设计的,绝大多数网站缺乏 API 接口。

因此,我们必须将浏览器本身作为一种工具。亚马逊为此专门训练了其基础模型 Nova 的一个版本,使其极度擅长理解和操作 UI,就像人类一样。

亚马逊的 AGI 设想:超越「思维机器」。

开发者使用 Nova Act,只需一个简单的 Act 调用,就能将自然语言指令(如「帮我找到 Redwood City 的两居室一卫公寓」)转化为屏幕上的一系列具体动作。

在后台,Nova Act 会分解任务,并根据每一步执行的结果来规划下一步行动。正如 Danielle 的同事在演示中展示的:

亚马逊的 AGI 设想:超越「思维机器」。

  1. 基础操作: Agent 自动在租房网站上输入城市、筛选房型,完成搜索。
  2. 结构化数据提取: 通过定义一个 Pydantic 类,Agent 可以从满是房源信息的页面上抓取数据,并将其整理成匹配该模式的 JSON 格式。
  3. 与代码集成: 更强劲的地方在于与 Python 的无缝集成。开发者可以编写一个辅助函数,列如调用谷歌地图 API 计算每个公寓到最近的加州火车 (Caltrain) 站的骑行距离。
  4. 并行处理: 利用 Python 的线程池,可以同时为多个地址启动多个浏览器进行并行计算,大大提升效率。最后,使用 Pandas 库将所有结果汇总成一个表格,并按骑行时间排序。

整个过程的核心理念是 将交互的「原子单位」做到极致可靠 。就像我们可以用单词组合出无限的句子一样,通过将可靠的原子级动作(点击、输入、滚动)串联起来,开发者可以构建出日益复杂的工作流。

Danielle 强调,这种对基础操作的关注至关重大,由于即便是我们习以为常的电脑使用,对 AI 来说也「极具欺骗性的挑战性」。

例如,网页上的一个图标,人类凭借直觉和上下文就能理解其含义,但我们不可能教会 Agent 宇宙中所有的图标。因此,必须让 Agent 通过强化学习 (RL) 去探索和学习。

与许多作为「只读助手」的 LLM 包装器不同,Nova Act 这样的「计算机使用 Agent」能够看到像素并与 UI 交互,这让它们拥有了某种形式的 「具身性」

它们与我们共享同一个数字环境,这是构建对齐的、通用 Agent 的必要条件,但还不够。

AGI 的「灵魂」:智能的本质是社会性与心智模型

Danielle 抛出了她最核心的观点。她认为,要理解如何构建可靠、灵活且通用的智能,我们必须回溯到比计算机历史更久远的过去。

Engelbart 曾说:「从我们增强手段的稳步发展的真实意义上说,人工智能的发展已经持续了几个世纪。」Danielle 认为,他说的没错,但实际上,这个故事要长得多。

时间回到大约 600 万年前,我们的祖先面临着环境剧变,只有两个选择:解决智能问题,或者灭绝。最终胜出的物种,是通过一个改变了我们 「社会认知」 的反馈循环做到的。

这个循环听起来异常熟悉:第一,我们的大脑变得更大;然后,我们将大脑连接在一起(形成社会),这使我们能够进一步微调对社会信息的处理能力;而这反过来又促进了我们大脑的进一步增大。

但扩容只是故事的一半。另一半是,我们变得更机智的方式是 将我们的计算任务「外包」给彼此的大脑,并将认知分布在整个社会环境中 。这极大地增强了我们的集体智能。

亚马逊的 AGI 设想:超越「思维机器」。

这里的关键洞见是: 「升级我们智能的历史,并非始于计算机,而是始于一种让我们能够将彼此的心智用作工具的进化适应。」

Danielle 用一句话总结了这个石破天惊的观点: 「让我们的智能变得通用和灵活的东西,是能够推断他人心智的存在。」

这意味着,通用智能 (General Intelligence) 不是一个孤立的超级大脑。也不是一个没有理由与我们对齐的黑箱。更不是一个被锁在盒子里的模型。

真正的通用智能,是通过我们的互动而涌现。它本质上是社会的、分布式的、不断演化的。

因此,我们不能仅仅衡量模型的能力或平台使用时长,我们必须衡量人与 Agent 的「互动质量」,关注那些真正属于「人」的指标:创造力、生产力、战略思维,甚至是心流状态。

而实现这一切的进化适应性工具,就是 语言

亚马逊的 AGI 设想:超越「思维机器」。

语言与我们的 「心智模型」 在另一个飞轮中共同进化。它既是心智模型发展的缘由,也是其结果。当我们能更好地理解他人意图时(心智模型更稳定),我们的语言能力就得到提升;而更强的语言能力,又让我们的心智模型变得更加稳定。

最终,心智模型本身成为了「最初的占位符概念」,是能够代表任何概念的第一个「变量」。

「这,就是泛化。」 Danielle 解释道。

这就是人类语言与编程语言或 LLM 所「理解」的语言的根本区别。其他交流系统没有心智模型,编程语言不会实时协商意义,而 LLM 并不理解「词语指向的是心智创造出来的东西」。当我们问「一个词里有什么?」时,答案实则是:「心智」。

未来之路:构建人与 Agent 的共同进化飞轮

从语言开始,人类发明了一系列 「认知技术」 ,每一种都建立在前一种的基础上,让我们能进行日益抽象的思考。这些技术,如书写、数学和计算机,通过在一个社群中不断进化而变得有用。

亚马逊的 AGI 设想:超越「思维机器」。

它们通过将我们的注意力引向环境中的一样事物,协助我们从噪音中筛选出信号,共同构建对世界的模型,从而「控制」了我们大脑天生的「幻觉」。

Danielle 说: 「这听起来就像我们正在构建的东西。」

可以将 Nova Act 视为一种新的认知技术的「原语」,其目标是 「对齐人类与 Agent 的表征」

那么,如何让 Agent 真正变得可靠?最终, 它们将需要拥有关于我们心智的模型

我们无法直接构建这个模型,但可以为它的涌现创造前提条件。这需要:

  • 一个共享环境的模型: 这就是 Nova Act 正在做的,将 UI 作为人机共享的交互世界。
  • 支持直觉交互的界面: 让沟通自然流畅。
  • 一个共同的语言: 在共享的环境和界面之上,人与 Agent 才能发展出真正对齐的沟通方式。

这将启动一个强劲的飞轮:

  • 开发者社区利用 Nova Act 构建出 有用的产品
  • 有用的产品吸引大量用户使用,从而产生海量的 人机交互数据
  • 这些宝贵的数据将用于 提升模型 ,使其更懂我们的目标和意图。
  • 更智能的 Agent 将协助我们自动化繁琐任务,重新分配技能,甚至发现新知识,最终 让我们所有人都变得更机智

亚马逊的 AGI 设想:超越「思维机器」。

这就是亚马逊 AGI 实验室提出的「有用通用智能」的实现路径。它不是一场关于技术本身的军备竞赛,而是一场关于构建集体智慧的宏大社会实验。

亚马逊的 AGI 设想:超越「思维机器」。

其最终目标并非创造一个取代我们的全能的神,而是创造一个能成为我们「集体潜意识」的伙伴,一个能真正解放人类潜能的工具。

正如 Danielle 在演讲结尾所说,这是一项需要所有人参与的集体事业。由于真正的通用智能,终将由我们与 AI 共同构建。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容