
回顾一下,4月16日,OpenAI发布了一份关于其o系列新模型——OpenAI o3和OpenAI o4-mini——的System Card。这份文档不仅揭示了这两款模型在推理能力和工具使用方面的显著进步,也详细阐述了其训练方法、数据来源、安全评估以及在图像理解生成、数学推理等多个核心领域的表现。本文将对这份系统卡进行深度剖析,带你一探究竟。
1. 引言:o3与o4-mini概览
OpenAI o3和OpenAI o4-mini是OpenAI o系列模型家族的新成员,它们结合了当前最先进的推理能力和全面的工具使用功能。根据系统卡,这两款模型在解决复杂的数学、编码和科学挑战方面表现出色,同时展现了强大的视觉感知和分析能力。它们不仅仅是语言模型,更像是能够调用外部工具来增强自身能力的“智能体”。
2. 核心能力:推理与工具的融合
o3和o4-mini最显著的特点在于其推理能力与工具使用能力的深度融合。
推理能力:模型被训练成在回答前进行“思考”,能够产生长的内部“思想链”(Chain of Thought, CoT)。这种能力使得模型可以逐步分析问题,尝试不同策略,并识别错误,从而更好地遵循指导原则和模型策略。
工具使用:模型能够在其思想链中调用各种工具来增强自身能力。系统卡列举的工具包括:
网页浏览 (Web browsing)
Python解释器 (Python)
图像和文件分析 (Image and file analysis)
图像生成 (Image generation)
画布 (Canvas)
自动化 (Automations)
文件搜索 (File search)
记忆 (Memory)
例如,模型在处理任务时,可能会通过裁剪或转换图像、搜索网页获取信息,或使用Python分析数据来辅助其思考过程。
3. 训练关键:思考模式pattern
训练理念:“思考后回答”与“链式思考”
o系列模型的训练核心在于使其“思考后回答”。这意味着模型内部会生成一个详细的思考步骤序列,即“思想链”,然后才给出最终答案。通过这种方式,模型学习优化其思考过程,尝试不同策略,并识别和纠正错误。这种推理能力使得模型能更好地遵循特定指南和安全策略,提供更有帮助的答案,并更有效地抵制绕过安全规则的尝试。
预训练与模型数据
与OpenAI其他o系列模型类似,o3和o4-mini在多样化的数据集上进行训练,这些数据包括:
公开可用的互联网信息。
与第三方合作伙伴共同获取的信息。
用户、人工训练员及研究人员提供的信息。
OpenAI强调其数据处理流程包含严格的过滤机制,以保持数据质量并减轻潜在风险,例如使用先进的数据过滤流程减少训练数据中的个人信息。此外,还结合了其Moderation API和安全分类器,以防止使用有害或敏感内容,包括涉及未成年人的性内容等明确材料。
强化学习(RL)方案:基于思想链的训练
系统卡明确指出,OpenAI o系列模型是通过大规模强化学习(large-scale reinforcement learning)在思想链上进行训练的。这种先进的推理能力为提高模型的安全性和鲁棒性开辟了新途径。
具体来说,模型通过RL学习如何生成和优化其内部的“思想链”。这可能涉及到奖励那些能够导出正确、安全且符合指令的答案的思考路径。
RL训练数据的潜在形态可能包括:
人类反馈的思想链:人类标注员不仅对最终答案进行评价,还可能对模型生成的思考步骤进行打分或提供修正建议。
模型自身生成的思想链:模型生成多个思考路径,通过某种机制(如与正确答案比较,或由另一个奖励模型评估)来筛选和学习。
包含工具调用的思想链:训练数据中包含模型如何决定调用哪个工具、传递什么参数以及如何解读工具返回结果的示例。
审议对齐(Deliberative Alignment)
一个关键的训练方法是审议对齐 (Deliberative Alignment)。根据系统卡脚注[1]的定义:“审议对齐是一种训练方法,它教会LLM在产生答案之前明确地依据安全规范进行推理。”
这意味着模型在回应潜在不安全提示时,其内部思想链会包含对相关安全策略的考量和推理过程,从而决定如何安全地回应。这是一种更主动、更深层次的安全机制,而不仅仅是输出层面的过滤。
4. 多模态能力:对图像的理解与生成
o3和o4-mini展现了强大的视觉感知和分析能力。
视觉感知与分析
模型能够进行“图像和文件分析”,并在其思想链中利用这些信息,例如“裁剪或转换图像”。这表明模型具备理解图像内容、结构甚至进行一定操作的能力。
图像生成能力与安全
尽管o3和o4-mini本身不能原生生成图像,但它们可以调用图像生成工具。系统卡提到,它们使用了与GPT-4o系统卡图像生成附录中描述的相同的安全技术栈,以防止有害图像的生成输出。这意味着模型在调用图像生成工具前,会检测提示是否可能违反OpenAI的策略,并可以拒绝调用该工具。
报告显示,在应对人类策划的对抗性提示时,o3和o4-mini在拒绝调用图像生成工具方面与GPT-4o表现相当(not_unsafe 指标分别为0.98和0.98,与GPT-4o的0.96接近)。但在“不过度拒绝”(not_overrefuse)方面,o3 (0.55) 和 o4-mini (0.64) 低于GPT-4o (0.86),表明新模型在面对可能安全的提示时,倾向于更保守地拒绝生成。
视觉脆弱性评估
OpenAI邀请了外部红队成员评估o3和o4-mini与视觉能力相关的脆弱性。红队成员可以访问一个匿名界面,同时生成GPT-4o、o1、以及接近最终版的o3和o4-mini检查点的响应。
通过计算ELO分数(基于红队成员对“哪个完成最不安全”问题的顺序回答,越高分代表模型响应被认为更安全),结果(图1)显示:
o3和o4-mini通常被认为比o1更安全。
任何推理模型(o3, o4-mini, o1)都倾向于比GPT-4o更受青睐(在安全性上)。
评估涵盖了极端主义、地理定位、非法内容、受规管建议、刻板印象、视觉越狱等多个类别。
此外,在“人员识别和无根据推断评估”(表6)中,模型经过后训练以拒绝基于图像识别人员的请求,并拒绝无根据的推断(例如,根据图片判断“谁更危险?”或“她从事什么工作?”)。结果显示,o3和o4-mini在这方面表现与o1相当或更好。
5. 编程与推理能力
数学与科学挑战
系统卡开篇即强调,o3和o4-mini“擅长解决复杂的数学、编码和科学挑战”。这得益于其核心的推理能力和基于思想链的训练。模型能够分解复杂问题,利用其内部知识和(如果允许)外部工具来逐步求解。
编码能力评估
虽然系统卡没有专门为“编码”设立一级标题,但多项评估都涉及了编码能力:
AI自改进能力评估 (AI Self-improvement):
OpenAI研究工程师访谈(多选和编码问题):o3和o4-mini在编码面试问题上均取得了近乎完美的分数,表明该评估已饱和。但报告也指出,面试问题衡量的是短期(约1小时)任务,与真实世界的ML研究(1个月至1年以上)不同。
**SWE-bench Verified **:这是一个经过人工验证的SWE-bench子集,用于评估模型解决真实世界软件问题的能力。o3和o4-mini的表现优于之前所有已发布的模型,其中o3的“helpful-only”版本达到了71%的SOTA结果。
**OpenAI PRs **:衡量模型复现OpenAI员工的PR贡献的能力。o3 launch candidate得分最高(44%),o4-mini紧随其后(39%)。
**SWE-Lancer **:评估模型在真实世界、有经济价值的全栈软件工程任务上的表现,包括特性开发、前端设计、性能改进等。报告了pass@1性能和赚取的总金额。所有模型在SWE Manager任务上表现优于IC SWE任务。o1在SWE Manager任务中收入最高。o4-mini(无浏览)在IC SWE任务中收入$56,375,但在Manager任务中收入很少,原因在于错误地判断了Github问题的根源。
**PaperBench **:评估AI智能体从零开始复现SOTA AI研究论文的能力。o4-mini(无浏览)得分最高(24%),略高于o1。o3(无浏览)为18%。
这些评估表明,o3和o4-mini在处理明确定义的编码任务方面能力很强,但在更开放、更接近真实世界研究或工程复杂性的任务上,仍有提升空间。
6. 多语言能力
为了评估模型的多语言能力,OpenAI使用专业人工翻译将MMLU测试集翻译成13种语言(表16)。结果显示:
OpenAI o3的多语言能力相较于OpenAI o1有所提高。
OpenAI o4-mini的多语言能力相较于OpenAI o3-mini有所提高。
平均而言,o3-high的0-shot准确率为0.888,o1为0.877;o4-mini-high为0.852,o3-mini-high为0.807。
这些结果是通过zero-shot、思想链提示获得的。
小结一下
OpenAI o3和o4-mini系统卡描绘了在推理、工具使用和多模态理解方面取得显著进展的新一代AI模型。其“思考后回答”的训练理念、基于思想链的强化学习以及审议对齐等方法,不仅提升了模型的能力,也增强了其安全性和可控性。


















暂无评论内容