程序员必看!ChatGPT深入研究功能实测,26.6%准确率碾压所有AI大模型

大家好,我是大头,职高毕业,现在大厂资深开发,前上市公司架构师,管理过10人团队!
我将持续分享成体系的知识以及我自身的转码经验、面试经验、架构技术分享、AI技术分享等!
愿景是带领更多人完成破局、打破信息差!我自身知道走到现在是如何艰难,因此让以后的人少走弯路!
无论你是统本CS专业出身、专科出身、还是我和一样职高毕业等。都可以跟着我学习,一起成长!一起涨工资挣钱!

chatGPT深入研究功能,不愧是AI届的扛把子

openAI一向是AI届的风向标,就如同手机都对标苹果,汽车都对标特斯拉,AI也都在对标chatGPT。

2025年2月2日,chatGPT发布了一项新功能,
深入研究
功能。当时是给Pro用户开放的,而现在,普通用户也有每个月5次的使用机会,大家可以体验一下。

效果确实很好,比思考要好用的多。


深入研究
功能是一款能通过推理整合海量在线信息,并为您完成多步骤研究任务的智能代理。

这是一项新的代理功能,可在互联网上针对复杂任务进行多步骤研究。它可以在数十分钟内完成人工需要数小时才能完成的任务。

深入研究是
OpenAI
下一代能够自主为您完成任务的智能代理——只需要提供一个提示,
ChatGPT
就会查找、分析并整合数百个在线来源,生成具有研究分析师水平的全面报告。

整合知识的能力是创造新知识的先决条件。因此,深入研究标志着向开发
AGI
这一更广泛的目标迈出了重要一步,我们很早就设想
AGI
能够产生新的科学研究成果。

下面有一个视频。

为什么要关注“深入研究”这类代理?

很多团队碰到的痛点是:信息太分散,人工查资料耗时。像我以前做竞品分析,常常需要翻几十篇白皮书,像剥洋葱一样慢。深入研究型智能代理能跨网页、PDF、图片检索并做推理。结果是什么?效率提升,但也伴随成本和风险。

举个生活例子:你叫外卖,速度快了,但偶尔会送错菜;同样,代理能快,但会“自信地撒谎”(hallucination)。这篇文章要帮你判断在哪些场景值得用,怎么安全地把它丢进工作流里。

该功能在查找需要浏览大量网站的细分、非直观信息方面尤为有效。深入研究只需一次查询,即可代您快速完成复杂耗时的网络调研,从而节省宝贵时间。深入研究可以独立发现、推理和整合来自整个网络的见解。

这项功能可以大大提升我们的效率,如果说
第一代搜索引擎
是百度、谷歌这种传统搜索引擎,
第二代搜索引擎
是chatGPT、Cluade、DeepSeek、Kimi这样的AI大模型,可以直接给出我们想要的答案,并且可以替我们搜索网页获得答案。那么
深入研究
就可以称得上是
2.5代搜索引擎
,它比单纯的AI大模型提供了更加优秀的搜索、整合、推理功能。

比如,你要分析一些竞品公司,那么可以直接用这个功能,整合这些竞品公司的各种数据,直接生成报表等,方便你进行分析查看,并且会给出分析建议。

核心能力与现状

能力焦点:多步骤网页浏览 + PDF/图片解析 + Python 数据处理 + 引用回溯。就像请了个会翻书还会写脚注的助理。例子:把 200 页技术白皮书压缩成 3 页要点,像把大米煮成粥——省事但要把火候掌握好。可用度与配额(示例):Pro 用户优先开放,最初版本对 Pro 每月配额更高(示例:250 次轻量/100 次完整版等,具体以官方为准)。想象成健身房会员等级,高级卡能先用器械。准确率(内部评估示例):在某些基准上,深入研究模型表现显著优于传统模型(示例数值:模型在“人类终极测试”上得分 26.6%),但这并不等于“百分百可信”。就像高考分高不代表专业合格。

3 个适合交给“深入研究”的实战场景

初步情报收集与文献综述

场景:团队需要 24 小时内得到一份覆盖面广的背景报告。

为什么合适:代理能并行抓取多个来源,做出结构化摘要。例子:要评估竞争对手 10 项专利时,代理能先做出专利矩阵,像把书架上的书按颜色分类一样快。风险与对策:引用格式可能有问题。对策:要求代理输出“原文句子 + 源链接 + 抓取时间”。

数据整合与可视化原型

场景:你需要把不同来源的表格合并并绘图支持决策。

为什么合适:代理带 Python 工具可以帮你清洗、合并、画图。生活例子:像把冰箱里剩菜拼成一顿正餐,省时但口味需调。风险与对策:数据缺失或单位不一。对策:在代理任务里明确“校验步骤”与“异常报告”。

商业可行性与快速市场筛查

场景:想要短时间判断市场机会(如你刚才提供的 iOS/Android + 语言学习场景)。

为什么合适:代理能产出候选市场清单并排序。例子:像速配 APP 的“初筛”,把 50 个市场筛成 5 个。风险与对策:法律或本地可用性(如某些地区无法访问服务)。对策:把“法律/可用性检查”作为单独子任务。

如何使用深入研究

在 ChatGPT 中,在消息编辑器中选择“深入研究”,然后输入您的查询。告诉 ChatGPT 您的需求——无论是关于流媒体平台的竞争分析,还是关于最佳通勤自行车的个性化报告。您可以附加文件或电子表格,为您的问题添加背景信息。一旦开始运行,侧边栏就会显示所采取步骤和所用资料来源的摘要。

深入研究可能需要 5 到 30 分钟才能完成工作,该时长可确保对网络信息进行充分深入的挖掘。在此期间,您可以离开或处理其他任务,研究完成后您会收到通知。最终输出会以报告形式显示在聊天工具中。在接下来的几周内,我们还将在这些报告中添加嵌入式图片、数据可视化和其他分析输出,以提供更清晰的解读视角和背景信息。

这里,可以明显发现深入研究的时长比较长,正常来说,我们直接使用AI工具是最快的,如果加上
思考
功能,会慢一些,而
深入研究
功能会更慢,当然了,效果也会更好。

与深入研究相比,
GPT‑4o
是实时、多模态对话的理想选择。对于需要深度和细节的多方面专业领域查询,深入研究能够进行广泛探索,并对每项主张进行引证,这就是快速摘要与有据可查、经过验证并可作为工作成果使用的答案之间的区别。

接下来看两个例子:

商业应用

给出一个问题:

请帮我找到过去10年iOS和android的采用率,想学习另一门语言的百分比,以及移动渗透率的变化,按GDP排名前10的发达国家和发展中国家。将这些信息放在表格中,并将统计数据分成不同的列,并包括ChatGPT针对新iOS翻译应用的市场推荐,重点关注ChatGPT目前活跃的市场。

我们来看一下普通的回答:


由于数据的限制,编纂关于iOS和Android采用率、有兴趣学习另一种语言的人口百分比以及过去十年移动渗透率变化的综合数据对于GDP排名前10的发达国家和发展中国家来说是具有挑战性的。然而,基于现有的信息,我们可以通过一个由ChatGPT驱动的新的iOS翻译应用程序为目标市场提供见解和建议。

Top 10 Developed Countries by GDP:

1.United States
2.Japan
3.Germany
4.United Kingdom
5.France
6.Italy
7.Canada
8.South Korea
9.Australia
10.Spain

Top 10 Developing Countries by GDP:

1.China
2.India
3.Brazil
4.Russia
5.Indonesia
6.Mexico
7.Turkey
8.Saudi Arabia
9.Argentina
10.South Africa

Insights:

- iOS和Android的采用率:在全球范围内,Android占据着大约70.93%的主导市场份额,而iOS在2024年占了大约28.32%。在美国,iOS以58.81%的市场份额领先。日本、加拿大、澳大利亚和英国等其他发达国家也对iOS设备表现出更高的偏好。相比之下,印度和巴西等发展中国家的Android设备普及率更高。
-对语言学习的兴趣:虽然对学习另一门语言感兴趣的人口的具体比例还不清楚,但像Duolingo这样的语言学习应用程序在全球的流行,在2024年7月大约有1430万次下载,表明人们的兴趣很大。在语言环境多样或英语不是主要语言的国家,这种兴趣可能更高。
-过去十年的手机渗透率:全球手机拥有量大幅增长。在美国,智能手机的拥有率从2011年的35%上升到2024年的91%。发展中国家也经历了移动普及率的显著增长,有助于更多地获得数字服务。

建议:

根据现有数据和ChatGPT的活跃市场,以下发达国家有望成为iOS翻译新应用的目标市场:
-美国:iOS市场占有率高,人们对语言学习的兴趣浓厚。
-英国:大量的iOS用户基础和具有不同语言需求的多元文化人口。
-加拿大:iOS的广泛应用和双语人口(英语和法语)增加了对翻译服务的需求。

在发展中国家中,下列情况值得注意:

- 中国:尽管安卓占据主导地位,但中国人口众多,人们对英语和其他语言的兴趣也在不断增长,这是一个重要的机会。
- 印度:安卓的使用率很高,但中产阶级也在不断壮大,iOS的普及率也在不断提高,对语言学习的兴趣也很强,尤其是英语。
- 巴西:主要是Android用户,但有相当大的语言学习应用市场,尤其是英语和西班牙语。

专注于这些市场符合ChatGPT目前的可用性,并利用了现有的移动应用趋势和语言学习兴趣。

可以看到上面的结果中规中矩,当然了,要比我们自己去搜索更加省事。

我们再看看
深入研究
的回答。


十大发达经济体(GDP排名)——智能手机操作系统份额、语言学习兴趣和移动渗透率增长

[这里是一个巨大的表格数据,表格比较详细,比较大,我就不放这里了]

十大发展中/新兴经济体(按GDP计算)-(考虑ChatGPT可用性)

[同上,一个大表格]

资料来源:智能手机操作系统份额来自StatCounter/Statista data(2023-24)。语言兴趣指标来自Preply, Eurobarometer, Babbel等的调查(例如,英国73%的人感兴趣;美国70%的人后悔没有语言;日本>的50%想要英语;培生全球调查)。移动渗透率是通过智能手机拥有率来衡量的——在过去的十年中,发展中市场(如巴西+40个百分点)显著增长,发达市场(如英国~82%)的饱和度也很高。

基于以上,新的ChatGPT支持的iOS翻译应用的主要目标是那些拥有庞大的iOS用户群和强大的语言学习需求,并且可以使用ChatGPT的国家。值得注意的是,日本、美国、英国、加拿大和澳大利亚成为首选。这些市场将iOS的高使用率(50-60%以上的份额)与对语言学习的巨大热情相结合——例如,日本的iPhone主导地位和学习英语的普遍愿望使其成为理想选择。像美国、英国、加拿大和澳大利亚这样的英语国家,尽管是单语社会,但对学习其他语言(如西班牙语或法语)表现出了浓厚的兴趣,这些国家都有超过80%的智能手机普及率和数百万的iPhone用户。

在新兴经济体中,墨西哥和巴西是次要目标:尽管Android盛行,但其庞大的人口规模意味着存在数千万iPhone用户,而且出于职业和教育原因,人们对英语的兴趣非常高。这些拉丁美洲市场(ChatGPT活跃地区)可能会为ios版应用带来巨大的市场份额,特别是考虑到人们学习英语的动机。相反,中国和俄罗斯则不太可行——中国的操作系统分裂为Android, ChatGPT在那里没有正式可用,俄罗斯面临准入和监管方面的不确定性。

总而言之,专注于ios密集型、支持学习的市场:日本和西方国家(美国、英国、加拿大、澳大利亚,以及德国和法国等高收入欧洲国家)应该是第一梯级目标。他们将iOS的稳健使用与良好的语言学习态度结合起来。第二梯队包括人口众多的发展中市场(墨西哥、巴西,也许还有沙特阿拉伯,因为其iPhone的历史使用率很高),这些市场对英语的兴趣很强——一旦应用程序在主要市场获得吸引力,这些市场就可以接近。这样的策略可以确保应用程序在发布时最大程度地符合平台(iOS)存在和用户对翻译/语言工具的需求,从而最大限度地提高采用和增长的可能性。

可以看到上面的一些区别,对于普通回答来说,深入研究有着更丰富的信息来源,更强大的信息查找能力,基于这些信息,会给出更加优秀的推理结果。

用户体验设计

给出一个问题:

找到证据,证明带有图标和标签的按钮比没有标签的按钮或没有图标的按钮更有用。我知道有很多关于它的用户研究,希望看到一份详细的报告以及一个关于有效性的高水平的、一旦确定的答案。

普通回答:


研究表明,组合了图标和文本标签的按钮通常比只包含其中一种元素的按钮更有效。由于不同上下文的不同解释,图标本身通常是模棱两可的。例如,像红心或星星这样的符号可能代表收藏夹、书签或评分,这会导致用户困惑。附带文本标签的图标明确了它们的预期功能,增强了可用性。

史蒂夫·麦卡锡的一项研究表明,当用户看到没有标签的常见图标时,他们很难准确识别它们的含义。这就强调了文本标签在确保用户理解图标目的方面的重要性。

然而,值得注意的是,在用户已经非常熟悉特定图标的界面中,没有标签可能不会影响可用性,甚至可以简化界面。然而,对于更广泛的受众,特别是在不同的背景下,将图标与文本标签相结合是可取的,可以减少歧义并增强用户体验。

总之,虽然图标可以增强界面的美感和效率,但将它们与文本标签配对可以确保清晰度并提高整体可用性。

深入研究回答:


带有图标和标签的按钮的有效性:可用性比较分析

总结
用户界面中的按钮可以用图标和文本标签来显示,也可以只用图标,也可以只用文本标签。可用性研究一致表明,将图标和文本标签结合在一起往往会为大多数用户提供最佳的整体效果。总的来说,图标+标签按钮减少了歧义性,帮助用户以更少的错误执行任务,是大多数用户的首选。如果图标非常熟悉,那么只有图标的按钮有时可以让用户快速识别,但它们通常不够清晰,当用户误解图标时,任务完成速度会变慢,甚至会出错。纯文本按钮通常很清晰,但缺乏图标所能提供的快速视觉线索和美学吸引力。总的来说,包含图标和标签的按钮达到了最佳平衡——提供了视觉锚点和明确的含义——从而在不同用户群体中带来了更好的效率、准确性、满意度和可访问性。以下详细的发现,来自同行评审的研究和权威的用户体验来源,支持这一结论。

任务完成时间和效率
用户找到并点击正确的按钮有多快?关于任务时间和效率的研究探索了图标是否加快了识别速度,标签是否提高了可查找性。主要发现包括:
- 图标可以快速-如果立即识别。在某些用户可以快速识别符号的情况下,只有图标的按钮会导致选择时间稍微快一些。例如,一项眼球追踪研究发现,没有文本标签的图标网格被选择得最快,这表明当图标易于识别并有效排列时(以熟悉的矩阵布局),它们可以最小化搜索时间。这表明图标具有促进快速视觉扫描的潜力。
- 模棱两可的图标拖慢了用户的速度。当一个图标的含义不明显时,用户会犹豫或花费额外的时间来弄清楚。在这种情况下,文本标签通过立即传达功能大大减少了认知负荷。Nielsen Norman Group强调,几乎所有的图标在没有上下文的情况下都是模棱两可的——即使是一个微小的变化或一个不太常见的符号也会让用户感到困惑。在可用性测试中,用户经常不得不“思考”未标记图标的含义,增加了交互时间。因此,如果用户不得不解读图标,那么图标的速度优势就会消失。
- 图标+文本组合设计的效果和单独设计一样好,甚至更好。经验测试通常表明,为图标添加标签不会显著损害效率——有时还可以提高效率。在一项比较纯文本UI、纯图标UI和图标+文本UI的研究中,三者的总体任务完成时间非常相似。完成一组任务的中位数时间,纯文本按钮约为78秒,纯图标按钮约为76秒,组合按钮约为93.5秒——差异没有统计学意义。这表明,平均而言,用户在使用组合格式时并不会变慢。事实上,阅读文本的任何轻微延迟往往会被选择正确选项的信心增加所抵消。
- icon+标签在复杂或新颖任务中的效率提高。当任务更复杂或用户不熟悉界面时,同时使用图标和标签可以简化流程。用户不会浪费时间猜测按钮的用途——图标吸引了注意力,标签也证实了这一点。特别是在导航菜单中,从一开始就在图标旁边显示文本(而不是在工具提示中隐藏标签或悬停时)可以防止额外的交互,并使导航更加高效。
- 年龄较大的用户受益于标签的速度。对老年人的研究表明,当图标伴随文本时,他们定位功能的速度要快得多。一项针对老年人(包括一些有轻度认知障碍的人)的实验发现,他们在使用带有文本的图标时表现最好,而在使用只有图标的按钮时表现困难且速度较慢。这意味着对于某些用户群体(较老的用户)来说,icon+label并不仅仅是同样有效——它比单独的图标更有效。

最重要的是——时间/效率:对于熟悉的符号和有经验的用户来说,图标可以很快地被识别,但在大多数情况下,添加一个文本标签并不会减慢用户的速度,而且通常可以防止由混淆引起的延迟。图标+标签按钮支持快速发现,通过结合直观的清晰提示,帮助用户快速自信地完成任务。

用户错误率
本节将讨论每种按钮样式对错误的影响——例如,点击了错误的按钮,遗漏了某个功能,或者因为误解了按钮的含义而误用了某个功能。
- 只有图标的界面通常会因为误解而产生更多的错误。没有标签,用户只能猜测图标的含义,这可能会导致错误的选择。研究表明,人们经常会错误识别未标记的图标。例如,一项经典的研究发现,用户在经常使用Microsoft Word后,只能说出大约6个工具栏图标的名称,这常常使许多人感到困惑。另一个有趣的发现是:一个用户认为标准的“保存”图标(软盘)是一台电视机,这说明符号是多么容易被误读。这种误解可能会导致错误(点击了一个意想不到的操作),或者导致用户完全避免使用图标(担心出现未知的结果)。在实际使用中,关键功能一直被忽视,直到添加了标签——例如,早期版本的MS Outlook有一个只有图标的工具栏,大多数非专业用户完全忽略了(实际上是遗漏错误),因为他们不理解这些图标。
- 纯文本按钮的解释错误很低,但也可能发生其他类型的错误。有了清晰的文本标签,用户很少会误解这个功能——“没有什么比‘保存’这个词更能表达‘保存’了。”由于歧义导致的错误被最小化。然而,纯文本界面的浏览速度可能会慢一些,如果用户浏览速度过快,可能会不小心跳过某个选项。一般来说,标签本身对于沟通功能是非常可靠的,在大多数情况下比单独的图标更少导致选择错误。
- 带有标签的图标错误率最低。这种组合提供了冗余:如果图标本身可能会误导,则标签会纠正它。相反,如果用户不阅读完整的标签,图标熟悉的形状或颜色可以吸引他们的眼球作为提示。许多可用性专家认为图标+文本是减少错误的最佳实践。为之前被忽略的Outlook工具栏图标添加标签导致了使用上的彻底转变——突然间“所有技能水平的人都开始正确使用它们”。这表明标签消除了混淆(用户现在知道每个按钮的作用),有效地消除了之前的使用错误。在另一个例子中,一项UI改进研究报告称,在图标旁边引入文本标签“立即解决了可用性问题”,人们不再点击错误的工具栏按钮。总之,图标+标签的设计往往是不言自明的,因此用户很少会选择错误的控件或忽略功能,与只使用图标的设计相比,大大降低了错误率。
- 早期的研究表明,在学习后,图标的准确性可以等同于或超过文本。值得注意的是,在受控的实验室条件下,用户拥有一组预先定义好的精心设计的符号,单独的图标有时会在错误率上匹配甚至超过文本。例如,一个早期的实验(Remington & Williams, 1986)发现,在视觉搜索任务中,参与者使用图标比使用文本标签犯的错误更少。然而,这个场景假定用户已经有效地了解了每个图标的含义,或者这些图标非常直观。在实际的日常软件使用中,这样的理想条件很少存在。在实验室之外,用户面临着许多抽象的图标,而无需训练——在这种情况下,文本标签要安全得多,可以防止错误。现在的共识是,除非你的图标像“垃圾桶=删除”或“打印机=打印”那样显而易见,否则仅仅依靠图标可能会让用户出错。
- 工具提示(悬停文字)是一个备用方案,而不是一个修复。界面有时试图通过在鼠标悬停(或长按)时显示文本提示来减少图标的模糊性。虽然这可以通过最终揭示标签来帮助减少错误,但它不能替代可见标签。首先,用户必须将鼠标悬停在每个图标上才能知道它是做什么的,本质上是反复试验。这会减慢它们的速度,并且仍然会导致初始错误。其次,对于触控设备或不太懂技术的用户来说,鼠标悬停提示可能根本就找不到。专家警告说“你的用户不应该到处寻找工具提示”——文本标签从来不需要这样的悬停帮助,这一事实有力地表明文本本身就更清晰。因此,为了尽量减少错误,最好直接显示标签,而不是隐藏它。

底线-错误:依赖只有图标的按钮通常会因为模糊性而增加用户错误(错误点击或错过选项)的风险。文本标签大大减少了解释错误,当与图标搭配时,它们几乎消除了识别按钮功能的混淆。图标+标签的格式是最抗错误的,特别是对于关键功能,错误会付出代价。

用户满意度与偏好
用户满意度是指用户有多喜欢这个界面以及他们使用它的主观舒适度/信心。用户偏好通常会在可用性研究中通过调查、访谈或可用性评分得出。以下是研究表明的用户对图标和文本的看法:

- 清晰驱动满足感。当用户能够轻松地理解界面时,他们往往是最开心的。不出所料,导致混乱的界面(通常只有图标的设置)导致沮丧。许多用户表示,他们不喜欢必须猜测符号含义的界面。“好的UI应该总是清晰的,”正如一位用户所说——当面对使用没有标签的图标的应用程序时,人们通常会求助于随机点击,并且感觉不太满意。另一方面,当按钮被明确标记(图标+文本或纯文本)时,用户会有更多的掌控感和自信,这提高了满意度。
- 图标和文本相结合的界面通常是评分最高的。当被问及偏好时,用户通常会选择同时具有图标和标签的设计,认为这是最友好的。在一项可用性比较研究中,参与者尝试了所有三种风格,图标+标签界面获得了最高的系统可用性量表(SUS)分数(标准化的可用性满意度指标)。具体来说,组合设计的得分约为91/100(这是一个“优秀”的分数),相比之下,只有文本的得分约为85,只有图标的得分要低得多(~75或更低)。这表明用户认为图标+标签的版本是最简单和最有效的。尽管纯文本版本的可用性也很好,但人们对添加的图标更满意,而纯图标版本在可用性方面远远落后。
- 图标增强了主观吸引力(当与文本搭配时)。从视觉上看,用户通常喜欢图标的存在——它们增加了色彩和趣味性,打破了原本单调的文本。带有图标的界面通常被描述为更“吸引人”和更容易浏览,因为图形将眼球吸引到关键选项上。然而,这种对审美满意度的积极影响只有在图标不引入混淆的情况下才会起作用。有了标签,用户就可以从图标的视觉吸引力中获得好处,而不会产生歧义,从而给人一种积极的印象。研究发现,用户有时会认为有图标的应用程序更容易使用,即使他们的实际任务性能并没有提高——这是Wiedenbeck(1999)观察到的现象。在该研究中,参与者认为图标+文本界面学习起来更“舒适”,可能是因为它看起来友好且信息丰富,尽管它们的成功率与纯文本界面相似。这表明了一种心理上的好处:用户只是喜欢使用有用的视觉效果的界面,只要它们具有解释性。
- 首选项因上下文而异,但icon+text是安全的默认值。用户的偏好取决于他们的目标。对于快速重复的操作,一些专业用户说他们更喜欢只有图标的工具栏(一旦他们学会了),因为它很简洁。但对于任何新的或不常见的任务,大多数用户表示希望有一个可见的标签。他们经常引用这样的理由:“我不想记住图标的意思”或“文本让它很明显”。在设计调查和A/B测试中,大多数用户选择标签图标作为他们最喜欢的设计,认为它“清晰且视觉上令人愉悦”。它达到了一种平衡——纯粹的文本可能会让人觉得无聊或难以浏览,而纯粹的图标则让人感觉神秘;这种结合既吸引人又可以理解。
- 使用图标+标签降低认知负荷。用户满意度与使用界面所需的心理投入密切相关。一项测量NASA-TLX(任务负载指数)的研究发现,严重依赖图标的界面具有最高的心理负荷,而同时具有图标和文本的界面具有最低的心理负荷(用户发现它的要求最低)。当用户不需要理解含义时,它会减少压力。参与者还评论说,当他们通过阅读标题来确认图标的含义时,他们感觉更放松,而只有图标的情况下,他们感觉必须记住或猜测,这可能会让他们感到压力。这种减少的精神努力转化为更高的主观满意度。

底线——满意度:绝大多数用户更喜欢易于理解和视觉上有帮助的界面。同时带有图标和标签的按钮正好满足了这一点——它们通常因清晰、自信和美观而受欢迎。只有图标的按钮通常会让用户感到沮丧(除非他们是专家),而只有文本的按钮虽然清晰,但在视觉上可能并不赏心悦目。将文本与图标组合在一起的满意度最高,这也是用户在问及他们喜欢的样式时的最常见选择。

可访问性的考虑
- 无障碍确保界面对残疾人或有残疾的人可用,包括使用辅助技术(如屏幕阅读器)的人、有视觉障碍、认知障碍的人等。当比较图标、文本和两者时,可访问性有一些重要的影响:
- 屏幕阅读器的兼容性:按钮上的文本标签可以立即被屏幕阅读器读取(为盲人或弱视用户读取UI元素的软件)。图标本身本质上是一个图像;如果没有文本标签,开发人员必须提供一个替代文本(“aria-label”或类似的文本),以便屏幕阅读器可以指出图标的作用。这是可访问性标准的要求(WCAG成功标准1.1.1:非文本内容必须有文本替代)。在实践中,当图标旁边有一个可见标签时,该标签通常用作按钮的可访问名称——这是一个健壮的解决方案。对于只有图标的按钮,如果缺少替代文本或写得不好,按钮将被宣布为“按钮”或其他模糊的东西,使界面对盲人用户不可用。因此,图标+文本是满足可访问性指导原则的最安全选择,因为文本是内置的,并且总是可用于辅助技术。
- 视力障碍和视力低下:视力低下的用户经常放大或使用屏幕放大镜。文本标签通常可以很好地缩放(特别是当UI使用响应式文本时)。图标缩放可能不那么清晰,或者可能像素化,如果在高缩放时人们只能看到屏幕的一部分,那么不熟悉的图标可能无法识别。此外,一些用户很难感知细节或颜色——一个小图标可能无法区分(例如,一个细线条的图标可能看起来只是一个污迹)。对于这些用户来说,文本标签至关重要。色盲用户也可以从标签中获益——例如,一个依赖于颜色编码的图标(如红色和绿色符号)对他们来说是无法区分的,但标签可以明确任何颜色的操作。同时提供两种模态(图标形状和文本)可以提高在错过另一种模态时,至少一种模态可以清晰显示的机会。
- 认知和学习障碍:图标在认知上具有挑战性——它们本质上是一种必须学习的视觉语言。有认知障碍、阅读困难或记忆问题的用户可能会发现很难记住给定的图标代表什么,特别是当它是抽象的。另一方面,文本标签可以用用户自己的语言阅读(或通过辅助技术听到),减少认知解码的工作量。对轻度认知障碍用户的研究表明,在图标中添加文本可以显著提高他们识别正确功能的能力。同样,自闭症患者或有注意力障碍的人往往更喜欢明确的指令(文本),而不是符号指令;标签可以通过消除歧义帮助他们专注于任务。总的来说,icon+text被认为更具有认知可及性,因为它不仅仅依赖于符号解释。
- 运动和灵巧性的考虑:如果用户有运动障碍,并且正在使用开关控制或语音命令进行导航,为目标设置清晰的标签可能很重要。语音控制软件通常让用户说出按钮的名称。如果按钮只是一个没有可访问标签的图标,用户可能不知道要说什么词(或者可能没有合适的名称)。对于可见文本,他们可以简单地说出该文本。对于只使用开关或键盘的用户来说,轻按控制键,听到有意义的标签被大声朗读,这对他们知道何时聚焦到正确的按钮至关重要。如果没有正确标记,只有图标的按钮可能会减慢或阻碍这些导航方法。
- 为了可访问性避免依赖于悬停的标签:一些设计隐藏了文本标签,只在悬停时显示它(工具提示)。这在多个方面都是可访问性的问题。首先,hover对于触屏用户(手机或平板电脑)来说是不存在的,所以这些用户可能根本看不到标签。其次,灵巧度有限的用户可能会发现很难在小图标上准确地悬停。第三,如前所述,屏幕阅读器默认不会触发鼠标悬停提示;它们依赖于底层的可访问名称。Nielsen Norman Group明确建议图标标签应该在任何时候都是可见的,而不仅仅是在鼠标悬停时,因为隐藏它们会“降低效果”,并且在触控设备上失败。简而言之,永久可见的文本比只在鼠标悬停时显示的文本更容易访问。
- 用户控制和自定义:作为辅助功能增强,一些应用程序提供了一种设置,可以在纯图标、纯文本或两者之间进行切换。这允许用户选择最适合他们的方式——例如,如果应用程序以某种方式默认只使用图标,视障用户可能会打开“图标上的文本标签”模式。专家建议,如果界面必须使用只有图标的按钮(可能是由于空间限制),最好至少允许文本标签的选项(或“可访问模式”)。然而,只需简单地为每个人默认使用带有标签的图标,就可以完全避免对这些选项的需求。

深入研究的回答其实后面还有很多内容,强烈建议大家去试一试,非常好用。

这个例子的对比更加明显,能看出来
深入研究
的回答更像一位专业的助手,你吩咐下去一个任务,他会去自己找资料,自己总结,并给你一份文档,你只需要看这个文档就可以了。

像不像老板和秘书?而且是有专业知识的秘书?

如果你是老板,你会选择雇佣谁呢?评论区一起讨论下~

工作原理

深入研究采用端到端强化学习方法,针对跨领域复杂浏览与推理任务进行训练。通过这种训练,它学会了规划和执行多步骤轨迹来查找所需的数据,并在必要时进行回溯和对实时信息做出反应。该模型还能浏览用户上传的文件,使用
Python
工具绘制和迭代图形,在回复中嵌入生成的图形和网站图片,并引用来源中的特定句子或段落。经此训练,该系统在多项面向现实问题的公开评估中达到全新性能峰值。

人类终极测试

在最近发布的人类终极测试⁠(在新窗口中打开) (Humanity’s Last Exam) 评估中,深入研究模型的准确率达到 26.6%,创下新高。这项测试涵盖多学科专家级难题,包括 3,000 多道选择题和简答题,涉及 100 多个学科,从语言学到火箭科学,从古典文学到生态学。与 OpenAI o1 相比,该模型在化学、人文和社会科学以及数学学科的进步最大。为深入研究提供技术支持的模型能够按需高效获取专业化信息,展示了类似于人类的方法。

模型 准确率 (%)
GPT-4o 3.3
Grok-2 3.8
Claude 3.5 Sonnet 4.3
Gemini Thinking 6.2
OpenAI o1 9.1
DeepSeek-R1 9.4
OpenAI o3-mini(均衡版) 10.5
OpenAI o3-mini(高性能版) 13.0
OpenAI 深入研究 26.6

可以看到准确率
遥遥领先
。。。

GAIA

在 GAIA⁠(针对真实世界问题评估人工智能的公共基准)上,为深入研究提供技术支持的模型达到了新的技术水平 (SOTA),在外部排行榜⁠(在新窗口中打开)上名列前茅。这些任务包括三个难度级别的问题,成功完成这些任务需要具备推理、多模式流畅性、网络浏览和工具使用熟练程度等能力。

GAIA 1 级 2 级 3 级 平均值
上一个 SOTA 67.92 67.44 42.31 63.64
深入研究 (pass@1) 74.29 69.06 47.6 67.36
深入研究 (cons@64) 78.66 73.21 58.03 72.57

专家级任务

在跨领域专家级任务的内部评估中,深入研究功能经领域专家评定,可自动化完成需数小时人工完成的复杂调研工作。

总结

这个功能现在可能还有一些问题,但是相比于其他模型来说,准确率已经算不错的了。因此还是很推荐大家使用的。

我觉得唯一的缺点就是使用次数太少了,普通用户每个月5次。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
Bobalyka的头像 - 宋马
评论 抢沙发

请登录后发表评论

    暂无评论内容