OPEN AI隆重推出 GPT-5.2

OPEN AI隆重推出 GPT-5.2

领先的前沿模型,为专业工作和持久运行的智能体而打造。


我们推出了 GPT‑5.2,这是 OpenAI 迄今为止最强大的模型系列,为专业知识型工作而打造。

目前,一般 ChatGPT Enterprise 用户表示⁠,AI 每天能为他们节省 40–60 分钟;而重度用户甚至表示,每周能节省超过 10 小时。我们打造了 GPT‑5.2,旨在帮助人们创造更大的经济价值。该模型在制作电子表格、设计演示文稿、编写代码、识别图像、理解长文本上下文、使用工具以及处理复杂的多步骤项目方面表现更佳。

GPT‑5.2 在众多基准测试中都刷新了行业水平,包括 GDPval。在该评测中,它在涵盖 44 个职业的明确知识型工作任务上超越了行业专家。

GPT‑5.2 Thinking GPT‑5.1 Thinking
GDPval(胜出或持平)
知识型工作任务
70.9%38.8% (GPT‑5)
SWE-Bench Pro(公开版)
软件工程
55.6%50.8%
SWE-bench Verified
软件工程
80.0%76.3%
GPQA Diamond(无工具)
科学问题
92.4%88.1%
CharXiv 推理(使用 Python)
科学图表类问题
88.7%80.3%
HMMT(2025 年 2 月)
数学竞赛
99.4%96.3%
FrontierMath(Tier 1–3)
高等数学
40.3%31.0%
ARC-AGI-1 (Verified)
抽象推理
86.2%72.8%
ARC-AGI-2 (Verified)
抽象推理
52.9%17.6%

Notion⁠(在新窗口中打开)、Box⁠(在新窗口中打开)、Shopify⁠(在新窗口中打开)、Harvey⁠(在新窗口中打开) 和 Zoom⁠(在新窗口中打开) 观察到,GPT‑5.2 展现出强大的长时推理和工具调用性能。Databricks⁠(在新窗口中打开) 、Hex⁠(在新窗口中打开) 和 Triple Whale⁠(在新窗口中打开) 发现,GPT‑5.2 在智能体数据科学和文档分析任务中表现出色。Cognition⁠(在新窗口中打开)、Warp⁠(在新窗口中打开)、Charlie Labs⁠(在新窗口中打开)、JetBrains⁠(在新窗口中打开) 和 Augment Code⁠(在新窗口中打开) 表示,GPT‑5.2 在智能体编码方面达到了行业领先水平,并在交互式编程、代码审查和缺陷定位等领域带来了可量化的提升。

在 ChatGPT 中,GPT‑5.2 Instant、Thinking 和 Pro 将从今天开始陆续上线,首先面向付费套餐用户开放。在 API 中,它们现已向所有开发者开放。

总体而言,GPT‑5.2 在通用智能、长上下文理解、智能体工具调用以及视觉方面都有显著提升,使其在端到端执行复杂的真实任务时,比以往任何模型都更为出色。

模型性能

具备经济效益的任务

GPT‑5.2 Thinking 是我们迄今为止最适合真实场景与专业工作的模型。GDPval⁠ 评测是一项覆盖 44 个职业、用于衡量明确知识型工作任务的评估。在该评测中,GPT‑5.2 Thinking 树立了新的技术标杆,是我们首个达到或超过人类专家水平的模型。具体而言,根据人类专家评审的结果,GPT‑5.2 Thinking 在 GDPval 的知识型任务中,有 70.9% 的对比项目表现优于顶尖行业专业人士或与其持平。这些任务包括制作演示文稿、电子表格以及其他专业产出。GPT‑5.2 Thinking 的输出速度在 GDPval 任务中比专家快 11 倍以上,成本却不到其 1%。这表明,在有人类监督的情况下,GPT‑5.2 能有效辅助专业工作。速度和成本估算基于历史指标;ChatGPT 的速度可能会有所不同。

GDPval Knowledge work tasksGPT-5.2 ProGPT-5.2 ThinkingGPT-5 Thinking0%20%40%60%80%100%与行业专业人员对比的胜率74.1%70.9%38.8%专家水平WinsTies

在 GDPval 测试中,模型尝试完成定义明确的知识型工作,内容涵盖美国 GDP 贡献度最高的 9 个行业中的 44 种职业。任务要求生成真实的工作成果,例如销售演示文稿、会计表格、急诊排班表、制造业图表或短视频。在 ChatGPT 中,GPT‑5.2 Thinking 拥有 GPT‑5 Thinking 所不具备的新工具。

在评审某个特别出色的输出结果时,一位 GDPval 评委这样评价:“这是一次令人兴奋的质量飞跃……它看起来就像是由一家拥有专业团队的公司完成的,布局设计颇为惊艳,对两个交付物的建议也非常到位,只是其中一个仍有一些小错误需要修正。”

此外,在我们针对初级投资银行分析师的内部电子表格建模任务的基准测试中(例如,为财富 500 强公司制作格式规范、引用完整的三表模型,或为私有化交易构建杠杆收购模型),GPT‑5.2 Thinking 的平均任务得分较 GPT‑5.1 提升了 9.3%,由 59.1% 增至 68.4%。

并排对比显示,GPT‑5.2 Thinking 生成的电子表格和幻灯片在复杂度与格式呈现上都有明显提升:人力资源规划工具股权结构表项目管理

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

提示:创建一份人力规划模型,涵盖人员编制、招聘计划、流失率以及预算影响,并包括工程、市场、法务和销售部门。

要在 ChatGPT 中使用新的电子表格和演示文稿功能,你必须订阅付费套餐,并选择 GPT‑5.2 Thinking 或 Pro。复杂的生成任务可能需要数分钟才能完成。

编码

GPT‑5.2 Thinking 在 SWE-bench Pro 测试取得了 55.6% 的新成绩。SWE-bench Pro 是一项严格评估真实软件工程能力的基准测试。与只测试 Python 的 SWE-bench Verified 不同,SWE-bench Pro 涵盖四种语言,旨在更具抗污染性、更具挑战性、更具多样性,也更贴近真实工业场景。

SWE-Bench Pro(公开版) 软件工程020,00040,00060,00080,000100,000输出 Token 数30%40%50%60%准确性GPT-5.1 Thinking (high)GPT-5.1-Codex-Max (xhigh)GPT-5.2 Thinking (xhigh)GPT-5.2 ThinkingGPT-5.1 ThinkingGPT-5.1-Codex-Max

SWE-bench Pro⁠(在新窗口中打开)⁠⁠ 为模型提供一个代码仓库,要求其生成补丁以完成真实的软件工程任务。

在 SWEvbench Verified 测试中(未绘制在图表中),GPT‑5.2 Thinking 取得了我们全新的最高成绩:80%。

在日常专业应用中,这意味着该模型能够更可靠地调试生产环境代码、实现功能需求、重构大型代码库,并以更少的人工干预完成端到端的修复交付。

GPT‑5.2 Thinking 在前端软件工程方面也优于 GPT‑5.1 Thinking。早期测试者发现,它在前端开发以及复杂或非传统的 UI 工作上表现更强(尤其是涉及 3D 元素的场景),这让它成为工程师在全栈工作中的强大日常伙伴。下面示例展示了它仅凭一个提示就能生成的内容:海浪模拟节日贺卡生成器打字雨游戏

https://cdn.openai.com/gpt-examples/463f0557-6d02-4392-b0b1-c8bd94b5cf82/ocean-wave-simulation-5.2.html

提示:创建一个单页应用(单个 HTML 文件),满足以下要求:
- 名称:海浪模拟
- 目标:展示逼真的海浪动画效果。
- 功能:可调整风速、浪高和光照。
- 界面:应呈现宁静且逼真的效果。

早期测试者分享了他们对 GPT‑5.2 编码能力的反馈:WindsurfWarpJetBrainsAugment CodeClineCharlie LabsKiloAzad

“GPT-5.2 代表了自 GPT-5 以来在智能体编码上的最大飞跃,并且在同价位中是业界领先的编码模型。版本号的提升甚至低估了它在智能水平上的跨越。我们很高兴将它设为 Windsurf 以及多个核心 Devin 工作负载的默认模型。”

Jeff Wang,Windsurf 首席执行官

事实性

GPT‑5.2 Thinking 的幻觉率低于 GPT‑5.1 Thinking。在一组来自 ChatGPT、已去标识化的查询中,含有错误的回答出现频率相对减少了 38%。对专业人士来说,这意味着在研究、写作、分析和决策支持等任务中,模型犯错更少,从而在日常知识型工作中更加可靠。

去标识化 ChatGPT 查询的回复层面错误率 GPT-5.2 ThinkingGPT-5.1 Thinking0%20%40%60%80%100%至少包含一个错误的回复6.2%8.8%

推理强度设置为可用的最高级别,并启用了搜索工具。错误由其他模型检测,但这些模型本身也可能出错。由于多数回复包含多个论断,论断层面的错误率显著低于回复层面的错误率。

像所有模型一样,GPT‑5.2 Thinking 并不完美。对于任何关键任务,请务必再次核查它的回答。

长上下文

GPT‑5.2 Thinking 在长上下文推理方面树立了新的技术标杆。OpenAI MRCRv2 是一项用于测试模型整合长文档中分散信息能力的评估,GPT‑5.2 Thinking 在该评估中表现领先。在真实任务中,例如深度文档分析(需要跨数十万 Token 关联信息),GPT‑5.2 Thinking 的准确性显著高于 GPT‑5.1 Thinking。值得一提的是,这是我们首次看到某个模型在 4-needle MRCR 评测变体(最长可达 256k Token)中实现接近 100% 的准确率。

在实际应用中,这让专业人士能够使用 GPT‑5.2 处理长文档,例如报告、合同、研究论文、会议记录和多文件项目,同时在数十万 Token 的范围内保持连贯性和准确性。因此,GPT‑5.2 尤其适合深度分析、信息综合以及复杂的多来源工作流程。

OpenAI MRCRv2 (4-needle) 长上下文8k16k32k64k128k256k最大输入 Token 数0%50%100%平均匹配率GPT-5.2 ThinkingGPT-5.1 Thinking

OpenAI MRCRv2 (8-needle) 长上下文8k16k32k64k128k256k最大输入 Token 数0%50%100%平均匹配率GPT-5.2 ThinkingGPT-5.1 Thinking

在 OpenAI-MRCR⁠⁠(在新窗口中打开) v2(多轮共指解析)测试中,评测会将多个完全相同的“针”(needle) 式用户请求插入到由大量相似请求与回复组成的“草堆”(haystack) 中,并要求模型复现第 n 个针对应的回复。第二版评测修正了约 5% 原本具有错误参考答案的任务。平均匹配率 (Mean match ratio) 衡量模型响应与正确答案之间的平均字符串匹配度。256k 最大输入 Token 的点表示在 128k–256k 输入 Token 区间的平均值,依此类推。这里的 256k 指 256 × 1,024 = 262,144 个 Token。推理强度设置为可用的最高级别。

对于那些需要在最大上下文窗口之外继续推理的任务,GPT‑5.2 Thinking 可与我们全新的 Responses /compact 端点配合使用,从而扩展模型的有效上下文窗口。这使得 GPT‑5.2 Thinking 能够处理更多依赖工具的长时工作流程,而这些流程在过去会受到上下文长度的限制。详情请参阅我们的 API 文档⁠(在新窗口中打开)

展望

GPT‑5.2 Thinking 是我们迄今最强大的视觉模型,在图表推理和软件界面理解方面将错误率大幅降低,约减少了一半。

在日常专业场景中,这意味着模型能够更准确地理解控制面板、产品截图、技术图示和可视化报告,从而支持金融、运营、工程、设计和客户支持等以视觉信息为核心的工作流程。

CharXiv Reasoning 科学图表类问题GPT-5.2 ThinkingGPT-5.1 Thinking0%20%40%60%80%100%准确性88.7%80.3%

在 CharXiv Reasoning⁠(在新窗口中打开) 测试中,模型需要回答关于科研论文中可视化图表的问题。测试中启用了 Python 工具,并将推理强度设置为最高。

ScreenSpot-Pro GUI 截图理解GPT-5.2 ThinkingGPT-5.1 Thinking0%20%40%60%80%100%准确性86.3%64.2%

在 ScreenSpot-Pro⁠(在新窗口中打开) 测试中,模型需要对来自多种专业场景的高分辨率 GUI 截图进行推理。测试中启用了 Python 工具,并将推理强度设置为最高。若不启用 Python 工具,得分会显著下降。因此我们建议在此类视觉任务中启用 Python 工具。

与以往模型相比,GPT‑5.2 Thinking 对图像中各元素的空间位置有更强的理解能力,这在需要依赖相对布局来解决问题的任务中尤为重要。在下面的示例中,我们让模型识别图像中的组件(这里是一块主板),并返回带有大致边界框的标签。即使面对低质量图像,GPT‑5.2 仍能识别主要区域,并将边界框大致放在各组件的真实位置上;而 GPT‑5.1 只能标出少数部分,对空间关系的理解也明显较弱。

GPT-5.1
Example output of GPT-5.1 identifying components in an image
GPT-5.2
Example output of GPT-5.2 identifying components in an image

工具调用

GPT‑5.2 Thinking 在 Tau2 bench Telecom 测试中取得了 98.7% 的全新优异成绩,展示了它在长程、多轮任务中可靠使用工具的能力。

在对延迟敏感的场景中,GPT‑5.2 Thinking 在 reasoning.effort=’none’ 模式下也有显著提升,性能大幅领先 GPT‑5.1 和 GPT‑4.1。

Tau2-bench Telecom 客户支持中的工具使用GPT-5.2 Thinking (xhigh)GPT-5.1 Thinking (high)GPT-5.2 Thinking (none)GPT-5.1 Thinking (none)GPT-4.10%20%40%60%80%100%准确性98.7%95.6%57.2%47.8%49.2%

Tau2-bench Retail 客户支持中的工具使用GPT-5.2 Thinking (xhigh)GPT-5.1 Thinking (high)GPT-5.2 Thinking (none)GPT-5.1 Thinking (none)GPT-4.10%20%40%60%80%100%准确性82.0%77.9%77.6%62.9%72.6%

在 τ2-bench⁠⁠(在新窗口中打开) 测试中,模型会在与模拟用户的多轮对话中使用工具完成客服任务。在电信 (Telecom) 领域中,我们在系统提示中加入了一段简短且普适有效的指令,以提升模型表现。由于航空 (Airline) 子集的参考答案与评分体系的可靠性较低,我们将其排除在评测之外。

对于专业人士而言,这意味着端到端的工作流程将更加稳健,例如处理客户支持案例、从多个系统提取数据、执行分析以及生成最终结果,各步骤之间出现中断的情况也会更少。

例如,当用户提出一个需要多步骤解决的复杂客服问题时,模型能够更有效地在多个代理之间协调完整的工作流程。在下面的案例中,一位旅客报告航班延误、错过转机、在纽约过夜以及需要医疗座位安排。GPT‑5.2 能够处理整个任务链,包括改签、座位安排的特殊协助和补偿,最终结果比 GPT‑5.1 更完整。

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT-5.1
Example of tool calling output in GPT-5.1
GPT-5.2
Example of tool calling output in GPT-5.2

科学与数学

我们对人工智能的期望之一,是它能够有效推进科学研究,从而惠及全人类。为此,我们一直与科学家合作并听取他们的意见,探索人工智能如何可提升他们的科研效率。上个月,我们在这里⁠分享了一些早期的合作实验。

我们深信,GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是目前最能支持并加快科研进展的模型。在研究生级防 Google 问答基准测试 GPQA Diamond 中,GPT‑5.2 Pro 取得了 93.2% 的成绩,GPT‑5.2 Thinking 紧随其后,达到 92.4%。

GPQA 钻石级 科学问题GPT-5.2 ProGPT-5.2 ThinkingGPT-5.1 Thinking0%20%40%60%80%100%准确性92.4%88.1%93.2%

在 GPQA Diamond⁠(在新窗口中打开) 测试中,模型需要回答物理、化学和生物领域的多项选择题。测试未启用任何工具,推理强度设置为最高。

在专家级数学评测 FrontierMath (Tier 1–3) 中,GPT‑5.2 Thinking 树立了新的技术标杆,解决了 40.3% 的问题。

FrontierMath (Tier 1–3) 高等数学GPT-5.2 ThinkingGPT-5.1 Thinking0%10%20%30%40%50%准确性40.3%31.0%

在 FrontierMath⁠(在新窗口中打开) 测试中,模型需要解决专家级数学问题。测试中启用了 Python 工具,并将推理强度设置为最高。

我们已经开始看到,人工智能模型在数学和科学领域以切实可见的方式有效推进研究进展。例如,在一项使用 GPT‑5.2 Pro 的近期研究⁠中,研究人员探讨了统计学习理论中的一个开放问题。在一个范围明确、设定清晰的情境下,模型提出了一个证明,之后由作者核实并请外部专家审阅,说明前沿模型在严密的人类监督下也能为数学研究提供帮助。

ARC-AGI 2

在 ARC-AGI-1 (Verified) 这一用于衡量通用推理能力的基准测试中,GPT‑5.2 成为首个突破 90% 阈值的模型,相较去年 o3‑preview 的 87% 有明显提升,同时将达到该性能的成本降低了约 390 倍。

在更高难度、更加侧重流体推理能力的 ARC-AGI-2 (Verified) 中,GPT‑5.2 Thinking 以 52.9% 的成绩刷新了链式思维模型的最新纪录;GPT‑5.2 Pro 表现更进一步,达到 54.2%,进一步拓展了模型在处理全新抽象问题时的推理能力。

从这些评测结果的提升可以看出,GPT‑5.2 在多步推理、数值准确性和处理复杂技术问题的稳定性上都有了更强的表现。

以下是早期测试者对 GPT‑5.2 的反馈:Triple WhaleNotionZoomBoxHexDatabricksHarveyParloaMoveworksShopify

“GPT-5.2 为我们开启了完整的架构转型。我们将一个脆弱的多智能体系统整合为一个拥有 20 多个工具的超级智能体。最棒的是,它就是这么好用。这款超级智能体速度更快、更聪明,维护起来容易 100 倍。我们观察到延迟显著降低,工具调用性能更强大,并且我们不再需要庞大的系统提示,因为 5.2 只需一行简单的提示就能稳定执行。这感觉就像魔法。”

AJ Orbach,Triple Whale 首席执行官

ChatGPT 中的 GPT‑5.2

在 ChatGPT 中,用户会发现 GPT‑5.2 的日常使用体验更佳 — 结构更清晰、更可靠,同时依然提供愉快的交流体验。

GPT‑5.2 Instant 是一款高效而强大的日常工作与学习“主力模型”,在信息查询、操作指南、步骤讲解、技术写作以及翻译方面都有显著提升,并延续了 GPT‑5.1 Instant 更温暖、更自然的对话风格。早期测试者特别指出,其解释更清晰,能够在一开始就呈现出关键信息。

GPT‑5.2 Thinking 专为更深入的工作而打造,帮助用户以更高的完成度处理复杂任务,擅长编码、长文档总结、回答上传文件相关问题、逐步推导数学与逻辑问题,以及通过更清晰的结构和更有用的细节支持规划与决策。

GPT‑5.2 Pro 是应对高难度问题时最智能、最可靠的选择,在需要高质量答案的场景中尤为适合。早期测试显示,它的重大错误更少,在编程等复杂领域的表现也更为出色。

安全

GPT‑5.2 延续了我们随 GPT‑5 提出的安全补全⁠研究,让模型在不越过安全界限的情况下,也能提供最有帮助的答案。

在此版本中,我们继续推进增强模型在敏感对话中的回应能力⁠这项工作,让它在面对自杀、自残、心理困扰或对模型产生情绪依赖等相关提示时,能够做出更恰当、更稳妥的回应。这些有针对性的改进让 GPT‑5.2 Instant 和 GPT‑5.2 Thinking 的不理想回复显著减少,相较于 GPT‑5.1 以及 GPT‑5 Instant 和 Thinking 模型都有明显提升。详情请参阅系统卡⁠

我们正在逐步上线年龄预测模型⁠,以便自动为未满 18 岁的用户应用内容保护措施,从而限制其接触敏感内容。这项工作是我们现有的未成年人识别机制和家长控制功能的延伸。

GPT‑5.2 是持续改进过程中的又一步,我们的工作远未结束。尽管这一版本在智能与效率方面实现大幅提升,我们深知用户仍期待更多。我们正着手解决 ChatGPT 中的已知问题,例如过度拒答,同时继续全面提升其安全性与可靠性。这些改动本身相当复杂,我们正全力以赴,确保一切落实到位。

心理健康评估

GPT‑5.2
Instant
GPT‑5.1
Instant
GPT‑5.2
Thinking
GPT‑5.1
Thinking
心理健康0.9950.8830.9150.684
情感依赖0.9380.9450.9550.785
自残0.9380.9250.9630.937

可用性与定价

在 ChatGPT 中,我们将从今天起陆续推出 GPT‑5.2(Instant、Thinking 和 Pro),首先面向付费套餐(Plus、Pro、Go、Business 和 Enterprise)用户。为了确保 ChatGPT 的稳定与流畅,我们会采取逐步上线的方式;如果你暂时还没看到更新,请稍后再试。在 ChatGPT 中,GPT‑5.1 仍会以传统模型的形式向付费用户提供三个月,之后我们将正式停止支持 GPT‑5.1。

ChatGPT 与 API 的模型命名方式

ChatGPTAPI
ChatGPT‑5.2 InstantGPT‑5.2-chat-latest
ChatGPT‑5.2 ThinkingGPT‑5.2
ChatGPT‑5.2 ProGPT‑5.2 Pro

在我们的 API 平台中,GPT‑5.2 Thinking 已可通过 Responses API 和 Chat Completions API 使用,名称为 gpt-5.2。而 GPT‑5.2 Instant 则以 gpt-5.2-chat-latest 提供。GPT‑5.2 Pro 在 Responses API 中以 gpt-5.2-pro 提供。开发者现在可以在 GPT‑5.2 Pro 中设置推理参数;此外 GPT‑5.2 Pro 和 GPT‑5.2 Thinking 现在都支持全新的第五档推理强度 xhigh,专为那些对质量要求最高的任务而设计。

GPT‑5.2 的价格为每百万输入 Token 1.75 美元、每百万输出 Token 14 美元,缓存输入可享受 90% 的优惠。在多项智能体评测中,我们发现,尽管 GPT‑5.2 的单 Token 成本更高,但由于其更高的 Token 效率,达到同等质量水平的整体成本反而更低。

虽然 ChatGPT 的订阅价格保持不变,但在 API 中, GPT‑5.2 的 Token 单价高于 GPT‑5.1,因为它的能力更强。不过,它的价格仍低于其他前沿模型,让大家依然能在日常工作和核心应用中加以充分利用。

每百万 Token 的价格

模型输入缓存的输入输出
gpt-5.2 /
gpt-5.2-chat-latest
$1.75$0.175$14
gpt-5.2-pro$21$168
gpt-5.1 /
gpt-5.1-chat-latest
$1.25$0.125$10
gpt-5-pro$15$120

目前尚无套餐在 API 中停用 GPT‑5.1、GPT‑5 或 GPT‑4.1,如未来有相关安排,我们会提前充分通知开发者。虽然 GPT‑5.2 已能在 Codex 中直接运行,我们预计将在未来数周推出专为 Codex 优化的 GPT‑5.2 版本。

我们的合作伙伴

GPT‑5.2 是我们与长期合作伙伴 NVIDIA 和 Microsoft 共同打造的成果。Azure 数据中心与 NVIDIA 的 H100、H200、GB200-NVL72 等 GPU 构成了 OpenAI 大规模训练的核心基础设施,为模型智能带来了显著提升。正是这种合作,使我们能够更有信心地扩展算力,并更快速地将新模型推向市场。

附录

详细基准

下面我们将展示 GPT‑5.2 Thinking 的完整基准测试结果,并同时提供一部分 GPT‑5.2 Pro 的相关数据。

专业
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
编码
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%50.8%
SWE-bench Verified80.0%76.3%
SWE-Lancer, IC Diamond*74.6%69.7%
事实性
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%91.2%
ChatGPT answers without errors (no search)88.0%87.3%
长上下文
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%29.6%
BrowseComp Long Context 128k92.0%90.0%
BrowseComp Long Context 256k89.8%89.5%
GraphWalks bfs <128k94.0%76.8%
Graphwalks parents <128k89.0%71.5%
展望
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%67.0%
CharXiv reasoning (w/ Python)88.7%80.3%
MMMU Pro (no tools)79.5%
MMMU Pro (w/ Python)80.4%79.0%
Video MMMU (no tools)85.9%82.9%
Screenspot Pro (w/ Python)86.3%64.2%
工具使用
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%95.6%
Tau2-bench Retail82.0%77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%44.5%
Toolathlon46.3%36.1%
学术
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%31.0%
FrontierMath Tier 4 (w/ Python)14.6%12.5%
抽象推理
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

在我们的 API 中,模型都以可用的最高推理强度运行(GPT‑5.2 Thinking 与 Pro 使用 xhigh,GPT‑5.1 Thinking 使用 high)。唯一的例外是专业类评测:在这些测试中,GPT‑5.2 Thinking 使用的是 heavy 推理强度,这是 ChatGPT Pro 中可用的最高等级。所有基准测试均在研究环境中完成,因此在某些情况下,结果可能会与正式上线的 ChatGPT 输出略有不同。

* 在 SWE-Lancer 测试中,我们排除了 40 个无法在当前基础设施上运行的题目(共 237 个题目)。