OpenAI GPT-5.4 发布全解析:从“对话模型”到“职业数字员工”的终极跃迁

发布时间:2026-03-07 10:29  浏览量:1

OpenAI最新力作GPT-5.4震撼登场,重新定义AI生产力工具的天花板。这款被誉为'专业工作前沿模型'的黑科技,不仅实现了百万级上下文处理、原生计算机操作等突破性功能,更在Excel建模、PPT制作等专业场景中超越人类表现。从精准点击鼠标到可视化调试代码,AI正从'助手'蜕变为真正的'数字员工'。

在这个持续狂奔的时代,AI 进化的速度永远超出我们的想象。就在昨天,OpenAI 再次扔下一枚重磅炸弹:

GPT-5.4 来了!

不仅仅是又一次常规升级,GPT-5.4 被 OpenAI 官方定义为“

最高效、最强大的专业工作前沿模型

”。它集结了业界领先的编码能力、百万级上下文、原生计算机使用(Computer Use)以及智能工具搜索等多项黑科技,旨在解决最复杂的真实世界专业任务。无论是 ChatGPT(以 GPT-5.4 Thinking 亮相)、API,还是 Codex,都在第一时间迎来了这款“生产力怪兽”。

与此同时,专为极致性能打造的

GPT-5.4 Pro

也同步上线。

如果说以前的模型是在“陪你聊天”,那么 GPT-5.4 就是真正在“

替你打工

”。

核心指标碾压:不止于提升,而是重塑标准

数据不会说谎。在各大评测基准中,GPT-5.4 展现出了统治级的实力。它全面超越了前代标杆 GPT-5.3-Codex 和 GPT-5.2。

通过下方对比表格,感受一下这次升级的震撼:

这不仅仅是微小的百分比提升。在测试桌面环境导航的

OSWorld-Verified

榜单上,GPT-5.4 的成功率从 GPT-5.2 的 47.3% 直接飙升至 75.0%,甚至一举超出了人类 72.4% 的表现。

AI 已经比你更能熟练地操作电脑了!

重新定义“知识工作者”

GPT-5.4 不是一个只会做题的模型,它是为了解决现实中的专业难题而生的。

在覆盖 44 种职业的知识工作基准测试

GDPval

中,GPT-5.4 取得了

83.0%

的胜率(追平或超越人类专家),大幅高于 GPT-5.2 的 70.9%。

什么算“知识工作”?

写一份严谨的销售PPT、制作一张复杂的财务Excel表、排布急诊科排班、绘制制造业流程图……这就是真实的工作。

Mercor的CEO Brendan Foody 评价道:

“GPT-5.4 是我们尝试过的最好的模型。它在我们的专业服务工作基准测试中登顶。它在制作PPT、财务模型和法律分析等长线交付物上表现卓越,同时运行速度更快、成本更低。”

不仅如此,在投行分析师经常面临的

Excel建模基准测试

中,GPT-5.4 平均得分高达

87.3%

(前代仅68.4%)。而在制作PPT时,由于审美更好、排版更丰富,人类评审官有

68.0%

的概率更偏爱 GPT-5.4 的作品。

与此同时,GPT-5.4 也是 OpenAI

最不易产生幻觉

的模型。内部评估显示,与 GPT-5.2 相比,新模型的单条声明犯错率降低了 33%,完整回复包含错误的概率降低了 18%。

Harvey 应用研究负责人 Niko Grupen 指出:

“GPT-5.4 为重度文档的法律工作树立了新门槛。在处理长篇合同保持准确性,提供法律从业者所需的高细节水平上,目前没有模型比它更好。”

前所未见的突破:AI 直接帮你“点鼠标”

这绝对是此次更新中最让人振奋的功能——

GPT-5.4 是首个原生且具备顶尖“计算机使用(Computer Use)”能力的通用模型。

这意味着什么?AI 不再只是给你返回文本或者代码,它可以直接“看”着屏幕,替你点击鼠标、敲击键盘,跨越不同的网站和本地软件,完成一整条工作流。

基于强大的视觉理解,GPT-5.4 可以分析浏览器界面截图,通过坐标精准点击,帮你发邮件、建日程,一切就像真人在操作一样。

在网页交互测试中,它的表现依然是无敌的存在:

WebArena-Verified

:结合DOM文档和截图交互,成功率达

67.3%

Online-Mind2Web

:仅使用截图观察,成功率直接冲向

92.8%

(全面超越基于代理模式的 ChatGPT Atlas 的 70.9%)。

Mainstay CEO Dod Fraser 直言:“在我们的评估中,GPT-5.4 约 3 万个 HOA 和房产税门户网站 进行操作,首次尝试成功率达 95%,三次内成功率 100%。而且它完成会话的速度快了 3 倍,使用的 Token 减少了 70%。”

并且,为了更好地看懂复杂画面,GPT-5.4 引入了全新的 original(原始)图像输入细节等级。它能够支持高达

1024 万像素

(最高维度 6000 像素)的全保真无损解析。复杂的软件界面、密集的文档表格,现在在它眼里清晰无比。

编码进化:极速模式 & 可视化调试大将

程序员朋友们,这次升级绝对不容错过。

GPT-5.4 继承了 GPT-5.3-Codex 的强悍编程基因。不仅如此,当你能在 Codex 中开启

/fast(极速模式)

时,GPT-5.4 能带来最高

1.5倍的提速

同样的顶尖智力,更快的响应速度。你可以在写代码、迭代测试、Debug 时持续保持在心流(Flow)状态,不被打断。

更为酷炫的是,OpenAI 释放了一个实验性 Codex 技能 ——

「Playwright (Interactive)」

。 利用这个功能,Codex 可以在构建 Web 应用或 Electron 应用的过程中,

一边写代码、一边进行可视化的 Debug

官方展示了一个惊人的全自动生成 Demo:由 GPT-5.4 生成的一款

等距视角主题公园经营游戏

。 通过一句精简的提示词,模型不仅写出了路径规划、游客寻路、队列管理和经营指标等复杂系统,还能自己去浏览器里试玩、纠错、优化。

Cursor 开发教育副总裁 Lee Robinson 赞不绝口:

“我们的工程师发现它比以前的模型更加自然果断。它能毫不犹豫地解决模糊不清的问题,并且非常积极地并行处理工作。”

更加聪明的工具生态管家

让 AI 帮我们做事,离不开“工具调用”。但以前模型在调用工具时有个致命弱点:它需要把所有工具库的说明全部输入到提示词里,非常消耗 Token 额度和算力。

GPT-5.4 在 API 中引入了史诗级革新:

工具搜索(Tool Search)

现在,模型只会收到一个轻量级的可用工具列表。当它认为需要某个工具时,模型会自己去“查找”该工具的定义。这种按需调用的方式,极大释放了百万级上下文的能力。

在 MCP Atlas 基准测试中,使用工具搜索可以

减少 47% 的 Token 消耗

,同时还能保持相同的高准确率!

这不仅省钱,还让 AI 构建巨型复杂系统(包含几万个工具接口)成为可能。此外,在处理多步复杂任务(如:阅读邮件-下载附件-登记表格-打分评级)时,它并行处理和决策的速度也远超 GPT-5.2。

Zapier CEO Wade 一语中的:

“GPT-5.4 是多步工具调用的新标杆。在之前模型放弃的地方,GPT-5.4 完成了任务——它是迄今为止最契而不舍的模型。”

上下文与深度掌控力

GPT-5.4 支持高达

1M(100万)

的 Token 上下文窗口。长远规划、全景视野,统统不在话下。

在 ChatGPT(GPT-5.4 Thinking)中,当你提出复杂的方案时,它会在长篇回复的开始,给出自己的

前置思考计划(Upfront Plan)

这是一个非常实用的交互升级。你可以在它“思考和工作”的中途,查看它的思路,并

实时进行纠错调整

。不用再等它洋洋洒洒说完几千字后,才痛苦地要求重写。

其次,它的深度网页研究能力变得更强。在寻找极其刁钻、难找的信息(大海捞针)时,GPT-5.4 Pro 的持久搜索能力达到了突破性的

89.3%

胜率。

安全性再升级

能力越强,责任越大。OpenAI 将 GPT-5.4 划分为“高网络安全能力”等级。 针对高风险的请求实施了更强大的拦截策略。同时最新的对“思维链(CoT)的可控性评测”显示,GPT-5.4 掩盖自身真实推理过程的能力很低。这意味着,该模型的透明度和可监控性非常高,是一项极具积极意义的安全特性。

价格与使用指南:更贵但更值

这么强大的模型,价格如何?

由于能力飙升,API 端 GPT-5.4 的单价确实高于 GPT-5.2。

但是,请注意:

基于我们前面提到的全新底层逻辑和超级卓越的 Token 使用效率(比如减少了 47% 花费的工具搜索功能),

完成同一项任务所消耗的总 Token 数量反而大幅下降了。

长远来看,它很有帮企业节省更多的成本。

对于 C 端用户: GPT-5.4 Thinking 从今天起逐步覆盖 ChatGPT Plus、Team 和 Pro 用户。GPT-5.2 Thinking 将在三个月后退役。更强大的 GPT-5.4 Pro 则是提供给 Pro 和 Enterprise 用户独享。

结语

GPT-5.4 的发布,犹如在专业办公领域插上了一把王旗。

它不再满足于对话框里的一问一答,而是亲自走下场,帮你整理复杂的 Excel、调取庞大的企业数据库、点击浏览器搞定繁杂流程,甚至一边写代码一边自我调试。

我们正在亲眼见证,AI 从“ Copilot(副驾驶) ” 向“真正的专属数字员工(Agent) ”全面进化的历史性时刻。准备好迎接新同事了吗?