人类的工作是成为AI的“导师”?GPT-5.2带来的职业思考
发布时间:2025-12-12 21:45 浏览量:5
2025年底,OpenAI没有举办发布会,也没有发布新闻稿,直接推出了GPT-5.2,这次更新不是简单修补,而是彻底调整了核心部分,有人测试发现,它在投行建模方面比人类快十倍以上,成本几乎可以忽略不计,以前人们认为AI只是辅助工具,现在它已经能够替代一部分人力。
有一个叫做GDPval的测试专门考察职业能力,GPT-5.2 Thinking在里面的表现很突出,比如做杠杆收购建模这类复杂任务时,它的成功率超过七成,花费的时间只有人类的十一分之一,评审人员觉得它输出的内容像是公司老员工完成的,连排版也做得挺规范,和上一代GPT-5.1比较起来,电子表格建模的得分从不到六成提高到接近七成,这不是简单的进步,而是换了一个赛道。
技术上取得重大突破,ARC-AGI测试原本执行一次需要四五千美元,现在成本降到了十一块多,效率提升接近四百倍,已经超过谷歌Gemini 3 Pro的表现,在代码评测SWE-bench Verified中得分达到八十分,Pro版本也超过五成,前端三维界面开发方面能够处理很多工程师觉得棘手的任务,长文本处理能力同样出色,支持256k上下文且准确率接近满分,八针测试也能维持运行只是略有下降,新增的简洁回复模式让它能够同时调用多个工具,使用起来更加方便。
视觉和工具调用这方面有了升级,科学图表理解出错的次数少了一半,用高分辨率截图加上Python工具能拿到八十六分多,不过这里有个前提条件,那就是必须把工具打开,不然分数会掉得厉害,OpenAI他们自己也说,做视觉任务要是不搭配工具就别想做好,在电信客服这个场景里,多轮对话的成功率能达到百分之九十八,零售那边也能到百分之八十二,这说明AI确实可以完整地负责一个服务流程,从头到尾都不用让人来插手。
在科学领域里,GPQA研究生级问答能拿到九十三分,数学题解题率超过百分之四十,创造了新纪录,最让人惊讶的是,研究人员用它解决了一个统计学习理论中的开放问题,证明还得到了同行认可,AI不再只是重复知识,而是开始自己寻找答案、进行推导,幻觉率从百分之八点八下降到六点二,但OpenAI仍然提醒大家,重要内容需要人工再核对一遍。
在这些成果背后,有一群擅长数学的人作为支撑,从北大、中科大、斯坦福毕业的几位年轻人,比如Yu Bai、Yufeng Zhang和梅松,都是团队的核心力量,Meta曾经想招揽他们,但没有成功,后来OpenAI也不公布团队成员名单了,不过通过开发者圈子的祝贺消息,还是能看出这支队伍的大致情况,他们主要研究数学理论而不是写代码,这表明OpenAI的重点已经发生了变化。
以前靠大量工程实践堆砌出来的成果,现在开始用数学原理作为基础,模型能够自己完成金融建模、编写代码、分析图像甚至证明数学题目,这说明它的底层逻辑已经发生变化,人类的角色也在转变,不是完全被替代,而是退后一步成为检查者和设计者,人们需要给出方向,模型来执行具体细节。
我其实有点好奇,接下来会不会出现AI产品经理这种职位,这工作不是让AI去完成任务,而是教它怎么完成,现在的AI已经不只是个工具了,它更像一个能自己思考的同事,只不过这个同事有时候还会出错,需要你多留意,但它确实越来越像人了,只是这个人不用吃饭睡觉,也从不会抱怨加班。