GPT-5.2评测出炉:专业领域吊打人类,常识题却输给Claude?

匿名作者
2025-12-16 10:445

导语:在OpenAI十周年之际发布的GPT-5.2系列模型引发了巨大争议。官方数据显示,该模型在专业基准测试中表现惊人,甚至在GDPval测试的44个职业任务中以70.9%的成绩碾压顶尖人类专家,编程能力也创下新高。然而,其在常识推理上的表现却让人大跌眼镜,被指出现“智力偏科”。

惊人的专业能力与SOTA成绩

根据OpenAI的介绍,GPT-5.2在多个专业领域取得了实质性突破。除了在职业任务评估中超越专家外,在SWE-bench Pro编程测试中,它也达到了55.6%的SOTA(State of the Art)成绩。此外,困扰大模型已久的幻觉问题也得到改善,幻觉率较前一版本GPT-5.1降低了38%。

这些硬核数据让技术圈感到振奋,似乎标志着AI在处理复杂、专业知识工作方面实现了又一次飞跃。

常识“翻车”引发质疑

然而,并非所有反馈都是正面的。在SimpleBench常识推理测试中,GPT-5.2的得分竟然低于竞争对手Anthropic发布的Claude Sonnet 3.7。

用户发现模型在一些看似简单的问题上表现拙劣。例如,在回答“garlic(大蒜)这个单词有几个r”时,模型常常出错,三轮测试仅对一次。相比之下,谷歌的Gemini 3.0等竞品则能稳定通过此类逻辑挑战。这种反差让部分用户感到失望,前AWS总经理Bindu Reddy甚至直言:“不值得从GPT-5.1升级。”

![]([object Object])Google_AI_Studio_2025-12-16T02_32_49.968Z.png

图源备注:图片由AI生成

智能进阶还是局部倒退

尽管技术的进步不可否认,但GPT-5.2所面临的挑战也发人深省。AI模型在处理高难度任务与简单常识问题之间的巨大能力落差,引发了关于“AI智能水平”本质的争论。

这是否意味着技术在某些基础维度发生了退步,亦或只是深度学习特定阶段的正常现象?GPT-5.2的发布标志着OpenAI在专业垂直领域的统治力,但也暴露了通用大模型在常识推理等基础任务中仍存短板。这场关于AI“偏科”的讨论,或许将成为未来算法优化的重要课题。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译