导语:在OpenAI十周年之际发布的GPT-5.2系列模型引发了巨大争议。官方数据显示,该模型在专业基准测试中表现惊人,甚至在GDPval测试的44个职业任务中以70.9%的成绩碾压顶尖人类专家,编程能力也创下新高。然而,其在常识推理上的表现却让人大跌眼镜,被指出现“智力偏科”。
惊人的专业能力与SOTA成绩
根据OpenAI的介绍,GPT-5.2在多个专业领域取得了实质性突破。除了在职业任务评估中超越专家外,在SWE-bench Pro编程测试中,它也达到了55.6%的SOTA(State of the Art)成绩。此外,困扰大模型已久的幻觉问题也得到改善,幻觉率较前一版本GPT-5.1降低了38%。
这些硬核数据让技术圈感到振奋,似乎标志着AI在处理复杂、专业知识工作方面实现了又一次飞跃。
常识“翻车”引发质疑
然而,并非所有反馈都是正面的。在SimpleBench常识推理测试中,GPT-5.2的得分竟然低于竞争对手Anthropic发布的Claude Sonnet 3.7。
用户发现模型在一些看似简单的问题上表现拙劣。例如,在回答“garlic(大蒜)这个单词有几个r”时,模型常常出错,三轮测试仅对一次。相比之下,谷歌的Gemini 3.0等竞品则能稳定通过此类逻辑挑战。这种反差让部分用户感到失望,前AWS总经理Bindu Reddy甚至直言:“不值得从GPT-5.1升级。”

智能进阶还是局部倒退
尽管技术的进步不可否认,但GPT-5.2所面临的挑战也发人深省。AI模型在处理高难度任务与简单常识问题之间的巨大能力落差,引发了关于“AI智能水平”本质的争论。
这是否意味着技术在某些基础维度发生了退步,亦或只是深度学习特定阶段的正常现象?GPT-5.2的发布标志着OpenAI在专业垂直领域的统治力,但也暴露了通用大模型在常识推理等基础任务中仍存短板。这场关于AI“偏科”的讨论,或许将成为未来算法优化的重要课题。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!