越过人类操作基准线 GPT旗舰确立原生智能体执行标准

匿名作者
2026-03-07 10:169

OpenAI突袭发布全新一代旗舰模型,以75%的系统级操作成功率首次逾越人类平均水位。数字生命的演进逻辑已从内容生成彻底转向实体执行,金领级数字员工的商用奇点正式降临。

逾越人类基准的桌面级操控

科技圈再次迎来震撼弹。OpenAI毫无预兆地发布了具备原生电脑使用能力的通用模型GPT-5.4,直接重塑了现有的技术竞争格局。该模型摒弃了传统的外部适配层,直接通过屏幕截图识别、模拟鼠标点击和键盘输入,真正实现了类人化的桌面环境操作。

在衡量真实桌面导航能力的OSWorld-Verified基准测试中,新旗舰的成功率飙升至75.0%。这一数据不仅将前代模型的47.3%远远甩在身后,更是历史上首次超越了72.4%的人类平均基准线。

22.png

图源备注:图片由AI生成

打通应用权限与原生计算逻辑

目前该模型已在网页版和相关开发平台全面上线。大量实测数据表明,它几乎可以接管全部的主流桌面操作流。在深度应用控制方面,它可以自主调起日历应用申请权限以定制提醒,或精准定位第三方播客平台播放指定节目。

在系统级权限的调用上,用户能够通过自然语言指令令其更换桌面壁纸,甚至在终端环境中熟练调用各类开发工具。更具突破性的是原生计算逻辑的转变 机器不再单纯输出计算结果,而是直接在系统自带的计算器内进行模拟点击,彻底完成了从对话助手向执行实体的跨越。

23.png

图源备注:图片由AI生成

深度赋能开源智能体生态

这款前沿大模型的问世,无疑成为了爆款开源项目OpenClaw的天选引擎。接入新底座后,系统无需依赖复杂的黑客手段即可实现流畅的桌面自动化。其高达一百万Token的超长续航能力,根治了程序在处理长程复杂任务时的遗忘顽疾。

此外按需取用的机制促使资源消耗量锐减47%,大幅压缩了全天候运行的成本。在专业推理维度,其表现已超越八成以上的人类专家,推动基础设施从初级脚本运行器蜕变为能够输出财务分析与投资备忘录的高级智囊。

金领工作面临全方位重构

业内对此次技术迭代给予了极高评价。多位科技初创公司掌舵人断言,新体系的编程能力已近乎无懈可击,其专业水准即将凌驾于顶尖咨询公司、投行和律所之上。随着官方接入方案的落地,个人专属AI员工已迈过概念阶段打通现实路径。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译