商汤开源 SenseNova-MARS 模型 视觉推理与图文搜索能力超越 GPT-5.2

匿名作者
2026-01-31 11:3011

商汤科技发布并开源首个支持动态视觉推理的 Agentic VLM 模型 SenseNova-MARS,凭借独特的“侦探式”逻辑,在多项核心榜单中击败 GPT-5.2,实现 AI 从理解到执行的跨越。

性能霸榜 搜索推理能力领跑

2026 年 1 月 30 日,商汤科技宣布开源 SenseNova-MARS 模型(含 8B 和 32B 两个版本)。在最新的行业基准测试中,该模型展现出超越闭源旗舰的竞技状态。

在衡量图文搜索核心能力的 MMSearch 评测中,SenseNova-MARS 以 74.27 分的高分登顶,显著领先于 GPT-5.2 的 66.08 分。同时,在对细节要求极高的 HR-MMSearch 以及 FVQA、InfoSeek 等多个权威视觉理解榜单中,该模型均取得了开源领域的 SOTA(当前最佳)成绩,证明了其在复杂信息检索与理解上的统治力。

Google_AI_Studio_2026-01-31T03_25_04.987Z.png

图源备注:图片由AI生成

核心技术 像人类一样使用工具

SenseNova-MARS 的核心突破在于其“自主规划”能力。它打破了传统模型被动问答的模式,能够模拟人类侦探处理案件的逻辑:

  • 微小细节捕捉:能精准识别图像中占比不到 5% 的关键信息(如赛车服 Logo)。
  • 动态图文联动:在识别瞬间自动调取全球范围内的相关数据。
  • 多跳深度推理:面对复杂问题,能自主拆解任务链条,先放大观察、再识别身份、最后检索背景。

训练秘籍 双阶段演进策略

为了赋予模型严密的逻辑,商汤团队采用了独特的两阶段训练法。第一阶段利用自动化合成引擎构建“高难度案例库”,夯实多跳搜索逻辑基础;第二阶段引入 BN-GSPO 算法进行强化学习,通过奖励机制平滑波动,使模型在面对未知复杂场景时表现更加稳定。

目前,商汤已将 SenseNova-MARS 的模型权重、代码及数据集在 Hugging Face 全量开源,旨在助力全球开发者共同探索具身智能与自主 Agent 的边界。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译