谷歌DeepMind重塑AI评测标准 狼人杀与扑克成为新考卷

匿名作者
2026-02-04 11:232

谷歌 DeepMind 联合 Kaggle 升级 Game Arena 平台,引入“狼人杀”与“扑克”两款策略游戏。此举标志着 AI 性能评估正式从纯粹逻辑运算,向复杂的社交欺诈、不确定性博弈及人类心理揣摩能力跨越。

评测维度 从逻辑运算迈向社交博弈

DeepMind 研究团队敏锐地指出,传统的国际象棋等完全信息博弈已难以精准区分 顶尖 模型的细微智力差距。新一代基准测试旨在通过高维度的社交场景,极限压榨 AI 的认知边界。

狼人杀 这一新增项目的核心在于评估模型的“社交伪装”与“语言操服力”。AI 不仅需要理解游戏规则,更需在对话中识别虚假信息,甚至主动构建逻辑陷阱来误导对手。这要求模型具备极高阶的心智理论(Theory of Mind)能力。

扑克 则构建了一个经典的非完全信息博弈环境。与棋类游戏不同,扑克要求 AI 在信息缺失的情况下进行风险管理与概率计算,这与真实商业世界中的决策逻辑高度契合。

Google_AI_Studio_2026-02-04T03_14_02.969Z.png

图源备注:图片由AI生成

战力表现 Gemini3双雄霸榜

根据 Game Arena 公布的最新 Elo 积分排名,谷歌新一代模型展现了令人瞩目的统治力。

Gemini3Pro 凭借强大的深度推理能力,在长程规划类游戏中稳居榜首。而令人惊喜的是,轻量级模型 Gemini3Flash 在需要快速反应和多轮次迭代的博弈场景中表现卓越,甚至在部分指标上超越了参数量更大的对手。这一结果表明,在即时反馈型任务中,模型的响应速度与思维敏捷度可能比单纯的参数规模更为关键。

安全价值 模拟真实世界的欺诈检测

DeepMind 首席执行官 Demis Hassabis 强调,将“狼人杀”纳入测试不仅仅是为了娱乐,更具有深远的 AI 安全研究价值。

该测试场景实质上构建了一个受控的“欺诈实验室”。通过观察 AI 如何在游戏中学习操纵他人或识别谎言,研究人员可以更好地理解大模型在现实世界中可能产生的潜在风险。这种在无实际后果环境中进行的压力测试,对于开发能够抵御恶意引导、识别虚假信息的下一代安全系统至关重要。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译