谷歌Gemini 2.5音频模型重磅升级 指令遵循率飙升,函数调用反超OpenAI

匿名作者
2025-12-17 09:3017

导语:谷歌最新发布的 Gemini 2.5 Flash Native Audio 更新,将语音助手的指令遵循准确率大幅提升至90%,并在 ComplexFuncBench 基准测试中以71.5%的成绩超越了竞品,标志着其在处理复杂工作流和多步骤对话方面取得了突破性进展。

核心性能显著增强

谷歌此次发布的更新主要针对 Gemini 2.5 Flash Native Audio 模型,旨在解决语音助手在处理复杂任务时的痛点。根据官方反馈,新版本在理解和执行用户请求方面表现优异,开发者指令的遵循率从之前的84% 跃升至90%。这一数据的提升意味着用户在与语音助手交互时,将获得更加精准、响应更迅速的体验,尤其是在面对非标准化或含糊不清的口语指令时,助手的理解能力得到了质的飞跃。

对话质量与基准测试表现

在多步骤对话场景中,更新后的模型展现出了极佳的连贯性。不仅对话流程更加自然流畅,助手在适应复杂询问和连续任务执行上的能力也显著增强。

值得关注的是,在行业权威的 ComplexFuncBench 基准测试中,新版模型的函数调用准确率达到了71.5%。作为对比,OpenAI 的 gpt-realtime 模型在该项测试中的得分为66.5%。尽管谷歌方面指出测试可能未包含 OpenAI 最新发布的版本,但这组数据依然有力地证明了谷歌在音频模型领域的强劲竞争力。

Google_AI_Studio_2025-12-17T01_22_29.555Z.png

图源备注:图片由AI生成

全面覆盖谷歌生态

目前,这项技术升级已全面接入谷歌的生态系统。包括 Google AI Studio、Vertex AI、Gemini Live 以及 Search Live 在内的多个平台均已上线新版本。Google Cloud 的企业客户也已开始部署并使用这项新技术来优化其业务流程。对于开发者而言,现在即可通过 Gemini API 对模型进行调用测试,探索其在各类应用场景中的潜力。

这次更新不仅是技术参数的提升,更折射出谷歌在人工智能领域持续深耕的决心,致力于为用户提供更高效、更自然的交互体验。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译