蚂蚁集团开源具身智能新模型 LingBot-VLA 突破机器人操控瓶颈

匿名作者
2026-01-30 11:2521

蚂蚁集团发布并开源了视觉-语言-动作模型 LingBot-VLA,凭借创新的混合架构与卓越的空间感知能力,该模型大幅降低了机器人开发门槛,推动具身智能向通用化迈进。

混合架构引领通用操控

蚂蚁集团近日推出的 LingBot-VLA,是一款专注于现实世界机器人复杂操控的基础模型。为了构建这一系统,研发团队在 AgiBot G1、AgileX 等 9 种主流双臂机器人上,采集了约 2 万小时的真实遥操作数据,并利用 Qwen3-VL 生成高质量的语言指令,打造了扎实的预训练数据集。

LingBot-VLA 采用了创新的“混合 Transformer”架构。它以 Qwen2.5-VL 作为多模态主干,能够同时处理多视角图像和自然语言指令。模型内置的“动作专家”分支,利用条件流匹配技术,能实时结合机器人状态输出平滑且连续的控制轨迹,确保了双臂协作的精准度。

Google_AI_Studio_2026-01-30T03_20_35.057Z.png

图源备注:图片由AI生成

空间感知与数据效率的双重突破

针对传统模型在空间深度感知上的短板,蚂蚁集团引入了 LingBot-Depth 空间感知模型。通过特征蒸馏技术,LingBot-VLA 即使在传感器数据缺失的情况下,也能展现出卓越的 3D 空间推理能力,在叠放、插入等精细化任务中表现尤为出色。

在包含 100 项挑战任务的 GM-100 现实世界基准测试中,LingBot-VLA 的成功率达到 17.30%,显著优于 π0.5 和 GR00T N1.6 等同类模型。更重要的是,该模型具有极高的数据效率,仅需约 80 条特定任务的演示数据,即可快速适配新机器人。

开源生态赋能产业

目前,蚂蚁集团已将 LingBot-VLA 的全套训练工具包和模型权重正式开源。该工具包针对大规模 GPU 集群进行了优化,训练吞吐量比现有主流框架提升了 1.5 至 2.8 倍。

这一开源举措将极大降低机器人大模型的开发门槛,让更多开发者能够参与到具身智能的创新中来,加速技术向实际应用场景的渗透。

评论 (0)

暂无评论,快来发表第一条评论吧!

AI 技术峰会

2025 AI 技术峰会

AI 实战课程

AI 实战课程

热门工具

AI 助手

智能对话,提升效率

智能图像处理

一键美化,智能修图

AI 翻译

多语言实时翻译