蚂蚁集团发布并开源了视觉-语言-动作模型 LingBot-VLA,凭借创新的混合架构与卓越的空间感知能力,该模型大幅降低了机器人开发门槛,推动具身智能向通用化迈进。
混合架构引领通用操控
蚂蚁集团近日推出的 LingBot-VLA,是一款专注于现实世界机器人复杂操控的基础模型。为了构建这一系统,研发团队在 AgiBot G1、AgileX 等 9 种主流双臂机器人上,采集了约 2 万小时的真实遥操作数据,并利用 Qwen3-VL 生成高质量的语言指令,打造了扎实的预训练数据集。
LingBot-VLA 采用了创新的“混合 Transformer”架构。它以 Qwen2.5-VL 作为多模态主干,能够同时处理多视角图像和自然语言指令。模型内置的“动作专家”分支,利用条件流匹配技术,能实时结合机器人状态输出平滑且连续的控制轨迹,确保了双臂协作的精准度。
空间感知与数据效率的双重突破
针对传统模型在空间深度感知上的短板,蚂蚁集团引入了 LingBot-Depth 空间感知模型。通过特征蒸馏技术,LingBot-VLA 即使在传感器数据缺失的情况下,也能展现出卓越的 3D 空间推理能力,在叠放、插入等精细化任务中表现尤为出色。
在包含 100 项挑战任务的 GM-100 现实世界基准测试中,LingBot-VLA 的成功率达到 17.30%,显著优于 π0.5 和 GR00T N1.6 等同类模型。更重要的是,该模型具有极高的数据效率,仅需约 80 条特定任务的演示数据,即可快速适配新机器人。
开源生态赋能产业
目前,蚂蚁集团已将 LingBot-VLA 的全套训练工具包和模型权重正式开源。该工具包针对大规模 GPU 集群进行了优化,训练吞吐量比现有主流框架提升了 1.5 至 2.8 倍。
这一开源举措将极大降低机器人大模型的开发门槛,让更多开发者能够参与到具身智能的创新中来,加速技术向实际应用场景的渗透。
相关推荐

2025 AI 技术峰会

AI 实战课程
热门工具
AI 助手
智能对话,提升效率
智能图像处理
一键美化,智能修图
AI 翻译
多语言实时翻译






评论 (0)
暂无评论,快来发表第一条评论吧!