2月12日,小米宣布发布开源VLA模型Xiaomi-Robotics-0,该模型拥有47亿参数,结合视觉语言理解与高性能实时执行能力,刷新多项SOTA记录。Xiaomi-Robotics-0在三大主流仿真测试中获得优异成绩,并在现实真机任务中实现物理智能泛化,动作连贯、反应灵敏,能在消费级显卡上实现实时推理。模型采用Mixture-of-Transformers(MoT)架构,包含视觉语言大脑(VLM)和动作执行小脑(ActionExpert),通过多模态与动作数据的混合训练,保持强大的物体检测、视觉问答和逻辑推理能力。
Xiaomi-Robotics-0通过异步推理模式解决推理延迟引发的真机“动作断层”问题,保障动作连贯流畅。模型引入CleanActionPrefix和Λ-shapeAttentionMask机制,提高对环境变化的响应敏捷性和运行稳定性。在多维度测试中,模型展现出优异表现,包括在LIBERO、CALVIN和SimplerEnv测试中的Benchmark、30种模型对比中均取得最优结果,以及在双臂机器人平台上的积木拆解和叠毛巾任务中展现出极高的手眼协调性。
小米宣布将Xiaomi-Robotics-0模型进行开源,提供技术主页、开源代码和模型权重链接,以促进技术交流和发展。


