5月13日,小米技术宣布正式发布并开源了XiaomiOneVL一步式潜空间语言视觉推理框架。这一模型在行业内首次实现了VLA、世界模型、潜空间推理等多个技术路线的统一,不仅提升了推理的速度和精度,还在精度上超越了显式CoT,在速度上与“仅答案”预测的潜空间CoT方案对齐。
XiaomiOneVL通过潜空间推理,将VLA和世界模型这两条自动驾驶领域的独立技术路线统一到同一套框架中。该框架在感知、推理与规划的多个主流基准上刷新了潜在推理方法的性能上限,在ROADWork、Impromptu、Alpamayo-R1三项基准上均达到SOTA,并在NAVSIM上取得了优越性能。此外,XiaomiOneVL还能为模型决策提供语言和视觉双维度的可解释性,既能用文字说明“为什么这样开”,也能用预测画面展示“接下来会发生什么”。
小米已将XiaomiOneVL的模型权重和训练、推理代码全面开源,技术报告、项目主页和开源代码的链接已提供,以供业界参考和使用。


