1月28日,蚂蚁集团旗下蚂蚁灵波科技宣布全面开源LingBot-VLA具身大模型及后训练代码。LingBot-VLA已与多家机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。蚂蚁灵波科技还构建了一套后训练工具链,在8卡GPU配置下实现了单卡每秒261个样本的吞吐量,训练效率达到主流框架的1.5~2.8倍,降低了数据与算力成本。基于海量真实世界数据的预训练,蚂蚁灵波科技系统研究了VLA模型在真实机器人任务性能上随着数据规模增长时的Scaling Law。项目发现,随着预训练数据规模从3000小时扩展到20000小时,模型在下游任务的成功率获得持续且显著的提升。预训练数据量达到20000小时时,模型性能仍呈现上升趋势,表明VLA的性能能够随着数据量的增加而提升。
蚂蚁灵波科技还开源了LingBot-Depth空间感知模型。LingBot-Depth是一种面向真实场景的深度补全模型,依托奥比中光Gemini330系列双目3D相机进行RGB-Depth数据采集与效果验证,并基于深度引擎芯片直出的深度数据进行训练与优化。实验结果表明,LingBot-Depth模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。在多个基准测试中,LingBot-Depth在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平,并在无需显式时序建模的情况下保持视频级时间一致性。LingBot-Depth模型也已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方面均达到行业领先水平。


