1月22日,微软宣布推出一款名为Rho-alpha的新型AI模型,专为机器人领域设计,旨在使机器人能够在更复杂、不可预测的真实世界中执行任务。Rho-alpha由微软研究院开发,是微软基于Phi视觉-语言模型家族,首次为机器人应用打造的系统。该模型的核心能力是将自然语言指令直接转化为机器人控制信号,使机器人能够完成复杂的双手协同操作任务,无需依赖传统工业机器人的固定脚本和预设流程。
Rho-alpha不仅属于视觉-语言-行动模型的范畴,还引入了触觉感知能力,使机器人可以根据触觉反馈实时调整动作。微软表示,未来版本还将加入力感知等更多传感模态,以提升操作精度和安全性。此外,Rho-alpha具有适应性,能够在运行过程中动态调整行为,而非完全依赖预训练结果。当机器人出现操作失误时,人类操作者可以通过3D输入设备等直观工具进行干预,系统会将这些纠正反馈纳入学习过程。
在数据层面,微软试图解决机器人领域长期存在的训练数据不足问题。Rho-alpha采用了真实机器人演示、仿真任务以及大规模视觉问答数据相结合的训练方式。大量合成数据通过运行在Azure基础设施上的机器人仿真和强化学习流水线生成,再与商业及开放数据集中的真实机器人数据融合使用。微软计划通过研究型早期访问计划向外部开放Rho-alpha,并在未来提供更广泛的使用渠道。


