4月6日,微软GitHub官方宣布为其CopilotCLI推出实验性功能RubberDuck,旨在通过引入跨模型家族的“第二意见”审查机制,显著提升AI性能。该功能通过异构模型作为独立审查者,提供差异化视角以挖掘潜在错误,特别是在代码规划阶段,有助于减少早期决策错误的累积。
RubberDuck功能采用跨家族模型组合策略,当用户选择Claude系列模型作为主控时,RubberDuck将调用GPT-5.4进行审查。其核心任务是检查智能体工作,输出高价值关注点清单,包括被遗漏的细节、值得质疑的假设及边缘案例。通过SWE-BenchPro基准测试评估,Sonnet4.6搭配RubberDuck后,成功弥补了74.7%的性能差距,在涉及3个以上文件或超过70步的困难任务中,得分比基线高出3.8%。
RubberDuck支持主动、被动及用户触发三种模式,系统会在制定计划后、复杂实现后及测试编写后三个关键检查点自动寻求审查,也可在陷入循环时被动触发。用户也可随时请求审查,Copilot将展示反馈内容与修改依据。目前该功能已在实验模式下线,用户可通过安装GitHubCopilotCLI并运行/experimental命令启用。
