数码影音频道 频道

微软GitHub跨模型AI代码审查功能Rubber Duck:Claude搭档GPT-5.4,性能差距缩小74.7%

【IT168原创新闻】微软GitHub官方发布博文,宣布为Copilot CLI推出实验性功能Rubber Duck,引入跨模型家族的"第二意见"审查机制,让AI编程性能提升接近75%。

该功能的核心逻辑是:在代码规划阶段,单一AI模型的自我审查容易受限于自身的训练偏差与盲点,而Rubber Duck引入异构模型作为独立审查者,提供差异化视角以挖掘潜在错误。具体来说,当用户选择Claude系列模型作为主控后,Rubber Duck将自动调用GPT-5.4进行审查,输出被遗漏的细节、值得质疑的假设及边缘案例。

根据SWE-Bench Pro基准测试评估,基于Claude Sonnet 4.6搭配Rubber Duck后,成功弥补了74.7%的性能差距。在涉及3个以上文件或超过70步的困难任务中,得分比基线高出3.8%。实际案例显示,该功能能有效挖掘架构逻辑漏洞、循环覆盖错误及跨文件冲突等深层问题。

Rubber Duck支持主动、被动及用户触发三种模式,系统会在制定计划后、复杂实现后及测试编写后三个关键节点自动寻求审查。目前该功能已在实验模式下开放,用户安装GitHub Copilot CLI并运行/experimental命令即可启用。


0
相关文章