英伟达Polar框架发布:强化学习优化代码智能体性能大幅提升
创始人
2026-05-29 03:25:16
0

5月28日消息,英伟达研究团队本周发布了一个名为Polar的开源框架,该框架能够在不破坏原有工具调用、上下文组织和补丁提交方式的前提下,使Codex、ClaudeCode、QwenCode等现有智能体框架接入GRPO(广义相对策略优化)训练。GRPO是一种强化学习训练的优化方法,通过依据奖励信号调整模型策略,使模型在多步决策任务中学会更优动作。Polar的核心设计在于将智能体与模型之间的接口作为训练边界,而不是将执行框架本身改造成环境,从而降低了接入成本并保留了原生执行细节。

Polar框架由rolloutserver和gatewaynode组成,前者负责任务提交、会话调度、状态持久化和回调接收;后者负责会话执行全生命周期,包括运行时启动、执行框架准备、轨迹构建、结果评测和资源回收。此外,Polar还优化了初始化、运行中、后处理流程,并设置了READY缓冲区,以减少长尾任务对GPU训练的阻塞。在软件工程任务的实验中,Polar配合GRPO训练后,在SWE-BenchVerified的pass@1分数上实现了显著提升,效率方面也得到了极大的改善,如prefix_merging相比per_request,将训练步骤中的更新次数大幅降低,墙钟时间也显著缩短。

相关内容

英伟达Polar框架发布:...
5月28日消息,英伟达研究团队本周发布了一个名为Polar的开源框...
2026-05-29 03:25:16
9系新能源SUV扎堆上市,...
近日,问界M9、蔚来ES9、极狐问道V9三款"9系"车型同日上市,...
2026-05-29 03:24:20
新能源SUV安全大比拼:问...
今日,中保研(C-IASI)发布了2025年测评车型第四次结果,涉...
2026-05-29 03:23:16
蔚来李斌评法拉利Luce:...
近日,蔚来汽车创始人李斌在全新蔚来ES9上市后接受媒体采访,对法拉...
2026-05-29 03:19:34
2026天津智博会开幕,7...
5月28日,2026世界智能产业博览会在天津盛大开幕。本届博览会以...
2026-05-29 03:17:41
“问界M9改款升级:性能强...
近日,问界M9改款车型正式亮相,自23年底发布以来,累计交付量已达...
2026-05-29 03:00:16
奥迪Q9旗舰SUV将主攻美...
近日,奥迪CEO高德诺在全新Q9预览活动的采访中表示,奥迪希望通过...
2026-05-29 02:46:57
星尘智能发布8.99万双臂...
5月27日,星尘智能公司宣布推出新一代绳驱AI机器人T1,其起售价...
2026-05-28 10:22:14
蔚来ES9发布:48V主动...
5月27日,蔚来在其ES9上市发布会上,蔚来创始人、董事长、CEO...
2026-05-28 10:09:44

热门资讯

英伟达Polar框架发布:强化... 5月28日消息,英伟达研究团队本周发布了一个名为Polar的开源框架,该框架能够在不破坏原有工具调用...
9系新能源SUV扎堆上市,华为... 近日,问界M9、蔚来ES9、极狐问道V9三款"9系"车型同日上市,覆盖20万至60万元级差异化价格带...
新能源SUV安全大比拼:问界M... 今日,中保研(C-IASI)发布了2025年测评车型第四次结果,涉及三款新能源SUV车型:问界M8、...
蔚来李斌评法拉利Luce:实车... 近日,蔚来汽车创始人李斌在全新蔚来ES9上市后接受媒体采访,对法拉利首款纯电动车Luce的设计发表了...
2026天津智博会开幕,700... 5月28日,2026世界智能产业博览会在天津盛大开幕。本届博览会以“智行天下能动未来”为主题,聚焦低...
“问界M9改款升级:性能强悍S... 近日,问界M9改款车型正式亮相,自23年底发布以来,累计交付量已达28.5万辆。新M9在底盘、动力、...
奥迪Q9旗舰SUV将主攻美中市... 近日,奥迪CEO高德诺在全新Q9预览活动的采访中表示,奥迪希望通过这款旗舰SUV提升品牌认知,但不会...
星尘智能发布8.99万双臂机器... 5月27日,星尘智能公司宣布推出新一代绳驱AI机器人T1,其起售价仅为8.99万元,预计将于6月1日...
蔚来ES9发布:48V主动悬架... 5月27日,蔚来在其ES9上市发布会上,蔚来创始人、董事长、CEO李斌就主动悬架技术路线发表了明确观...
欧洲4月电动车销量激增,中国品... 5月27日,欧洲汽车制造商协会最新数据显示,4月份欧洲汽车市场增长主要由纯电动、插电式混合动力和混合...