智能体强化微调——OpenAI Will Hang与Cathy Zhou技术分享

来源： Youtube | Will Hang、Cathy Zhou | 2025-12-09 播客： AI Engineer 分类： OpenAI 原文发表： Dec 09, 2025 纪要生成： 2026-02-25

全集重点

Agent RFT：OpenAI推出的工具类智能体专用微调技术，样本效率极高最低仅需10个样本
产品创新：首次支持训练时调用用户公网工具与奖励端点，开放训练阶段外部交互能力
实测效果：可同时提升智能体准确率、降低调用步数与长尾延迟，适配多类编码场景
落地原则：需遵循先基线优化再微调流程，核心要保障任务清晰、奖励无漏洞、无域偏移

嘉宾/话题简介

本次播客嘉宾为OpenAI微调团队的Will Hang与Cathy Zhou，二人核心负责智能体强化微调（Agent RFT）产品的研发与客户落地。本次分享系统讲解了Agent RFT的技术原理、核心优势、适用场景，结合4个真实企业客户的落地案例拆解实践方法论，最后给出了用户落地Agent RFT的4条核心成功原则，帮助开发者快速优化自有业务智能体的性能。

分节详述

00:00 Agent RFT核心概念与价值

本节重点

明确智能体与普通大模型的核心差异为可自主调用工具完成多步任务
梳理智能体性能优化的三层路径，Agent RFT为当前最高阶优化手段
介绍Agent RFT的两大核心产品更新与核心性能、效率优势

详细精要

智能体的核心定义与典型特征：和普通大模型的核心区别为可自主和外部环境交互完成任务，无需用户全程干预
智能体的工具调用行为与推理链路共享同一上下文窗口，二者交替执行完成任务
OpenAI内部基于该范式打造的旗舰编码智能体Codeex，可调用终端、代码解释器等工具端到端完成单元测试编写、代码库提交等全链路编码任务
智能体性能优化的三级路径：开发者可按优先级从低到高选择对应优化手段，逐层榨取性能增益
第一层为提示词工程/优化，通过调整提示词对齐偏好，无需改动模型权重
第二层为任务优化，可通过简化任务、新增防护规则、调整工具列表与工具行为适配智能体需求
第三层为微调，通过改动模型权重端到端适配任务，是提示词与任务优化后仍需提升性能时的选择
Agent RFT的核心能力与产品更新：Agent RFT是OpenAI推出的专门针对工具调用类智能体的强化微调方案，本次新增两大核心功能
首次支持模型在训练过程中调用用户部署在公网的工具端点，同时可调用用户部署的自定义奖励端点获取学习信号，教会模型区分好坏行为
训练过程中模型会自主探索多种工具调用路径，基于用户给定的奖励信号梯度爬升优化行为
Agent RFT的核心优势：相比普通微调更适配工具类智能体场景，样本效率与性能增益表现突出
样本效率极高，实测最低仅需10个样本即可获得明显性能提升，同时可降低智能体推理延迟
可针对性解决域偏移问题，适配用户私有业务环境，教会模型正确调用自定义工具、理解工具输出结果
可通过惩罚机制约束模型的工具调用预算，在不降低甚至提升性能的前提下控制调用次数，降低延迟

💬 精华片段（中文）

这两项新增功能标志着我们OpenAI首次允许模型在训练过程中与外部世界交互，我认为这非常酷。

"These two additions actually mark the first time that we at OpenAI have allowed models to interact with the outside world during the training process. So, I think this is pretty cool."

06:38 Agent RFT企业客户落地案例

本节重点

四大编码领域客户落地案例验证Agent RFT的性能增益效果
样本量、奖励函数设计、基础设施配套是落地成功的核心影响因素
Agent RFT可同时实现准确率提升、调用步数减少、长尾延迟优化三重效果

详细精要

Cognition Devon编码智能体落地案例：针对代码编辑规划阶段的文件选择场景优化，获得10个点的F1分数提升
客户构建了用户查询与用户实际修改文件的配对数据集，以选中文件的F1分数作为奖励，同时为每一条轨迹分配独立VM保障环境隔离，避免工具调用互相干扰
100个样本时获得5个点F1提升，扩容到1000个样本时提升到10个点，样本量与性能提升呈正相关
微调后智能体从原来8-10步交替推理与调用工具，优化为第一步就并行发起多个工具调用，步骤数压缩到4步，大幅提升响应速度
Codto代码审核智能体落地案例：针对大型代码库的开发者问题查询场景优化，准确率提升6%，同时消除长尾调用
客户基于8个代码库的1000条真实问答对训练，以召回相关事实的数量作为奖励信号
微调前GPT-5偶尔会出现单样本调用超过15次工具的长尾情况，微调后长尾现象完全消失，工具调用次数集中在2-4次区间
不仅提升了回答准确率，还大幅降低了P95延迟，适配生产环境的稳定性要求
Cosine企业级编码智能体落地案例：针对复杂企业代码库场景优化，实现多基准测试SOTA，同时大幅压缩轨迹长度
客户为智能体配置了30种工具，同时设计了严格的奖励规则：仅当最终代码通过测试时给予奖励，同时引入自定义大模型判官惩罚冗余表述、表情等不专业内容，奖励自我验证（运行测试、检查终端输出、lint校验）的行为
针对严格奖励带来的稀疏奖励问题，客户通过扩大batch size、增加算力投入提升正向样本出现概率，保障模型可以学习到有效行为
微调前单条轨迹最多可达100条消息，微调后收敛为更紧凑高效的步骤序列，速度大幅提升
Macco GPU内核编写智能体落地案例：针对稀缺的高性能GPU内核编写场景优化，仅用100个样本实现超过SOTA 72%的性能提升
GPU内核编写属于稀缺场景样本量少，尤其是新硬件如英伟达B200的相关样本极少，客户仅用100条PyTorch提示词就完成训练，验证了Agent RFT的极高样本效率
早期训练出现奖励破解问题，客户通过梳理7种破解场景（返回参考代码、空内核、恒等内核等），用大模型判官识别该类行为并给予0奖励，同时引入抽象语法树静态分析工具验证内核真实性，避免奖励破解
最终奖励同时覆盖正确性、相对PyTorch基线的实际加速比，配合3样本选最优的策略，最终效果超过当前SOTA 72%

💬 精华片段（中文）

最有趣的是这张图，它展示了RFT如何改变工具调用次数的分布：GPT-5偶尔会出现单次样本调用超过15次工具的糟糕运行情况，这非常慢，还会导致不稳定行为，而RFT之后这些长尾长调用完全消失，分布集中在2到4次工具调用的区间。

"what we found most interesting is this graph where it shows how RFT shifted the distribution of the number of tool calls. So with GPT5, the agent will occasionally fall into these bad runs where there were more than 15 tool calls in a single sample. This is very slow and also can lead to some inconsistent behaviors. So after RFT these tool calls that are very longtail um disappeared and the the distribution center to just around two to four tool calls."

14:50 Agent RFT落地成功原则与接入方式

本节重点

四大核心原则保障Agent RFT落地效果
明确Agent RFT的适用前提与接入路径

详细精要

任务定义清晰原则：必须消除任务的主观性，明确无歧义的成功判定标准
任务评分不能依赖主观审美偏好，所有成功、失败的判定标准可量化、可复现
模糊的任务定义会导致奖励信号混乱，模型无法有效学习到目标行为
数据集无域偏移原则：训练集、验证集必须完全匹配生产流量特征
避免人为引入域偏移，防止模型在训练集表现好但生产环境效果下降的问题
首次运行前必须用基础模型在数据集上跑出基线性能，作为后续优化的参照基准
样本探索可提升性能原则：必须保证同一数据点下模型采样更多次时，可获得更高的最优性能
该特征保证模型可以通过探索区分好坏轨迹，自主学习优化方向
如果同一数据点多次采样性能没有方差，模型无法从自我探索中获得有效学习信号
奖励函数无漏洞原则：要覆盖所有边缘场景避免奖励破解，优先选择连续奖励而非二元奖励
连续奖励类似给学生打过程分，可以让模型逐步向最优性能爬升，相比二元奖励（要么满分要么0分）学习效率更高
需提前梳理所有可能的奖励破解场景，通过规则、大模型判官、静态校验等手段堵住漏洞，避免模型投机取巧获得不当奖励
Agent RFT接入方式：目前用户需联系对应的客户总监申请接入
不建议用户跳过提示词优化、任务优化阶段直接使用Agent RFT，需完成前置优化后再接入获得最优效果

💬 精华片段（中文）

连续奖励实际上能让模型一点一点地逼近最优性能，就像给学生打过程分，而不是做错了就全盘否定、做对了就全额奖励。

"The continuous reward actually allows the model to kind of inch up closer and closer to optimal performance. Sort of like giving a student partial credit, rather than you know slapping them all in the face or giving it a cookie if it gets stuff wrong or gets stuff right."

专业术语注释

术语	解释
Agent RFT（Agent Reinforcement Fine Tuning）	本集指OpenAI推出的智能体强化微调技术，专门优化需要调用工具的多步任务智能体，训练时可和用户外部环境交互，基于自定义奖励信号调整模型权重
Domain Shift（域偏移）	本集指模型训练时的环境、数据分布和生产运行时的环境、数据分布不一致的现象，会导致智能体工具调用错误、性能下降
Reward Hacking（奖励破解）	本集指智能体通过不符合预期的投机行为获得奖励，而非通过完成目标任务获得奖励的现象，属于强化学习场景的常见问题
F1 Score（F1分数）	本集指衡量智能体文件选择准确率的指标，是精确率和召回率的调和平均数，可平衡漏选和错选的问题
Trajectory（轨迹）	本集指智能体完成单个任务过程中产生的所有推理内容、工具调用记录、工具返回结果的完整序列
Rollout	本集指智能体单次执行任务的完整过程，也就是生成一条轨迹的过程
P95 Latency（P95延迟）	本集指将所有请求的延迟从小到大排序，排在第95百分位的延迟值，衡量系统的长尾性能表现
SOTA（State of the Art）	本集指特定任务下当前公开的最优性能水平
Batch Size（批量大小）	本集指模型训练时单次迭代处理的样本数量，扩大批量大小可提升正向样本出现的概率，缓解稀疏奖励问题

延伸思考

Agent RFT目前仅面向企业客户开放，未来是否会开放给普通开发者，中小客户的公网工具安全、权限控制、基础设施成本问题将如何解决？
本次所有落地案例均集中在编码领域，后续Agent RFT适配非编码类智能体（如客服、企业工作流智能体）的效果还有待验证，不同领域的奖励函数设计将是核心落地难点。
奖励破解是Agent RFT落地的核心风险，OpenAI未来是否会推出通用的奖励校验工具降低用户的开发成本？
Agent RFT训练过程中会产生大量工具调用请求，用户需要配套对应的隔离、资源调度基础设施，对于中小客户而言该部分成本可能高于微调收益，后续是否会有轻量化的落地方案？

原文发表：Dec 09, 2025 · 纪要生成：2026-02-25