来源: Youtube | Will Hang、Cathy Zhou | 2025-12-09 分类: OpenAI 原文发表: Dec 09, 2025 纪要生成: 2026-02-25
本次播客嘉宾为OpenAI微调团队的Will Hang与Cathy Zhou,二人核心负责智能体强化微调(Agent RFT)产品的研发与客户落地。本次分享系统讲解了Agent RFT的技术原理、核心优势、适用场景,结合4个真实企业客户的落地案例拆解实践方法论,最后给出了用户落地Agent RFT的4条核心成功原则,帮助开发者快速优化自有业务智能体的性能。
本节重点 - 明确智能体与普通大模型的核心差异为可自主调用工具完成多步任务 - 梳理智能体性能优化的三层路径,Agent RFT为当前最高阶优化手段 - 介绍Agent RFT的两大核心产品更新与核心性能、效率优势
详细精要 - 智能体的核心定义与典型特征:和普通大模型的核心区别为可自主和外部环境交互完成任务,无需用户全程干预 - 智能体的工具调用行为与推理链路共享同一上下文窗口,二者交替执行完成任务 - OpenAI内部基于该范式打造的旗舰编码智能体Codeex,可调用终端、代码解释器等工具端到端完成单元测试编写、代码库提交等全链路编码任务
第三层为微调,通过改动模型权重端到端适配任务,是提示词与任务优化后仍需提升性能时的选择
Agent RFT的核心能力与产品更新:Agent RFT是OpenAI推出的专门针对工具调用类智能体的强化微调方案,本次新增两大核心功能
训练过程中模型会自主探索多种工具调用路径,基于用户给定的奖励信号梯度爬升优化行为
Agent RFT的核心优势:相比普通微调更适配工具类智能体场景,样本效率与性能增益表现突出
💬 精华片段(中文)
这两项新增功能标志着我们OpenAI首次允许模型在训练过程中与外部世界交互,我认为这非常酷。
"These two additions actually mark the first time that we at OpenAI have allowed models to interact with the outside world during the training process. So, I think this is pretty cool."
本节重点 - 四大编码领域客户落地案例验证Agent RFT的性能增益效果 - 样本量、奖励函数设计、基础设施配套是落地成功的核心影响因素 - Agent RFT可同时实现准确率提升、调用步数减少、长尾延迟优化三重效果
详细精要 - Cognition Devon编码智能体落地案例:针对代码编辑规划阶段的文件选择场景优化,获得10个点的F1分数提升 - 客户构建了用户查询与用户实际修改文件的配对数据集,以选中文件的F1分数作为奖励,同时为每一条轨迹分配独立VM保障环境隔离,避免工具调用互相干扰 - 100个样本时获得5个点F1提升,扩容到1000个样本时提升到10个点,样本量与性能提升呈正相关 - 微调后智能体从原来8-10步交替推理与调用工具,优化为第一步就并行发起多个工具调用,步骤数压缩到4步,大幅提升响应速度
不仅提升了回答准确率,还大幅降低了P95延迟,适配生产环境的稳定性要求
Cosine企业级编码智能体落地案例:针对复杂企业代码库场景优化,实现多基准测试SOTA,同时大幅压缩轨迹长度
微调前单条轨迹最多可达100条消息,微调后收敛为更紧凑高效的步骤序列,速度大幅提升
Macco GPU内核编写智能体落地案例:针对稀缺的高性能GPU内核编写场景优化,仅用100个样本实现超过SOTA 72%的性能提升
💬 精华片段(中文)
最有趣的是这张图,它展示了RFT如何改变工具调用次数的分布:GPT-5偶尔会出现单次样本调用超过15次工具的糟糕运行情况,这非常慢,还会导致不稳定行为,而RFT之后这些长尾长调用完全消失,分布集中在2到4次工具调用的区间。
"what we found most interesting is this graph where it shows how RFT shifted the distribution of the number of tool calls. So with GPT5, the agent will occasionally fall into these bad runs where there were more than 15 tool calls in a single sample. This is very slow and also can lead to some inconsistent behaviors. So after RFT these tool calls that are very longtail um disappeared and the the distribution center to just around two to four tool calls."
本节重点 - 四大核心原则保障Agent RFT落地效果 - 明确Agent RFT的适用前提与接入路径
详细精要 - 任务定义清晰原则:必须消除任务的主观性,明确无歧义的成功判定标准 - 任务评分不能依赖主观审美偏好,所有成功、失败的判定标准可量化、可复现 - 模糊的任务定义会导致奖励信号混乱,模型无法有效学习到目标行为
首次运行前必须用基础模型在数据集上跑出基线性能,作为后续优化的参照基准
样本探索可提升性能原则:必须保证同一数据点下模型采样更多次时,可获得更高的最优性能
如果同一数据点多次采样性能没有方差,模型无法从自我探索中获得有效学习信号
奖励函数无漏洞原则:要覆盖所有边缘场景避免奖励破解,优先选择连续奖励而非二元奖励
需提前梳理所有可能的奖励破解场景,通过规则、大模型判官、静态校验等手段堵住漏洞,避免模型投机取巧获得不当奖励
Agent RFT接入方式:目前用户需联系对应的客户总监申请接入
💬 精华片段(中文)
连续奖励实际上能让模型一点一点地逼近最优性能,就像给学生打过程分,而不是做错了就全盘否定、做对了就全额奖励。
"The continuous reward actually allows the model to kind of inch up closer and closer to optimal performance. Sort of like giving a student partial credit, rather than you know slapping them all in the face or giving it a cookie if it gets stuff wrong or gets stuff right."
| 术语 | 解释 |
|---|---|
| Agent RFT(Agent Reinforcement Fine Tuning) | 本集指OpenAI推出的智能体强化微调技术,专门优化需要调用工具的多步任务智能体,训练时可和用户外部环境交互,基于自定义奖励信号调整模型权重 |
| Domain Shift(域偏移) | 本集指模型训练时的环境、数据分布和生产运行时的环境、数据分布不一致的现象,会导致智能体工具调用错误、性能下降 |
| Reward Hacking(奖励破解) | 本集指智能体通过不符合预期的投机行为获得奖励,而非通过完成目标任务获得奖励的现象,属于强化学习场景的常见问题 |
| F1 Score(F1分数) | 本集指衡量智能体文件选择准确率的指标,是精确率和召回率的调和平均数,可平衡漏选和错选的问题 |
| Trajectory(轨迹) | 本集指智能体完成单个任务过程中产生的所有推理内容、工具调用记录、工具返回结果的完整序列 |
| Rollout | 本集指智能体单次执行任务的完整过程,也就是生成一条轨迹的过程 |
| P95 Latency(P95延迟) | 本集指将所有请求的延迟从小到大排序,排在第95百分位的延迟值,衡量系统的长尾性能表现 |
| SOTA(State of the Art) | 本集指特定任务下当前公开的最优性能水平 |
| Batch Size(批量大小) | 本集指模型训练时单次迭代处理的样本数量,扩大批量大小可提升正向样本出现的概率,缓解稀疏奖励问题 |