▶ 原文链接

智能体强化微调——OpenAI Will Hang与Cathy Zhou技术分享

来源: Youtube | Will Hang、Cathy Zhou | 2025-12-09 分类: OpenAI 原文发表: Dec 09, 2025 纪要生成: 2026-02-25


全集重点


嘉宾/话题简介

本次播客嘉宾为OpenAI微调团队的Will Hang与Cathy Zhou,二人核心负责智能体强化微调(Agent RFT)产品的研发与客户落地。本次分享系统讲解了Agent RFT的技术原理、核心优势、适用场景,结合4个真实企业客户的落地案例拆解实践方法论,最后给出了用户落地Agent RFT的4条核心成功原则,帮助开发者快速优化自有业务智能体的性能。


分节详述

00:00 Agent RFT核心概念与价值

本节重点 - 明确智能体与普通大模型的核心差异为可自主调用工具完成多步任务 - 梳理智能体性能优化的三层路径,Agent RFT为当前最高阶优化手段 - 介绍Agent RFT的两大核心产品更新与核心性能、效率优势

详细精要 - 智能体的核心定义与典型特征:和普通大模型的核心区别为可自主和外部环境交互完成任务,无需用户全程干预 - 智能体的工具调用行为与推理链路共享同一上下文窗口,二者交替执行完成任务 - OpenAI内部基于该范式打造的旗舰编码智能体Codeex,可调用终端、代码解释器等工具端到端完成单元测试编写、代码库提交等全链路编码任务

💬 精华片段(中文)

这两项新增功能标志着我们OpenAI首次允许模型在训练过程中与外部世界交互,我认为这非常酷。

"These two additions actually mark the first time that we at OpenAI have allowed models to interact with the outside world during the training process. So, I think this is pretty cool."


06:38 Agent RFT企业客户落地案例

本节重点 - 四大编码领域客户落地案例验证Agent RFT的性能增益效果 - 样本量、奖励函数设计、基础设施配套是落地成功的核心影响因素 - Agent RFT可同时实现准确率提升、调用步数减少、长尾延迟优化三重效果

详细精要 - Cognition Devon编码智能体落地案例:针对代码编辑规划阶段的文件选择场景优化,获得10个点的F1分数提升 - 客户构建了用户查询与用户实际修改文件的配对数据集,以选中文件的F1分数作为奖励,同时为每一条轨迹分配独立VM保障环境隔离,避免工具调用互相干扰 - 100个样本时获得5个点F1提升,扩容到1000个样本时提升到10个点,样本量与性能提升呈正相关 - 微调后智能体从原来8-10步交替推理与调用工具,优化为第一步就并行发起多个工具调用,步骤数压缩到4步,大幅提升响应速度

💬 精华片段(中文)

最有趣的是这张图,它展示了RFT如何改变工具调用次数的分布:GPT-5偶尔会出现单次样本调用超过15次工具的糟糕运行情况,这非常慢,还会导致不稳定行为,而RFT之后这些长尾长调用完全消失,分布集中在2到4次工具调用的区间。

"what we found most interesting is this graph where it shows how RFT shifted the distribution of the number of tool calls. So with GPT5, the agent will occasionally fall into these bad runs where there were more than 15 tool calls in a single sample. This is very slow and also can lead to some inconsistent behaviors. So after RFT these tool calls that are very longtail um disappeared and the the distribution center to just around two to four tool calls."


14:50 Agent RFT落地成功原则与接入方式

本节重点 - 四大核心原则保障Agent RFT落地效果 - 明确Agent RFT的适用前提与接入路径

详细精要 - 任务定义清晰原则:必须消除任务的主观性,明确无歧义的成功判定标准 - 任务评分不能依赖主观审美偏好,所有成功、失败的判定标准可量化、可复现 - 模糊的任务定义会导致奖励信号混乱,模型无法有效学习到目标行为

💬 精华片段(中文)

连续奖励实际上能让模型一点一点地逼近最优性能,就像给学生打过程分,而不是做错了就全盘否定、做对了就全额奖励。

"The continuous reward actually allows the model to kind of inch up closer and closer to optimal performance. Sort of like giving a student partial credit, rather than you know slapping them all in the face or giving it a cookie if it gets stuff wrong or gets stuff right."


专业术语注释

术语 解释
Agent RFT(Agent Reinforcement Fine Tuning) 本集指OpenAI推出的智能体强化微调技术,专门优化需要调用工具的多步任务智能体,训练时可和用户外部环境交互,基于自定义奖励信号调整模型权重
Domain Shift(域偏移) 本集指模型训练时的环境、数据分布和生产运行时的环境、数据分布不一致的现象,会导致智能体工具调用错误、性能下降
Reward Hacking(奖励破解) 本集指智能体通过不符合预期的投机行为获得奖励,而非通过完成目标任务获得奖励的现象,属于强化学习场景的常见问题
F1 Score(F1分数) 本集指衡量智能体文件选择准确率的指标,是精确率和召回率的调和平均数,可平衡漏选和错选的问题
Trajectory(轨迹) 本集指智能体完成单个任务过程中产生的所有推理内容、工具调用记录、工具返回结果的完整序列
Rollout 本集指智能体单次执行任务的完整过程,也就是生成一条轨迹的过程
P95 Latency(P95延迟) 本集指将所有请求的延迟从小到大排序,排在第95百分位的延迟值,衡量系统的长尾性能表现
SOTA(State of the Art) 本集指特定任务下当前公开的最优性能水平
Batch Size(批量大小) 本集指模型训练时单次迭代处理的样本数量,扩大批量大小可提升正向样本出现的概率,缓解稀疏奖励问题

延伸思考

  1. Agent RFT目前仅面向企业客户开放,未来是否会开放给普通开发者,中小客户的公网工具安全、权限控制、基础设施成本问题将如何解决?
  2. 本次所有落地案例均集中在编码领域,后续Agent RFT适配非编码类智能体(如客服、企业工作流智能体)的效果还有待验证,不同领域的奖励函数设计将是核心落地难点。
  3. 奖励破解是Agent RFT落地的核心风险,OpenAI未来是否会推出通用的奖励校验工具降低用户的开发成本?
  4. Agent RFT训练过程中会产生大量工具调用请求,用户需要配套对应的隔离、资源调度基础设施,对于中小客户而言该部分成本可能高于微调收益,后续是否会有轻量化的落地方案?

原文发表:Dec 09, 2025  ·  纪要生成:2026-02-25