▶ 原文链接

智能体强化微调——OpenAI Will Hang与Cathy Zhou技术分享

来源: Youtube | Will Hang、Cathy Zhou | 2025-12-09 分类: OpenAI 原文发表: Dec 09, 2025 纪要生成: 2026-02-25


全集重点


嘉宾/话题简介

本次播客嘉宾为OpenAI微调团队的Will Hang与Cathy Zhou,二人核心负责智能体强化微调(Agent RFT)产品的研发与客户落地。本次分享系统讲解了Agent RFT的技术原理、核心优势、适用场景,结合4个真实企业客户的落地案例拆解实践方法论,最后给出了用户落地Agent RFT的4条核心成功原则,帮助开发者快速优化自有业务智能体的性能。


分节详述

00:00 Agent RFT核心概念与价值

本节重点

详细精要

💬 精华片段(中文)

这两项新增功能标志着我们OpenAI首次允许模型在训练过程中与外部世界交互,我认为这非常酷。

"These two additions actually mark the first time that we at OpenAI have allowed models to interact with the outside world during the training process. So, I think this is pretty cool."


06:38 Agent RFT企业客户落地案例

本节重点

详细精要

💬 精华片段(中文)

最有趣的是这张图,它展示了RFT如何改变工具调用次数的分布:GPT-5偶尔会出现单次样本调用超过15次工具的糟糕运行情况,这非常慢,还会导致不稳定行为,而RFT之后这些长尾长调用完全消失,分布集中在2到4次工具调用的区间。

"what we found most interesting is this graph where it shows how RFT shifted the distribution of the number of tool calls. So with GPT5, the agent will occasionally fall into these bad runs where there were more than 15 tool calls in a single sample. This is very slow and also can lead to some inconsistent behaviors. So after RFT these tool calls that are very longtail um disappeared and the the distribution center to just around two to four tool calls."


14:50 Agent RFT落地成功原则与接入方式

本节重点

详细精要

💬 精华片段(中文)

连续奖励实际上能让模型一点一点地逼近最优性能,就像给学生打过程分,而不是做错了就全盘否定、做对了就全额奖励。

"The continuous reward actually allows the model to kind of inch up closer and closer to optimal performance. Sort of like giving a student partial credit, rather than you know slapping them all in the face or giving it a cookie if it gets stuff wrong or gets stuff right."


专业术语注释

术语 解释
Agent RFT(Agent Reinforcement Fine Tuning) 本集指OpenAI推出的智能体强化微调技术,专门优化需要调用工具的多步任务智能体,训练时可和用户外部环境交互,基于自定义奖励信号调整模型权重
Domain Shift(域偏移) 本集指模型训练时的环境、数据分布和生产运行时的环境、数据分布不一致的现象,会导致智能体工具调用错误、性能下降
Reward Hacking(奖励破解) 本集指智能体通过不符合预期的投机行为获得奖励,而非通过完成目标任务获得奖励的现象,属于强化学习场景的常见问题
F1 Score(F1分数) 本集指衡量智能体文件选择准确率的指标,是精确率和召回率的调和平均数,可平衡漏选和错选的问题
Trajectory(轨迹) 本集指智能体完成单个任务过程中产生的所有推理内容、工具调用记录、工具返回结果的完整序列
Rollout 本集指智能体单次执行任务的完整过程,也就是生成一条轨迹的过程
P95 Latency(P95延迟) 本集指将所有请求的延迟从小到大排序,排在第95百分位的延迟值,衡量系统的长尾性能表现
SOTA(State of the Art) 本集指特定任务下当前公开的最优性能水平
Batch Size(批量大小) 本集指模型训练时单次迭代处理的样本数量,扩大批量大小可提升正向样本出现的概率,缓解稀疏奖励问题

延伸思考

  1. Agent RFT目前仅面向企业客户开放,未来是否会开放给普通开发者,中小客户的公网工具安全、权限控制、基础设施成本问题将如何解决?
  2. 本次所有落地案例均集中在编码领域,后续Agent RFT适配非编码类智能体(如客服、企业工作流智能体)的效果还有待验证,不同领域的奖励函数设计将是核心落地难点。
  3. 奖励破解是Agent RFT落地的核心风险,OpenAI未来是否会推出通用的奖励校验工具降低用户的开发成本?
  4. Agent RFT训练过程中会产生大量工具调用请求,用户需要配套对应的隔离、资源调度基础设施,对于中小客户而言该部分成本可能高于微调收益,后续是否会有轻量化的落地方案?

原文发表:Dec 09, 2025  ·  纪要生成:2026-02-25