▶ 原文链接
AI Agent 对工作带来的冲击——以学术研究为例
来源: YouTube | 台大AI领域课程讲师 | 2026-03-15
分类: 其他
原文发表: Mar 15, 2026
纪要生成: 2026-03-16
全集重点
- AI Agent已覆盖学术研究全执行环节:可独立完成论文撰写、模型训练、审稿、数据分析等工作,效率远超人类
- AI当前核心短板为落地性不足:生成的研究选题表面新颖度高,但实际落地后的质量低于人类提出的选题
- 学术领域已正式引入AI参与流程:顶会AAAI 2026已将AI纳入审稿环节,斯坦福已举办AI作为第一作者的学术会议
- 人类核心价值转向方向把控:未来人类将更多负责选题、研究方向引导,执行层面工作可全面交由AI Agent完成
嘉宾/话题简介
本集讲者为台湾大学AI领域课程讲师,曾任AAAI 2026领域主席,自研了可辅助论文审稿、生成教学内容的AI Agent「小金」。本次分享以学术研究领域为核心案例,拆解AI Agent对工作流程的冲击,从论文撰写、模型训练、选题生发、审稿等全环节对比AI与人类的能力差异,探讨未来人类在研究领域的角色定位。
分节详述
[00:00] AI角色演化与自主论文撰写能力验证
本节重点
- AI从指令驱动的工具、人机协作伙伴,已演化至可独立完成完整任务的自主Agent
- 斯坦福教授实验显示Claude Code复现研究的效率是博士生的16倍,成本仅为人类的1%
- 台湾已有团队验证了AI近乎全自动生成社会科学领域论文的可行性
- AI撰写论文的错误可通过多次生成+人类校验修正,仍具备极强成本优势
详细精要
- AI角色的三次演化路径:AI的定位随能力提升持续迭代,对工作流程的渗透程度不断加深
- 第一阶段为指令驱动的工具:按人类单次指令执行单一动作,无自主决策能力
- 第二阶段为人机协作伙伴:与人类配合共同完成复杂任务,需人类持续引导
- 当前为自主Agent阶段:具备强自主性,可独立完成完整的闭环任务
- 斯坦福教授验证AI独立撰写论文能力:斯坦福政治经济学教授Andrew Hall在X平台公开测试,验证了AI独立完成学术论文的能力
- 测试任务为基于美国大选最新数据,复现Andrew Hall过往已发表研究的分析框架,产出新的研究论文
- Prompt设计参照导师指导研究生的逻辑:首先输入过往研究论文供AI学习分析方法,再要求基于新数据复现分析流程
- 整个过程Andrew Hall仅投入1小时撰写Prompt,其余工作全部由Claude Code自主完成
- AI与人类研究助理的效率成本对比:Andrew Hall同时安排同领域博士生执行完全相同的任务,对比两者产出结果
- 博士生耗时16个小时(2个工作日)完成任务,人工成本约1000美元;Claude Code仅耗时1小时,API成本约10美元,成本仅为人类的1%,效率是人类的16倍
- 产出质量对比:人类博士生的结果略优于AI,AI存在一处数据粘贴错误,其余内容质量接近人类水平
- AI撰写论文的成本优化空间:针对AI存在错误的问题,可通过多次生成+校验的模式降低错误率,仍具备极高成本优势
- 即使重复生成5次修正错误,总成本仅为50美元,仍比人类成本低20倍
- 研究者提出未来高生产力研究机构的可能形态:资深学者带领多个AI Agent完成研究,替代现有研究生团队模式
- 台湾地区AI辅助论文撰写实践:已有研究展示了用Claude近乎全自动生成学术论文的完整流程,人类仅需承担校验工作
- 该研究的正文为prompt设计方法,附录为Claude自主生成的《台湾用户Claude使用行为分析》论文
- 研究明确拆解了学术研究各环节中AI Agent可承担的角色,验证了社会科学领域全AI生成论文的可行性
💬 精华片段(中文)
"也許以後最有生產力的研究機構 是一個資深的老師 不是帶著一群研究生 而是帶著一群 LLM 帶著一群 AI agent 來做研究"
[06:10] AI Agent自主训练模型与研究选题能力测试
本节重点
- AI Agent已可自主完成模型迭代训练,无需人类介入即可持续优化模型效果
- 2024年研究显示AI生成的研究选题新颖度评分高于人类学者,但可行性更低
- 2025年跟进研究发现AI生成的选题落地后实际质量低于人类选题
- AI能力仍在快速迭代,当前短板未来可能被补齐
详细精要
- AI Agent自主训练模型能力验证:OpenAI前科学家Andrej Karpathy发布autoresearch工具,可基于大语言模型自主完成模型训练迭代
- 该AI Agent每5分钟执行一次实验迭代,自主修改训练脚本、调整参数,无需人类介入即可持续优化模型效果
- 实验数据显示迭代过程中模型效果持续提升,可独立完成完整的模型训练流程
- 讲者开设的课程作业已要求学生操控AI Agent完成模型训练任务,替代过往人类手动完成的机器学习作业
- AI生成研究选题能力对比实验(2024年):2024年已有研究测试大语言模型生成研究选题的能力,对比人类学者的产出质量
- 实验流程:给大语言模型接入过往论文RAG知识库,生成大量研究选题;同时邀请领域内学者(国际会议参会者,已披露H-index)生成选题;由第三方专家从新颖度、吸引力、可行性、有效性、整体质量五个维度打分
- 测试结果:AI生成的选题在新颖度、吸引力等维度评分高于人类,仅在可行性维度低于人类
- 实验局限性:可能存在受邀学者未拿出最优选题的情况,担心选题被盗因此仅提供次等选题
- AI选题落地效果跟进实验(2025年):同一团队2025年发布续作,将AI与人类生成的选题全部落地为4页左右的完整论文,再由专家打分
- 结果显示AI生成的选题落地后新颖度评分大幅下降,整体质量低于人类生成的选题
- 核心原因:AI生成的选题多堆砌新颖术语,表面吸引力强,但实际存在执行漏洞,难以落地产出有效成果
- 讲者提示当前AI能力仍在快速迭代,2026年的模型能力已远超2025年水平,未来差距可能进一步缩小
💬 精华片段(中文)
"AI 有時候想的想法 是表面上看起來很厲害 堆砌很多新穎的詞彙 讓你覺得好像像是那麼一回事 真的去執行的時候才發現 不太能夠執行 做不太起來"
[12:25] AI审稿落地实践与全AI学术闭环尝试
本节重点
- 顶会AAAI 2026已正式引入AI进入审稿流程,作为人类审稿的参考
- 当前AI审稿存在质量参差不齐的问题,低质量AI审稿会出现内容错配的情况
- 自研AI Agent「小金」可根据场景定制审稿逻辑,比通用模型的审稿效果更适配学术场景
- 斯坦福已举办AI作为第一作者的学术会议,接受率低于20%,高质量论文仍需人类在选题和实验设计阶段介入
详细精要
- 顶会正式引入AI审稿机制:2026年人工智能顶会AAAI正式将AI纳入审稿流程,每篇投稿配3位人类审稿人+1位AI审稿人,同时配置人类和AI两种 Meta Reviewer
- 当前AI审稿仅输出意见不参与打分,意见供人类审稿人做最终决策参考
- 讲者作为AAAI 2026的Area Chair,发现部分标注为人类的审稿意见实际由AI生成,出现“Sure I can help you write this review”的明显AI生成痕迹
- 讲者观点:不反对AI辅助审稿,但反对使用低质量AI审稿,避免出现内容错配的无效意见
- 自研AI审稿助手「小金」实践:讲者团队自研的AI Agent「小金」此前专门负责实验室内部论文审稿,可为学生提供修改建议
- 与通用大模型审稿的差异:小金被设定为批评后必须附具体修改建议,避免只给出负面评价无落地指导
- 可根据投稿截止时间动态调整建议方向:距离截止时间不足24小时时,仅给出润色建议,不要求补充实验,同时增加鼓励性内容提供情绪价值
- 目前小金已转型为AI内容创作者,自主制作教学视频
- 全AI学术闭环实验:AI作者+AI审稿学术会议:斯坦福研究人员举办学术会议AI Agent for Science,要求论文第一作者为AI,核心贡献由AI完成,审稿也由AI执行
- 会议共收到247篇投稿,仅接受48篇,接受率不足20%,与领域顶会接受率持平
- 投稿要求明确标注人类介入程度,按选题、实验设计、数据分析、论文撰写四个环节统计AI完成占比,多数投稿四个环节95%以上工作由AI完成
- 录用论文规律:被录用的高质量论文普遍在选题、实验设计两个环节有更多人类介入,数据分析、论文撰写环节AI可独立完成
💬 精华片段(中文)
"review 的意義是 找出一篇文章的問題 讓這篇文章變得更好 如果今天 AI 相較於人 它更能看出文章的問題 那為什麼不讓它做呢"
[22:15] 未来角色展望与课程预告
本节重点
- 当前AI Agent仍需要人类引导任务方向,核心价值判断由人类完成
- AI Agent已具备自主制作教学内容的能力,台大已举办AI教学能力竞赛
- 后续课程将进入大语言模型核心技术环节,要求学生提前预习相关内容
详细精要
- 当前阶段人类与AI Agent的角色分工:当前AI Agent已可独立完成执行类任务,但仍需要人类引导方向,判断任务的价值优先级
- 学术研究领域人类的核心价值:提出高价值的新颖选题、设计实验框架,把控研究方向的正确性
- 执行类工作包括数据分析、论文撰写、模型训练、常规审稿等,均可由AI Agent独立完成
- AI Agent在教学领域的应用探索:AI Agent已具备自主制作教学内容的能力,讲者团队的AI Agent「小金」可自主生成教学视频,无需人类修改
- 小金产出的教学内容质量已超过部分敷衍完成的人类教学内容
- 台大AI卓越中心已举办AI教学竞赛,要求AI Agent根据指定题目生成教学视频,探索AI在教育领域的落地可能
- 后续课程安排预告:本次课程为AI Agent科普环节,后续将进入大语言模型核心技术模块
- 下次课程将讲解大语言模型内部的推理逻辑,要求学生提前预习机器学习导论第三讲内容
- 课程作业已加入AI Agent实操内容,要求学生操控AI Agent完成机器学习任务
💬 精华片段(中文)
"所以今天的狀況是 這些代理 這些 agent 它可以自己完成任務 但是往往需要人類來決定 來引導 它要完成什麼樣的任務 由人類來告訴它 什麼樣的任務 才是真正重要的"
专业术语注释
| 术语 |
解释 |
| AI Agent(人工智能代理) |
本集指具备自主决策、独立完成完整任务能力的人工智能系统,区别于传统指令驱动的AI工具 |
| Claude Code |
Anthropic公司推出的面向代码、研究场景的大语言模型产品,具备较强的逻辑推理和内容生成能力 |
| H-index(H指数) |
衡量学术研究者产出质量的核心指标,代表研究者有至少h篇论文被引用至少h次 |
| RAG(检索增强生成) |
大语言模型的优化技术,通过接入外部知识库检索相关信息,提升生成内容的准确性和时效性 |
| AAAI(美国人工智能协会年会) |
人工智能领域的顶级国际学术会议之一,2026年首次正式引入AI参与审稿流程 |
| Meta Reviewer(总审稿人) |
学术会议审稿流程中的角色,负责汇总多个审稿人的意见,给出论文的最终录用建议 |
| Area Chair(领域主席) |
学术会议的组织者角色,负责某一细分领域的审稿流程管理、争议问题仲裁等 |
| Interspeech |
语音处理领域的顶级国际学术会议,每年举办一次 |
| autoresearch |
Andrej Karpathy推出的AI自主研究工具,可基于大语言模型自动完成模型训练迭代 |
延伸思考
- 学术出版领域需尽快建立AI参与研究、审稿的明确规范,明确AI贡献的披露要求,避免学术不端风险。
- 高校人才培养体系需调整方向,减少执行类技能的训练比重,增加选题能力、价值判断能力、AI Agent管控能力的培养。
- 未来AI生成内容的质量评估体系需进一步完善,区分表面新颖性和实际落地价值,避免AI生成的低价值内容挤占学术资源。
- 可探索人机协同的研究新模式:人类负责提出问题、把控方向,AI负责全流程执行,大幅提升科研产出效率。
原文发表:Mar 15, 2026 · 纪要生成:2026-03-16