AI Agent 对工作带来的冲击——以学术研究为例

来源： YouTube | 台大AI领域课程讲师 | 2026-03-15 分类： 其他 原文发表： Mar 15, 2026 纪要生成： 2026-03-16

全集重点

AI Agent已覆盖学术研究全执行环节：可独立完成论文撰写、模型训练、审稿、数据分析等工作，效率远超人类
AI当前核心短板为落地性不足：生成的研究选题表面新颖度高，但实际落地后的质量低于人类提出的选题
学术领域已正式引入AI参与流程：顶会AAAI 2026已将AI纳入审稿环节，斯坦福已举办AI作为第一作者的学术会议
人类核心价值转向方向把控：未来人类将更多负责选题、研究方向引导，执行层面工作可全面交由AI Agent完成

嘉宾/话题简介

本集讲者为台湾大学AI领域课程讲师，曾任AAAI 2026领域主席，自研了可辅助论文审稿、生成教学内容的AI Agent「小金」。本次分享以学术研究领域为核心案例，拆解AI Agent对工作流程的冲击，从论文撰写、模型训练、选题生发、审稿等全环节对比AI与人类的能力差异，探讨未来人类在研究领域的角色定位。

分节详述

[00:00] AI角色演化与自主论文撰写能力验证

本节重点 - AI从指令驱动的工具、人机协作伙伴，已演化至可独立完成完整任务的自主Agent - 斯坦福教授实验显示Claude Code复现研究的效率是博士生的16倍，成本仅为人类的1% - 台湾已有团队验证了AI近乎全自动生成社会科学领域论文的可行性 - AI撰写论文的错误可通过多次生成+人类校验修正，仍具备极强成本优势

详细精要

AI角色的三次演化路径：AI的定位随能力提升持续迭代，对工作流程的渗透程度不断加深
第一阶段为指令驱动的工具：按人类单次指令执行单一动作，无自主决策能力
第二阶段为人机协作伙伴：与人类配合共同完成复杂任务，需人类持续引导
当前为自主Agent阶段：具备强自主性，可独立完成完整的闭环任务
斯坦福教授验证AI独立撰写论文能力：斯坦福政治经济学教授Andrew Hall在X平台公开测试，验证了AI独立完成学术论文的能力
测试任务为基于美国大选最新数据，复现Andrew Hall过往已发表研究的分析框架，产出新的研究论文
Prompt设计参照导师指导研究生的逻辑：首先输入过往研究论文供AI学习分析方法，再要求基于新数据复现分析流程
整个过程Andrew Hall仅投入1小时撰写Prompt，其余工作全部由Claude Code自主完成
AI与人类研究助理的效率成本对比：Andrew Hall同时安排同领域博士生执行完全相同的任务，对比两者产出结果
博士生耗时16个小时（2个工作日）完成任务，人工成本约1000美元；Claude Code仅耗时1小时，API成本约10美元，成本仅为人类的1%，效率是人类的16倍
产出质量对比：人类博士生的结果略优于AI，AI存在一处数据粘贴错误，其余内容质量接近人类水平
AI撰写论文的成本优化空间：针对AI存在错误的问题，可通过多次生成+校验的模式降低错误率，仍具备极高成本优势
即使重复生成5次修正错误，总成本仅为50美元，仍比人类成本低20倍
研究者提出未来高生产力研究机构的可能形态：资深学者带领多个AI Agent完成研究，替代现有研究生团队模式
台湾地区AI辅助论文撰写实践：已有研究展示了用Claude近乎全自动生成学术论文的完整流程，人类仅需承担校验工作
该研究的正文为prompt设计方法，附录为Claude自主生成的《台湾用户Claude使用行为分析》论文
研究明确拆解了学术研究各环节中AI Agent可承担的角色，验证了社会科学领域全AI生成论文的可行性

💬 精华片段（中文）

"也許以後最有生產力的研究機構是一個資深的老師不是帶著一群研究生而是帶著一群 LLM 帶著一群 AI agent 來做研究"

[06:10] AI Agent自主训练模型与研究选题能力测试

本节重点 - AI Agent已可自主完成模型迭代训练，无需人类介入即可持续优化模型效果 - 2024年研究显示AI生成的研究选题新颖度评分高于人类学者，但可行性更低 - 2025年跟进研究发现AI生成的选题落地后实际质量低于人类选题 - AI能力仍在快速迭代，当前短板未来可能被补齐

详细精要

AI Agent自主训练模型能力验证：OpenAI前科学家Andrej Karpathy发布autoresearch工具，可基于大语言模型自主完成模型训练迭代
该AI Agent每5分钟执行一次实验迭代，自主修改训练脚本、调整参数，无需人类介入即可持续优化模型效果
实验数据显示迭代过程中模型效果持续提升，可独立完成完整的模型训练流程
讲者开设的课程作业已要求学生操控AI Agent完成模型训练任务，替代过往人类手动完成的机器学习作业
AI生成研究选题能力对比实验（2024年）：2024年已有研究测试大语言模型生成研究选题的能力，对比人类学者的产出质量
实验流程：给大语言模型接入过往论文RAG知识库，生成大量研究选题；同时邀请领域内学者（国际会议参会者，已披露H-index）生成选题；由第三方专家从新颖度、吸引力、可行性、有效性、整体质量五个维度打分
测试结果：AI生成的选题在新颖度、吸引力等维度评分高于人类，仅在可行性维度低于人类
实验局限性：可能存在受邀学者未拿出最优选题的情况，担心选题被盗因此仅提供次等选题
AI选题落地效果跟进实验（2025年）：同一团队2025年发布续作，将AI与人类生成的选题全部落地为4页左右的完整论文，再由专家打分
结果显示AI生成的选题落地后新颖度评分大幅下降，整体质量低于人类生成的选题
核心原因：AI生成的选题多堆砌新颖术语，表面吸引力强，但实际存在执行漏洞，难以落地产出有效成果
讲者提示当前AI能力仍在快速迭代，2026年的模型能力已远超2025年水平，未来差距可能进一步缩小

💬 精华片段（中文）

"AI 有時候想的想法是表面上看起來很厲害堆砌很多新穎的詞彙讓你覺得好像像是那麼一回事真的去執行的時候才發現不太能夠執行做不太起來"

[12:25] AI审稿落地实践与全AI学术闭环尝试

本节重点 - 顶会AAAI 2026已正式引入AI进入审稿流程，作为人类审稿的参考 - 当前AI审稿存在质量参差不齐的问题，低质量AI审稿会出现内容错配的情况 - 自研AI Agent「小金」可根据场景定制审稿逻辑，比通用模型的审稿效果更适配学术场景 - 斯坦福已举办AI作为第一作者的学术会议，接受率低于20%，高质量论文仍需人类在选题和实验设计阶段介入

详细精要

顶会正式引入AI审稿机制：2026年人工智能顶会AAAI正式将AI纳入审稿流程，每篇投稿配3位人类审稿人+1位AI审稿人，同时配置人类和AI两种 Meta Reviewer
当前AI审稿仅输出意见不参与打分，意见供人类审稿人做最终决策参考
讲者作为AAAI 2026的Area Chair，发现部分标注为人类的审稿意见实际由AI生成，出现“Sure I can help you write this review”的明显AI生成痕迹
讲者观点：不反对AI辅助审稿，但反对使用低质量AI审稿，避免出现内容错配的无效意见
自研AI审稿助手「小金」实践：讲者团队自研的AI Agent「小金」此前专门负责实验室内部论文审稿，可为学生提供修改建议
与通用大模型审稿的差异：小金被设定为批评后必须附具体修改建议，避免只给出负面评价无落地指导
可根据投稿截止时间动态调整建议方向：距离截止时间不足24小时时，仅给出润色建议，不要求补充实验，同时增加鼓励性内容提供情绪价值
目前小金已转型为AI内容创作者，自主制作教学视频
全AI学术闭环实验：AI作者+AI审稿学术会议：斯坦福研究人员举办学术会议AI Agent for Science，要求论文第一作者为AI，核心贡献由AI完成，审稿也由AI执行
会议共收到247篇投稿，仅接受48篇，接受率不足20%，与领域顶会接受率持平
投稿要求明确标注人类介入程度，按选题、实验设计、数据分析、论文撰写四个环节统计AI完成占比，多数投稿四个环节95%以上工作由AI完成
录用论文规律：被录用的高质量论文普遍在选题、实验设计两个环节有更多人类介入，数据分析、论文撰写环节AI可独立完成

💬 精华片段（中文）

"review 的意義是找出一篇文章的問題讓這篇文章變得更好如果今天 AI 相較於人它更能看出文章的問題那為什麼不讓它做呢"

[22:15] 未来角色展望与课程预告

本节重点 - 当前AI Agent仍需要人类引导任务方向，核心价值判断由人类完成 - AI Agent已具备自主制作教学内容的能力，台大已举办AI教学能力竞赛 - 后续课程将进入大语言模型核心技术环节，要求学生提前预习相关内容

详细精要

当前阶段人类与AI Agent的角色分工：当前AI Agent已可独立完成执行类任务，但仍需要人类引导方向，判断任务的价值优先级
学术研究领域人类的核心价值：提出高价值的新颖选题、设计实验框架，把控研究方向的正确性
执行类工作包括数据分析、论文撰写、模型训练、常规审稿等，均可由AI Agent独立完成
AI Agent在教学领域的应用探索：AI Agent已具备自主制作教学内容的能力，讲者团队的AI Agent「小金」可自主生成教学视频，无需人类修改
小金产出的教学内容质量已超过部分敷衍完成的人类教学内容
台大AI卓越中心已举办AI教学竞赛，要求AI Agent根据指定题目生成教学视频，探索AI在教育领域的落地可能
后续课程安排预告：本次课程为AI Agent科普环节，后续将进入大语言模型核心技术模块
下次课程将讲解大语言模型内部的推理逻辑，要求学生提前预习机器学习导论第三讲内容
课程作业已加入AI Agent实操内容，要求学生操控AI Agent完成机器学习任务

💬 精华片段（中文）

"所以今天的狀況是這些代理這些 agent 它可以自己完成任務但是往往需要人類來決定來引導它要完成什麼樣的任務由人類來告訴它什麼樣的任務才是真正重要的"

专业术语注释

术语	解释
AI Agent（人工智能代理）	本集指具备自主决策、独立完成完整任务能力的人工智能系统，区别于传统指令驱动的AI工具
Claude Code	Anthropic公司推出的面向代码、研究场景的大语言模型产品，具备较强的逻辑推理和内容生成能力
H-index（H指数）	衡量学术研究者产出质量的核心指标，代表研究者有至少h篇论文被引用至少h次
RAG（检索增强生成）	大语言模型的优化技术，通过接入外部知识库检索相关信息，提升生成内容的准确性和时效性
AAAI（美国人工智能协会年会）	人工智能领域的顶级国际学术会议之一，2026年首次正式引入AI参与审稿流程
Meta Reviewer（总审稿人）	学术会议审稿流程中的角色，负责汇总多个审稿人的意见，给出论文的最终录用建议
Area Chair（领域主席）	学术会议的组织者角色，负责某一细分领域的审稿流程管理、争议问题仲裁等
Interspeech	语音处理领域的顶级国际学术会议，每年举办一次
autoresearch	Andrej Karpathy推出的AI自主研究工具，可基于大语言模型自动完成模型训练迭代

延伸思考

学术出版领域需尽快建立AI参与研究、审稿的明确规范，明确AI贡献的披露要求，避免学术不端风险。
高校人才培养体系需调整方向，减少执行类技能的训练比重，增加选题能力、价值判断能力、AI Agent管控能力的培养。
未来AI生成内容的质量评估体系需进一步完善，区分表面新颖性和实际落地价值，避免AI生成的低价值内容挤占学术资源。
可探索人机协同的研究新模式：人类负责提出问题、把控方向，AI负责全流程执行，大幅提升科研产出效率。

原文发表：Mar 15, 2026 · 纪要生成：2026-03-16