主题综述

人变成 Agent 管理者 · Human as Agent Manager

主题综述

主题页(活文档)· 最近更新 2026-06-12 · 取材 8 篇访谈

更新日志

2026-06-12 — 首次综述。基于 8 篇访谈,核心结论:几乎所有发言人都同意"人从亲手执行者上移为 agent 的发包者/审阅者",但在"这到底像不像传统管人"以及"人到底还要不要看 agent 的产出"这两点上分歧很深。(本主题由语义挖掘发现:lexical 匹配抓不到——有人叫它"agent manager",有人叫"meta-engineering",有人叫"software factory",有人叫"remove yourself as the bottleneck"——经语义召回+精筛组装而成)

主流共识

"我不再敲代码了,我变成了 agent manager。" 这句话在多个发言人嘴里几乎逐字重现。Simon Last(Notion 联创)把它说得最直白:

"I haven't written code since like last summer, I don't type code anymore. … now it's more like I design a end-to-end task that involves like making some change and end-to-end verifying it. And then I'm just the outer verifier … So it's a complete shift. I'm now like the agent manager."
「自从去年夏天以来,我就没有写过代码了,我不再输入代码了……现在更像是,我设计一个端到端的任务,包括进行一些更改并端到端验证它。然后我只是外部验证者……所以这是一个彻底的转变。我现在是代理管理员。」
Simon Last · From Coder to Manager

Karpathy 用截然不同的措辞——"把自己从瓶颈里移除"——表达了同一件事:

"To get the most out of the tools that have become available now, you have to remove yourself as the bottleneck. You can't be there to prompt the next thing. You need to take yourself outside. … how can you get more agents running for longer periods of time without your involvement doing stuff on your behalf?"
「为了充分利用现在可用的工具,你必须把自己从瓶颈中移除。你不能在那里提示下一步该做什么。你需要把自己放在外面……如何在没有你的参与下,让更多的代理运行更长的时间,并代表你做事?」
Andrej Karpathy · Andrej Karpathy on Code Agents, AutoResearch

第一层共识:瓶颈搬家了。 过去最慢的一环是"写代码",现在写代码近乎免费,慢的变成上游(决定做什么、对齐)和下游(审阅、合并、品味)。Mike Krieger(Anthropic CPO)在 Anthropic 90% 代码由 AI 写的语境下亲历了这一点:

我们很快就被其他事情束缚住了，比如合并队列……我们不得不完全重新设计它，因为编写的代码和提交的 pull request 太多了，完全超出了预期……我只是在我们的系统中发现了所有这些新的瓶颈。上游瓶颈是决策和协调。我现在考虑的很多事情是，如何提供最低限度的可行策略，让人们有权在模型能力的前沿进行探索、原型设计和构建？(逐字稿正文仅中文,系机器翻译)
— Mike Krieger · Anthropic's CPO on what comes next

Jacob Lauritzen(Legora CTO)把这句话讲成了一句口号:

"the rate limiter was how quickly can you write code. That is now super cheap. … So the bottleneck now is like the two other ends, which is review. … and then it's how can we actually do the product piece much more efficiently?"
「速率限制器是你写代码的速度有多快。现在这非常便宜……所以现在的瓶颈是另外两个方面,即审查……然后就是我们如何能更高效地处理产品部分?」
Jacob Lauritzen · Inside Legora's Tech Stack

第二层共识:工作上移一个抽象层。 多人用"moving up the stack / up the abstraction ladder / meta-work"描述同一动作。Jacob 叫它 meta-engineering:

"The job of an engineer is changing from typing a bunch of code to sort of one layer above it, which is, what does the system look like? … the meta-engineering of making agents really effective."
「工程师的工作正在从输入大量代码转变为更高一个层次,即系统看起来是什么样的?……使代理真正有效的元工程。」
Jacob Lauritzen · Inside Legora's Tech Stack

Satya Nadella 用 Azure 网络团队的故事讲了同一个"上移":

"Our job is not to do Azure networking. Our job is to build the agentic system that does Azure networking. … They basically took their work and made it meta. That meta work is now their new work. … they don't need headcount. We need tokens in order to be able to manage our operation."
「我们的工作不是做 Azure 网络。我们的工作是构建做 Azure 网络的代理系统……他们基本上把他们的工作做到了更高的层次。这种更高层次的工作现在成了他们的新工作……我们不需要人手。我们需要令牌来管理我们的操作。」
Satya Nadella · The Rise of the Full-Stack Builder

第三层共识:人保留的核心是判断/品味/审阅(human-in-the-loop)。 Harrison Chase(LangChain)把它收敛成一个产品形态——"初稿":

"If you can find these framings where they run for a long period of time but produce a first draft of something, those to me are the killer applications of long-horizon agents right now. Coding, you usually put up a PR. … AISREs usually surface it to a human who comes in and then reviews it. Report generation. You don't send it out … You look at it. You edit it."
「如果你能找到这些框架,让它们长时间运行,但可以产生某个东西的初稿,那么对我来说,这些就是目前长程 agent 的杀手级应用。在编码中,你通常会提交一个 PR……AISRE 通常会将其呈现给一个人,然后由这个人来进行审查。报告生成。你不会立即将其发送出去……你会查看它。你会编辑它。」
Harrison Chase · Context Engineering Our Way to Long-Horizon Agents

到这一步大家还站在一起:人从打字员变成发包人 + 验收人,工作上移,判断留在人手里。分歧从"这件事到底像什么、需要做到什么程度"开始。

分歧在哪

分歧一:这是不是"传统的管人"?——Julie Zhuo 说是,Simon Last/Sarah Sachs 说不是

slate 的定义里写着"把传统'管人'的管理技能迁移到'管 AI'"。这正是争议的核心。Julie Zhuo(《The Making of a Manager》作者)是这一派最强的代言人,她认为管人和管 agent 是同一套原理:

"management is just about … Having an outcome. … you've got the like assemble the Avengers. … And these are still the fundamentals of working with agentic systems. … you have to understand the strengths of, you know, used to be people, but now it's basically models, and different models have different strengths. So it's like they have different personalities."
「管理就是为了达成目标……你要组建复仇者联盟……这些仍然是与智能代理系统协同工作的基础……你必须了解优势,过去是人,但现在基本上是模型,不同的模型有不同的优势。就像它们有不同的个性。」
Julie Zhuo · From managing people to managing AI

她甚至把"写 eval"等同于"给团队定清晰的成功标准":

"if you're really unclear about what success looks like, the prompt, you're probably not going to get the most amazing work. I think that's true for managing teams and it's very much true for managing AIs."
「如果你真的不清楚成功的样子,那么这个提示可能不会得到最好的结果。我认为这对于管理团队来说是正确的,对于管理 AI 来说也是非常正确的。」
Julie Zhuo · From managing people to managing AI

但同样来自 Notion 的 Sarah Sachs 与 Simon Last,在另一场访谈里直接把"管 agent = 管人"这个类比掐断了。Sarah Sachs 先承认表面相似:

"every software engineer is going through the identity crisis that every manager goes through, where all of a sudden they realize their ability to write code is less important than their ability to delegate and context switch."
「每一位软件工程师都在经历着每个管理者都会经历的身份危机,他们突然意识到编写代码的能力远不如委派任务和切换环境的能力重要。」
Sarah Sachs · Notion's Token Town

Simon Last 紧接着指出关键的不同——管 agent 比管人更像一个可被严格设计的工程系统,而不是一门软技能:

"There's a critical difference to being a manager, which is that it is actually very deeply technical. … humans are very like fuzzy and you can't treat a team of humans like a rigorous system where PRs flow through and can be in like a block status. … With a set of agents, you actually can do that. … It's a technical design problem, ultimately."
「成为管理者有一个关键的区别,那就是它实际上在技术上非常深入……人类非常模糊,你不能像对待一个严格的系统那样对待一个人类团队,PR 在其中流动,并且可能处于某种阻塞状态……有了一组代理,你实际上可以做到这一点……最终,这是一个技术设计问题。」
Simon Last · Notion's Token Town

放在一起读,张力很清楚:Julie 看到的是"领导力技能的迁移"(目标、品味、组队、给反馈),Simon 看到的是"软件架构问题的下放"(护栏、阻塞状态、自验证循环)。同一个"manager"标签,底下是两种完全不同的能力画像——一个偏人文/判断,一个偏系统/工程。slate 把两者并列为"manifestations",但发言人本人并不认为它们是一回事。

值得注意的是,即便在 Notion 阵营内部也有差异:Simon Last 在 Coder-to-Manager 那场里轻松地用"agent manager""swarm of 100 background coding agents"这种管理隐喻;到了 Token Town 这场,他和 Sarah Sachs 却要费力把这个隐喻和"管人"区分开。同一公司、同一人,措辞随语境漂移——这正是这个语义主题难以用 lexical 抓取的原因。

分歧二:人到底还要不要看 agent 的产出?——从"完全不看"到"每一个 PR 都看"

如果人是审阅者,那审阅到什么颗粒度?发言人摆出了一条从激进到保守的光谱。

最激进的一端:Karpathy——把人彻底踢出循环。 对他来说,留在循环里本身就是失败:

"I don't want to be the researcher in the loop, looking at results, et cetera. I'm holding the system back. … I shouldn't be a bottleneck. I shouldn't be running these hyperparameter search optimizations. I shouldn't be looking at the results."
「我不想成为循环中的研究人员,查看结果等等。我拖累了系统……我不应该成为瓶颈。我不应该运行这些超参数搜索优化。我不应该看结果。」
Andrej Karpathy · Andrej Karpathy on Code Agents, AutoResearch

但他自己埋了个限定条件:这只在有客观可验证指标时成立。"If you can't evaluate it, then you can't auto research it." 换言之,人退出循环的前提是"机器能自己判分"。

Simon Last 的实践:先盯,后放手——从审批模式过渡到完全信任。 他的邮件分类 agent 是个微缩样本:

"for the first couple days, I was sort of like correcting it on things. After a couple weeks or so, I dropped the approval entirely and it just automatically archives all the things I need to see now."
「在最初的几天,我一直在纠正它的一些事情。几周后,我完全取消了批准,它现在会自动归档所有我需要看到的东西。」
Simon Last · From Coder to Manager

但在代码上他并不全放手——"We still do reviews on all the pull requests",只是审的方式变了:不再 vibe coding,而是逼自己想清楚"要做的改动是什么、如何验证、如何安全部署"。

Anthropic 的做法:让另一个 Claude 来审。 Krieger 描述的是把"逐行人审"换成"AI 审 + 人做验收测试":

在该项目的早期，他们会逐行进行 pull request 审查……他们已经意识到，Claude 通常是正确的，并且它生成的 pull request 可能比大多数人能够审查的要大。那么，你能否使用另一个 Claude 来审查它，然后进行人工验收测试，而不是逐行审查？这绝对有利有弊……我也可以想象它失控，然后出现一个完全无法维护，甚至 Claude 也无法理解的代码库。(逐字稿正文仅中文,系机器翻译)
— Mike Krieger · Anthropic's CPO on what comes next

最保守的一端:Legora——每一个 PR 都人审,因为安全。 Jacob 给出了一个明确反向的立场,而且理由是 slate 刻意排除的"安全/治理"——但它恰恰决定了人作为审阅者的边界:

"we still review human PRs, every single one, just because we have to be sure. I think that's inefficient. I want to … get some risk scores in there and change that so that we can run really fast."
「我们仍然会审查每一个人类 PR,仅仅是因为我们必须确保。我认为这效率不高。我想要……把一些风险评分放进去并改变这一点,这样我们就可以运行得很快。」
Jacob Lauritzen · Inside Legora's Tech Stack

Jacob 自己提出了一个判别规则,把"该不该看"和"看什么"拆开:

"if that doesn't change, then maybe you don't have to review it at all. Just unleash the agent. But if it does, if there are some strategic trade-offs, then you want a human to be like, yeah, this is the right direction."
「如果这没有改变,那么也许你根本不需要审查它。只要释放代理。但如果是这样,如果有一些战略上的权衡,那么你就希望有人来判断,是的,这是采取的正确方向。」
Jacob Lauritzen · Inside Legora's Tech Stack

把这条光谱排在一起:Karpathy"别看,让它跑"↔ Simon"先盯再放手"↔ Anthropic"AI 审 + 人验收"↔ Legora"每个都看,但只看架构/安全级的改动"。表面都是"human-in-the-loop",真正的分歧是 loop 里那个 human 还剩多少裁量权——而决定答案的是"任务能不能被客观验证"和"出错的代价有多大"。Karpathy/Nadella 强调可验证指标,Legora 强调安全代价,这两条轴线没人调和。

分歧三:管理者的工作还会不会被 agent 接管?——"上移"是终点还是又一个临时台阶

发言人都说人上移了一层,但对"上移到哪儿停"看法不一。

Krieger 把这个问题挑明了:既然 Claude 已经在帮他做产品策略(上游),那么"人审/人定方向"这层会不会也被吃掉?他没给确定答案,只守住了一条:

即使 Claude 可以从零开始创造产品，你正在构建什么，以及如何使其易于理解，仍然很难，因为我认为这需要更深层次的共情和对人类需求及心理的理解。(逐字稿正文仅中文,系机器翻译)
— Mike Krieger · Anthropic's CPO on what comes next

Nadella 则更乐观地把人锚定在"发现缺口"上,认为这是人创造价值的不可替代点:

"humans and their ability to find the gaps that exist at all times is going to be the way we all will create value … This is going to be about expressing new forms of human agency and ambition, even as token capital goes up."
「人类及其发现始终存在的差距的能力将是我们创造价值的方式……这将涉及到表达新的形式的人类代理和雄心,即便代币资本上涨。」
Satya Nadella · The Rise of the Full-Stack Builder

Karpathy 的 AutoResearch 则隐含了最激进的推论:连"研究员看结果调参"这种判断活也可以被一个外层循环自动接管——他亲眼看到 AutoResearch 找到了他二十年经验没调出来的超参。如果"看结果做判断"本身能被自动化,那么"人作为审阅者"这个共识地基,在可验证的领域里也是临时的。三人没有正面交锋,但 Nadella 的"人锚定在发现缺口"和 Karpathy 的"判断也能外包给循环"是两个方向相反的赌注。

分歧四:这一层会塌缩成"一个人",还是分化成"几种专才"?

Julie Zhuo 押注"角色边界溶解,人人都是 builder":

"we can drop all of these different role distinctions and call ourselves builders. … We can all be builders. … I love first to get to the world where that's just … the title."
「我们可以放弃所有这些不同的角色区分,称自己为建设者……我们都可以成为建设者……我很乐意首先进入一个世界,在那里这就像是头衔一样。」
Julie Zhuo · From managing people to managing AI

Nadella 一方面附和"通才杠杆最大"(full-stack builder、generalist),另一方面又给出一个相反信号:角色不是溶解,而是收敛成四类专才,其中第一类就是"管 agent 的人":

"we'll basically end up with four engineering roles. It'll be people who are managing agents. It'll be forward deployed engineers or FDEs. It'll be security engineers, and then people working on large scale infrastructure … 'Yeah, I think that's a correct view of the world.'"
「我们基本上会有四种工程角色。会有人管理代理。会有前线工程师或 FDE。会有安全工程师,然后是在少数服务上工作的规模化基础设施人员……'是的,我认为这是对这个世界的正确看法。'」
Satya Nadella · The Rise of the Full-Stack Builder

"人人都是 builder"和"收敛成四种专才(管 agent 是其中一种)"是两幅不同的组织图景:前者认为分工消失,后者认为出现了"agent manager"这一新工种。Nadella 自己内部就同时持有这两条(通才杠杆 + 四类专才),没有解释二者如何并存。

都没说透的

"管很多 agent"具体怎么管,几乎没人讲清。 大家都说"swarm of 100 agents""kick off another one",但人脑同时盯住几十个并行 agent 的认知负荷如何承受?Nadella 一句"the cognitive load, it transfers back … so excessive that now I need a new UI"点到了痛处,Harrison Chase 提出 async 管理 + sync 切换、把 Linear/Kanban/邮件当灵感,但"一个人能有效管理多少 agent、靠什么界面"仍是空白。
审阅者的能力从哪来? 所有人都说人保留"判断/品味/验收",但如果新人一上来就不写代码、只审 agent 产出,审阅所需的底层手感(taste、debug 直觉)从何习得?Krieger 隐约担心"把所有认知都委托给 AI"会扼杀独立思考,但没人回答"不再亲手做,如何还能判断做得对不对"这个代际断层。
"可验证"边界之外怎么办。 Karpathy 反复强调自动化只适用于有客观指标的任务("If you can't evaluate it, you can't auto research it"),Legora 的 Jacob 也呼吁"求求谁来做个解决 review 的创业公司"。也就是说,在不可验证、需要人审的大片区域,"人退出循环"根本做不到——但这片区域到底多大、如何缩小,讨论很少。
谁该承担 agent 闯的祸。 Jacob 提到供应商安全事件、red team agent 极其高效;Krieger 设想代码库失控到"连 Claude 也看不懂"。当人只做"外层验收"而 agent 写了 95% 的代码,出事时责任归属、可维护性如何保证,基本被绕开(部分因为 slate 把治理划到了 agent-security 主题之外)。

我的看法

以下是判断,把握程度中等。我认为这批访谈里"人变成 agent 管理者"是个被过度统一的口号:它把两件本质不同的事缝在了一起——一是"判断/品味/对齐"这种偏人文的领导力(Julie Zhuo 路线),二是"护栏/自验证循环/护城河式架构"这种偏系统的工程设计(Simon Last、Jacob 路线)。Simon Last 那句"it is actually very deeply technical … a technical design problem"是整个语料里最有价值的反共识信号,值得高看一眼。

我也倾向于认为,真正稳的不是"人当 manager"这个结论,而是"瓶颈搬到了审阅/对齐"这个观察——前者是修辞,后者是可被各家数据(合并队列、token 计量、PR 体积)反复验证的事实。至于"人会不会连审阅都被接管",我把握很低:Karpathy 的 AutoResearch 证明在可验证领域人确实会被踢出循环,但这能外推到多大范围,目前没有证据,只有信仰。

还想知道什么

一个熟练的人实测能并行管多少 agent?有没有人记录过"管理者一天审 N 个 PR / 监督 M 个 agent"的真实上限和出错率?
从未亲手写过代码、直接进入"审阅者"角色的新工程师,审阅质量和老工程师差多少?有没有公司在跟踪这条代际曲线?
"agent manager"作为一个正式岗位(Nadella 说 LinkedIn 已设 full-stack builder、四类角色之一是管 agent)的招聘标准、职级、薪酬是怎么定义的?对比传统 EM 有何不同?
在不可验证任务上,有没有团队找到"让人退出循环"的可行办法,还是只能永远保留人审?Jacob 悬赏的"解决 review 的工具"有没有人真做出来?

取材

Anthropic's CPO on what comes next, Mike Krieger · 2025-06-07(中心之一;逐字稿正文为机器中文翻译,英文仅见于 Q&A 摘要,引用按规则用中文逐字)
From managing people to managing AI, Julie Zhuo · 2025-09-22(中心之一;"管人=管 AI"最强代言)
Context Engineering Our Way to Long-Horizon Agents, Harrison Chase · 2026-01-31(支撑;"初稿+人审""async 管理"的产品形态)
From Coder to Manager, Simon Last · 2026-03-13(中心;"我现在是 agent manager")
Andrej Karpathy on Code Agents, AutoResearch · 2026-03-21(中心;"把自己从瓶颈移除""人退出循环"最激进一端)
Notion's Token Town, Simon Last & Sarah Sachs · 2026-04-17(中心;与上一篇同为 Simon Last,视为同一发言人的两个来源,不重复计权;"software factory""管 agent≠管人"的反共识在此)
The Rise of the Full-Stack Builder, Satya Nadella · 2026-06-06(中心;"meta-work""我们的工作是构建做 X 的 agentic system""四类工程角色")
Inside Legora's Tech Stack, Jacob Lauritzen · 2026-06-10(中心;"meta-engineering""每个 PR 都人审""释放 agent vs 人审"的判别规则)