押注下一个模型 vs 加固脚手架 · Bet the Next Model vs Harden the Scaffolding
主题综述
主题页(活文档)· 最近更新 2026-06-12 · 取材 7 篇访谈
更新日志
- 2026-06-12 — 首次综述。基于 7 篇访谈(其中 Notion 出现于 2 集,记一个阵营),核心结论:所有人都同意"价值在模型 + 脚手架的乘积里",但在"今天的脚手架工程折旧得多快、护城河该埋在哪一层"上分裂成两极——一极每六个月推倒重写 harness、乐于删自己的代码、相信能力会把人工支架冲掉(Sholto、Vinyals、Simon Last);另一极把 harness=模型+专有数据+工具+私有 evals 当成 IP 和资产负债表资产去加固(Nadella、Legora)。(本主题由语义挖掘发现:lexical 匹配抓不到——大家用 harness / scaffold / outer loop / meta-engineering / hill-climbing scaffold / bitter lesson 各说各话——经语义召回 + 精筛组装而成)
主流共识
第一,价值不在模型单独一项里,而在"模型 × 脚手架"的乘积里。 没有人说脚手架不重要,也没有人说模型不重要。Sholto Douglas 用"产品指数"把两者绑在一起:
「我认为在某些方面存在一种产品指数的概念,你必须不断地在模型的能力之前进行构建……直到像 Claude 3.5 Sonnet 这样的底层模型起飞,Cursor 才达到了 PMF,他们想要提供给人们的帮助才得以实现。」(逐字稿仅中文)
— Sholto Douglas · Ep 66 Member of Technical Staff at Anthropic Sholto
第二,同一个词"harness"是这场争论的公约数。 从 Anthropic、Google DeepMind 到 Notion、Microsoft、LangChain、Legora,所有人都用 harness/scaffold 指"模型外面那一圈工程"——工具、上下文、规划、压缩、验证。Harrison Chase 把行业的演进直接命名为"从脚手架到 harness":
"...at some point the models got good enough and that's when we moved from scaffolds to harnesses."「在某个时候,模型变得足够好,那时我们从脚手架转向了线束。」Harrison Chase · Context Engineering Our Way to Long-Horizon Agents
第三,几乎所有人都把"自己训模型 / 微调模型"放在杠杆最低的一端,把外层循环放在最高的一端。 这是双方都接受的前提——分歧只在外层循环到底有多耐久。Simon Last 把训练降格为"实现细节":
"...don't focus Too much on training. I think of that as that's an implementation detail. Like what's the outer loop, right?... And actually 99% of the time, it's a bug in one of the tools. And so just fix the bug."「不要太关注训练。我认为那是一个实现细节。外部循环是什么,对吧?……实际上 99% 的情况下,是其中一个工具中的 bug。所以只需修复 bug 即可。」Simon Last · Notion's Token Town
Legora 的 Jacob Lauritzen 同样把工程师的活儿上移到 harness 层,称之为"meta-engineering":
"We kind of need to have the same team for agents. Like how do we make agents really, really effective?... That's sort of setting up the loop so agents can just like run and optimize... I think that's going to be the actual job of a lot of engineers."「我们也需要为代理建立同样的团队。我们如何让代理真正有效呢?……这就像是在建立一个循环,让代理可以运行并进行优化。我觉得这将会是许多工程师的实际工作。」Jacob Lauritzen · 20Product: Inside Legora's Tech Stack
共识到此为止。下面是真正的裂缝。
分歧在哪
裂缝是一道问题:今天投进 harness 的工程,会被下一代模型吸收/冲掉,还是会沉淀成护城河? 同样喊着"harness 重要"的人,对它的"折旧速度"判断截然相反。
一极:押注下一个模型——脚手架是临时支架,迟早被模型吃掉
Vinyals 是这一极最干净的表述。他直接说,今天手写的复杂 scaffold,极限状态下应该由模型自己即时写出来,甚至"没有系统":
"The system that we build now, sort of by coding, sometimes a complex sort of scaffold around the model, you know, multi-agents, sub-agents, delegation, very long running. That system itself is a piece of code that eventually the model itself could write on the fly... maybe no system and just the model being able to write those depending on what it's being asked to do."「我们现在构建的系统,通过编码,时常围绕模型建立一种复杂的框架,比如多代理、子代理、委派,运行时间非常长。这个系统本身是一段代码,最终模型本身能够实时编写……可能没有系统,模型能够根据被要求做的事情来编写那些代码。」Oriol Vinyals · Ep 87 Gemini Co-Lead
而且他把这当作 the bitter lesson 的一个待清算的例子——主持人直接问他哪里有"巧妙的脚手架"会被规模冲掉,他答"yes, I think so":
"Are there places where you... see kind of structure or clever scaffolding that you think scale is just kind of eventually going to wash out?" — "Yeah, I think so."「你看到一些结构或巧妙的支架,你认为规模最终会被洗掉的地方?」——「是的,我也是这么认为的。」Jacob Effron 问 / Oriol Vinyals 答 · Ep 87 Gemini Co-Lead
Sholto 给出的是行为层面的同一信念:harness 要保持轻、要不断推倒重来追上前沿。他甚至承认还没人破解出最终形态:
「你必须不断重塑产品,使之适应模型能力的前沿。也许是提前几个月,我想。」(逐字稿仅中文)
— Sholto Douglas · Ep 66 Member of Technical Staff at Anthropic Sholto
Notion 的 Simon Last 把这条信念做成了纪律——每六个月推倒重写 harness,并把它说成"很多公司搞错的关键点":
"We rewrite our AI harness probably every six months or so. And the time to rewrite has kind of been decreasing just because... progress has been accelerating. I think this is honestly a really key thing and something that a lot of companies get wrong is just like, doing one thing and then just like sticking with it."「我们大概每六个月左右就会重写一次 AI 工具。而且重写的时间一直在缩短,因为……进展一直在加速。我认为这确实是很关键的一点,很多公司都做错了,就是只做一件事然后坚持下去。」Simon Last · From Coder to Manager
这一极的文化要求是"敢删自己的代码"。Sarah Sachs 把它讲成了组织设计:
"I think we have rebuilt our harness three or four times. And when you do that... you need to build a team that's comfortable deleting their own code... and doesn't write design docs because they think it's their promotion packet."「我想我们已经重建了我们的 harness 三四次了。当你这样做的时候……你需要建立一支能够坦然删除自己代码的团队……而不是为了晋升而编写设计文档。」Sarah Sachs · Notion's Token Town
"It's really critical to always just be starting again... What if we just rethought everything, rewrote everything? And obviously just doing that in a loop every six months."「始终重新开始至关重要……如果我们重新思考一切,重写一切呢?显然,每六个月都在循环做这件事。」Simon Last · Notion's Token Town
另一极:加固脚手架——harness=模型+数据+工具+私有 evals 就是护城河和 IP
Nadella 站在反向。他不把 harness 当临时支架,而把它当公司的第三幕、当能上资产负债表的资产。他给出的"护城河测试"很具体——能不能把模型 A 换成模型 B 还继续爬坡:
"...every company Having private evals may be the biggest IP... another asset test is you have an eval that's private, you're using a model A, can you switch it to model B and climb up? If you can, then you're in control. If you can't, you're not in control. And that's where even the harness decision becomes super important."「每家公司拥有私有评估可能是最大的知识产权……另一个资产测试是你有一个私有评估,你在使用模型 A,能否切换到模型 B 并向上攀升?如果可以,那你就掌控了。如果不行,那你就没有掌控权。这就是工具的选择变得非常重要的地方。」Satya Nadella · The Rise of the Full-Stack Builder
注意这里和"押注下一个模型"一极的微妙之处:Nadella 也假设模型会不断被换掉——但他得出的结论恰恰相反:正因为模型会换,你才更要把可移植的私有 eval/harness 当成不变的资产沉淀下来。同一个事实("模型很快过时"),两极读出了相反的策略。Nadella 进一步把这套东西定义成公司的隐性知识、该进资产负债表:
"...that goes back to train, not a generalist model, but to train the company veteran agent... when a company says it should in fact go on to the balance sheet is how I think about it. In fact, human capital was never possible To go put on a balance sheet."「然后这就是要去训练,不是一个通用模型,而是要训练公司的老练代理……我认为这就是公司应该在资产负债表上反映的方式。实际上,人力资本从来没有可能放在资产负债表上。」Satya Nadella · The Rise of the Full-Stack Builder
Legora 站在同一极,但理由不同:他们押的不是"私有 eval 资产",而是"最后那 10% 的边角"——RBAC、审计、unhappy path——这些是 vibe-code 复制不掉的,所以脚手架(以及围着它的产品价值)才是壁垒:
"It's very quick to get to the 90% where it looks the same... It's the other 90% that are difficult... all the edge cases and all the unhappy paths and all the audit locking and all the RBAC... That's what's difficult."「到达 90% 级别的速度非常快,外观相似……另一个 10% 的东西才是困难的……确保所有边缘情况有效,处理所有不愉快的路径,以及所有审计锁定、RBAC……这就是困难所在。」Jacob Lauritzen · 20Product: Inside Legora's Tech Stack
阵营内部也不齐:两条裂缝别被合并掉
裂缝一:Notion 自己同时站两边。 Simon Last 在外层(harness 实现)是彻底的"押下一个模型"派——每六个月推倒、训练只是实现细节;但 Notion 在数据/检索层却悄悄做"加固",承认这是它"现在确实更多投资模型训练的唯一地方":
"The one place that we do invest more in model training now... is actually in retrieval. Because... the search load and the search traffic, a majority of it's coming from agents, not humans."「我们现在确实在模型训练方面投入更多的一个地方,实际上是在检索方面。因为……搜索负载和搜索流量的大部分来自代理而不是人类。」Sarah Sachs · Notion's Token Town
而且 Notion 给自己划了一条"哪些 harness 不值得加固"的界:harness 本身不是它要赢的东西,记录系统才是。这跟 Nadella"harness 就是第三幕"形成对照:
"...our job is to not make the best harness for agentic work. Our job is to be the best place where people collaborate."「我们的工作不是为代理工作制造最好的工具。我们的工作是成为人们协作的最佳场所。」Sarah Sachs(转述 Simon Last)· Notion's Token Town
裂缝二:"加固派"对护城河埋在哪一层各执一词。 Harrison Chase 既不把宝押在"自训模型",也不押在"自建 harness"——他认为长期看大多数人根本不会自己造 harness,真正耐久的是数据和"记忆":
"I don't think that most people will build their own harness in the long run because it's actually way harder than building a framework... One thing that existing companies have is all the data and all the APIs."「我认为从长远来看,大多数人不会构建自己的线束,因为它实际上比构建框架要难得多……现有公司拥有的东西是所有数据和所有 API。」Harrison Chase · Context Engineering Our Way to Long-Horizon Agents
把三家加固派并排看:Nadella 押"私有 evals + 可移植 harness",Legora 押"边角 + 产品价值",Harrison 押"数据 + memory"。同属一极,壁垒埋的地层完全不同——别合并成一句"脚手架是护城河"。
都没说透的
- 没有人给出"折旧速度"的实测数字。 整场争论的枢纽是"今天的工程多快被冲掉",但 Sholto 说"领先几个月",Simon Last 说"每六个月重写一次"——这是节奏,不是折旧率。没人量化:上一次重写里有多少代码是被新模型能力直接淘汰的,多少是纯粹的技术债。两极其实是在对一个谁都没测过的数字下注。
- "押下一个模型"派几乎都在大实验室或贴着实验室的人嘴里。 Sholto(Anthropic)、Vinyals(DeepMind)、Simon Last(与前沿实验室深度合作)——他们有结构性理由相信模型会吸收脚手架。而 Nadella/Legora 这边要对企业客户、对 SLA、对边角负责。没人正面承认:你站哪一极,可能首先取决于你坐在价值链的哪个位置,而不是对技术的纯判断。
- "模型自己写 scaffold"和"加固 scaffold 当 IP"如果都成真,会互相拆台,但无人对质。 若 Vinyals 对——模型最终即时写出最优 sub-agent 结构——那 Nadella 精心加固、要进资产负债表的 harness 资产是否也会被冲掉?这两段话隔着不同访谈,从未碰面。
- 双方都假设"verifier / eval 能做出来",但 Vinyals 自己泼了冷水。 加固派的护城河(私有 evals)和押模型派的乐观(RL 会泛化)都建立在"能写出 verifier"上,而 Vinyals 明说"for the things I want the model to do, I would not even be able to write a verifier if I had all the time in the world"。这个前提的脆弱,没人接着往下追。
我的看法
(以下是判断,非转述。)我的把握是中等。我倾向认为这不是"二选一",而是分层下注:在 harness 的实现细节层(prompt 编排、工具包装、压缩策略),"押下一个模型 / 敢删代码"几乎肯定对——这些东西的半衰期看起来就是几个月。但在数据、私有 eval、领域边角(Legora 的那 10%)这几层,加固派更可能对,因为这些恰恰是模型能力提升不会自动送你的东西。真正的错误不是选错阵营,而是把某样东西放错了层——比如把本该每季度扔掉的 prompt 当 IP 供起来,或反过来把好不容易攒的私有 eval 当临时脚手架推倒。Notion 同时站两边,在我看来不是矛盾,而是把这种分层做对了的样子。
还想知道什么
- 一次"每六个月重写"里,被删的代码按"被模型能力淘汰 / 纯技术债 / 方向押错"三类拆开,各占多少?这能把折旧率从口号变成数字。
- Nadella 的"私有 eval 资产"在一次跨代模型升级(如 Sonnet→下一代)中实测保值率如何——真能"换模型继续爬坡",还是 eval 本身也要重写?
- 押"模型自写 scaffold"的实验室,内部产品(Claude Code / Gemini 的 agent)究竟有多少 scaffold 已经是模型即时生成、而非人工硬编码?这是 Vinyals 命题的唯一硬证据来源。
- 同一家公司若被问"哪几层你坚决加固、哪几层你坚决每季度扔",答案的分层边界画在哪——这比阵营标签信息量大得多。
取材
- Ep 66: Member of Technical Staff at Anthropic, Sholto Douglas · 2025-06-18(中心:产品指数、build ahead of model、不断重塑产品)
- Context Engineering Our Way to Long-Horizon Agents(Harrison Chase / LangChain)· 2026-01-31(中心:从 scaffold 到 harness、harness 是否可成护城河、数据/memory 才耐久)
- From Coder to Manager(Simon Last / Notion)· 2026-03-13(中心:每六个月重写 harness)
- Notion's Token Town(Simon Last & Sarah Sachs / Notion)· 2026-04-17(中心:outer loop、敢删代码、训练只是实现细节、harness 不是要赢的东西;与上一条同公司同人,合记为一个阵营)
- Ep 87: Gemini Co-Lead(Oriol Vinyals / Google DeepMind)· 2026-05-25(中心:静态人编 scaffold→模型动态自写 sub-agent、bitter lesson 会冲掉巧妙脚手架)
- The Rise of the Full-Stack Builder(Satya Nadella / Microsoft)· 2026-06-06(中心:harness=模型+数据+工具、私有 evals 是最大 IP、agent traces 上资产负债表)
- 20Product: Inside Legora's Tech Stack(Jacob Lauritzen / Legora)· 2026-06-10(中心:meta-engineering、最后 10% 边角是壁垒、token maxing 不是答案)