主题综述

模型表现触顶了吗 · Performance Plateau

主题综述

主题页(活文档)· 最近更新 2026-05-20 · 取材 9 篇访谈

更新日志

主流共识

第一点:pre-training 这一条轴的回报在变缓——几乎所有人,包括"看多"派,都接受这一点。

AI Vibe Check 的几位研究者认为:简单地往模型里塞更多数据,回报正在递减;与其无限砸资本,不如聚焦样本效率(sample efficiency)。(该集英文原音、podwise 仅存中文,故转述。)

收益递减是固有的,因为模型的智能与用于训练它的计算量呈对数线性关系,这意味着你必须以指数方式增加计算量才能获得智能的每次增量。
— Bob McGrew (former OpenAI) · 见姊妹主题 inference-economics

第二点:capability 的瓶颈正在远离"模型本身",开始向部署/使用侧迁移。即使最看好的模型公司也承认这点。

"99% of people get to use bad tools or don't have any tools at all."
「99% 的人用的是糟糕的工具,或者根本没工具。」
Brad Lightcap (OpenAI) · Uncapped #46 Brad Lightcap from OpenAI
"We're so far from just the ability of the models right now being integrated into daily life. People do not know how to use these systems."
「我们离把模型现有的能力真正整合进日常生活还差得很远。人们根本不知道怎么用这些系统。」
Winston Weinberg (Harvey) · 20VC: How Model Performance is Plateauing

第三点:新增量正在出现在 reasoning / post-training / data-quality 等非"参数 + 算力"的轴上——但各家押不同的子轴。

分歧在哪

阵营 A · "pre-training 平台期是真的"——Harvey / Vibe Check panel 立场

Winston Weinberg (Harvey) 把"plateauing"明确写进了播客标题——但他的论证更微妙,他强调的不是"capability 没涨",而是部署侧已经赶不上,所以应用层公司的现实约束已经不在模型升级:

"We're so far from just the ability of the models right now being integrated into daily life."
「我们离把模型现有能力整合到日常生活,还差得很远。」

Vibe Check panel 给的是更技术化的"plateau"——但他们也加了重要限定:

他们还有一个更技术化的观察(同为转述):RL 能不能成功,取决于落进一个"适度区"——模型已经懂得够多、能做出合理猜测,但又还没强到能直接解决任务;太难或太易,RL 都吃不到信号。

"We're just starting to scratch the surface in terms of economic value creation from the model."
「就模型创造的经济价值而言,我们才刚刚触到表面。」
Vibe Check panel · AI Vibe Check

注意——这个 panel 是"plateauing"派里最看多经济价值的,他们对"capability 平台"和"应用价值平台"的区分极为锋利

Jack Morris 在更基础的研究层面给了一个具体的"plateau 测得到"的论点:

"A model's capacity for memorization plateaus, establishing a measurable limit to the amount of information it can retain, regardless of training size."
「模型的记忆容量会触顶,给出一个可测量的信息保留上限——无论训练规模多大。」

阵营 B · "Scaling laws will continue"——但要扩展定义

Joelle Pineau (Cohere Chief Scientist) 是这一派最公开的代表,名义上看多 scaling,但她的论证已经把"scaling"重定义到包含算法创新:

"I tend to decompose the ingredients that lead to progress — the algorithms, the data, the compute. Compute and data have a more linear effect on progress: you build more compute, you run bigger models, you get better performance; you feed in more data."
「我习惯把推动进步的要素拆开——算法、数据、算力。算力和数据对进步的影响更线性:你堆更多算力、跑更大的模型、性能就更好;你喂更多数据也是。」

——言下之意,算法创新才是那条非线性的轴,只是它要很久才看得出来。这就是她把"scaling 会继续"悄悄重定义成"算法那条轴会继续"的地方。

她对 RL 既看多本质、又给了一个限定——别指望开箱即用的 RL 直接给出 AGI,这是 Camp B 内部值得注意的微差异:

"I'm still super bullish on RL in that the concept itself is so fundamental — training through a system of rewards, indicating what's valuable and what's not through numerical values. That's not going away. Where we're maybe getting a little bit ahead is thinking that just RL out of the box is going to give us AGI. That part, a lot less so."
「我对 RL 仍然非常看多——因为这个概念本身太根本了:通过一套奖励系统、用数值告诉模型什么有价值、什么没价值。这不会消失。我们也许有点超前的地方,是以为'开箱即用的 RL'就能给我们 AGI——这一点,我就没那么信了。」

Sarah Wang / Martin Casado (a16z) 把"scaling continues"绑到资本流动模式上:

"This is probably also a unique time in that for the first time you can actually trace dollars to outcomes, provided that scaling laws are holding and capabilities are actually moving forward."
「这可能也是一个独特时期——你第一次能把美元真正追溯到结果,*前提是 scaling laws 仍然成立、能力仍然在前进*。」
Martin Casado / Sarah Wang · Inside AI's $10B+ Capital Flywheel

注意"前提"两个字——这是 Camp B 里自己埋下的撤退条款:如果 scaling 真停了,整个资本飞轮的逻辑会断。

阵营 C · "pre-training 慢下来,但新的增量在 reasoning / post-training"——OpenAI 立场

OpenAI 的 Isa Fulford / Christina Kim 把 GPT-5 的改进直接归功于 data quality + RL,而不是单纯参数 / 算力:

"If you compare it to O3's front-end coding capability, this is just totally next level. It feels very different. … The team just really cared about nailing front-end. And that means getting the best data, thinking about the aesthetics."
「跟 O3 的前端编码能力比,这完全是另一个级别,感觉很不一样。……团队真的非常在意把前端做好。这意味着拿到最好的数据、认真想审美。」
"One thing that's interesting is with reinforcement learning, training a model to be good at a specific capability is very data efficient. You don't need that many examples to teach it something new."
「有意思的一点是,用强化学习把模型训得擅长某个具体能力,是非常 data efficient 的——你不需要很多例子就能教它一件新东西。」

阵营 D · "Data 才是被严重低估的轴"——Datology / 数据派立场

Ari Morcos (Datology) 是少数把整套问题重新框架的人:

"Data is the most under-invested in area of research relative to its impact, and I don't think it's even close."
「相对于影响而言,data 是 ML 研究里投入最不足的一块——而且差距很大。」
"Even if you look at Kaplan and Chinchilla and all the other scaling laws work, they all assume IID data. That's insane. We know all data is not created equal — 'garbage in, garbage out' is the oldest adage in computer science."
「哪怕你去看 Kaplan、Chinchilla 以及所有其他 scaling laws 的工作,它们全都假设 IID(独立同分布)数据。这太离谱了。我们都知道'数据并非生而平等'——'垃圾进、垃圾出'是计算机科学里最老的格言。」
"Making the data better can be a massive compute multiplier. It can change the performance per dollar by orders of magnitude."
「把数据做得更好,可以成为巨大的算力倍增器——每美元性能可以变化好几个数量级。」

这条线把"plateau"问题转换成"我们一直在用错的资源花算力"。

阵营 E · "Capability ≠ Utility"——Brad Lightcap / Zelikman 的角度

Brad Lightcap 直接给出最强版本的"capability 已经远超 deployment"论点:

"You could stop progress right now. And I still think there's kind of a 10 or 20 year diffusion and innovation cycle that just to get it into the economy."
「就算现在停下进展,我还是认为有 10 到 20 年的扩散和创新周期——光是把它送进经济里就要这么久。」
"When you reduce the cost of something to zero, the demand for it goes up significantly."
「当你把某样东西的成本降到零,对它的需求会显著上升。」
Brad Lightcap · Uncapped #46

Eric Zelikman (humans&) 从另一边补了同样的判断:

"We have these incredibly smart models that are capable of so much, but they're not used for anywhere near what they're capable of."
「我们手上有这些极其聪明的模型,能干的事情很多——但它们的使用远远没到它们能做的水平。」

Zelikman 还给了一个不在其他阵营里、被忽视的瓶颈——情商(emotional intelligence)。他创办 humans& 的核心论点正是:当下模型常常"失败",瓶颈不在 IQ,而在缺乏情商和对人类价值的理解,于是"真正帮到人"的能力被卡住。(此条为其访谈要点转述。)

都没说透的

我的看法

判断(不是事实):pre-training scaling 的边际回报在变缓——这一点共识强到接近事实。新增量正在涌现在三条不同的轴上(post-training/RL、data quality、deployment / agentic workflow),且这三条轴的回报曲线还没有公开的可信数据。结果是"我们触顶了吗"这个题目本身被错误地框定为单一维度。更准确的提问是:capability 这条曲线在不同子领域分裂之后,整体应用价值的增长还会持续多久? 我的判断是:capability 的整体增速会放缓但应用价值的增长会持续至少 5–10 年——主要因为 Lightcap 和 Weinberg 同时说出的部署滞后是真实存在的、可观测的现实。

把握程度:中等偏高。最强的支撑是"应用滞后"这一点在 Camp A、Camp C、Camp E 里都被反复观察到,跨阵营独立证实;最弱的环节是"新轴上的回报曲线"——我把它们当作"还能跑",但实证基础很薄,可能比我现在判断的更早 plateau。

还想知道什么

取材