主题综述

推理经济学 · Inference Economics

主题综述

主题页(活文档)· 最近更新 2026-05-20 · 取材 9 篇访谈

更新日志

主流共识

第一点:推理成本在以每年约一个数量级的速度下降,这个量级几乎没有反对。

"In the last couple years inference cost has probably come down, maybe 100x?"
「过去这几年,推理成本大概降了……也许 100 倍?」

Redpoint 的投资人也给了同量级的判断(英文原音、podwise 仅存中文,故转述):LLM 的推理和训练成本每年下降约 10 倍,直接改善了在其上构建的应用公司的利润结构。

第二点:推理负载本身在变质——从静态、同尺寸的请求变成 dynamic、agentic、长上下文,对调度和内存提出全新的问题。

"What if the hardest problem in artificial intelligence isn't training smarter models, but simply keeping them running?"
「如果人工智能领域最难的问题不是训练更智能的模型,而是如何保持它们的运行呢?」

第三点:Jevons paradox 在生效——成本降低没有压缩总开支,而是把开发者引向更复杂、更耗 compute 的 agentic workflows。

分歧在哪

阵营 A · "软件层是护城河"——Baseten 的立场

Tuhin Srivastava (Baseten) 把推理拆成两层并明确押注上层:

"GPUs as a service are not sticky. Inference with the software layer included is incredibly sticky."
「GPU 即服务并不具备粘性。包含软件层的推理则具有极强的粘性。」
"If user signal is encoded in a model, your business is at risk. If it is encoded in workflows, that is where you develop moats."
「如果用户信号被编码在模型中,你的业务就面临风险。如果它被编码在工作流中,那才是你建立护城河的地方。」
"From the developer's perspective, they would insert more intelligence if you make it cheaper. They will insert more intelligence anyway, but if you make it cheaper, [they insert even more]."
「从开发者的视角看,你把智能做得更便宜,他们就会塞进更多智能。其实他们本来就会塞更多,但你越便宜、他们塞得越多。」

阵营 B · "推理供应商只是 GPU 经销商"——记者视角的怀疑

Stephanie Palazzolo (The Information) 给的是 Camp A 的直接反驳:

Stephanie Palazzolo(The Information)给的是 Camp A 的直接反驳(英文原音、仅存中文,故转述):推理供应商被怀疑"不过是 GPU 经销商"——尽管融资凶猛,却很难证明其高估值;而且它们的命运被绑死在一条线上——开源模型相对闭源模型的性能差距,推理供应商本质上是这条 gap 的代理。

Redpoint 给了同方向的实证——switching cost 在塌(同为英文原音转述):他们组合里很多公司几天内就从 Anthropic 切到 DeepSeek、推理成本降 80–90%;LLM 之间切换成本极低,公司可以按成本 / 性能随意换供应商,这反过来削弱了"模型公司靠规模建护城河"的逻辑。

阵营 C · "硬件可移植性是神话——但赢家也轮换"——Tri Dao 的双重立场

Tri Dao 既给 Nvidia 站台,又给挑战者留了门:

"Hardware portability is a myth because even within Nvidia chips, each generation requires rewriting code to maximize performance."
「硬件可移植性是一个神话——即使在 Nvidia 芯片中,每一代都需要重写代码才能最大限度地提高性能。」
"Nvidia is dominant because they design very good chips and build very good software. … But as the workloads start to consolidate more around architecture aspects — like Transformers and MoE — we'll see a lot of competitors enter. It becomes a little easier to design chips for that workload."
「Nvidia 占主导,是因为他们既设计出很好的芯片、又做出很好的软件。……但随着工作负载越来越向架构层面(比如 Transformer 和 MoE)收敛,我们会看到很多竞争者进来——为这种工作负载设计芯片,会变得容易一点。」

这一立场把战场推到 hardware-software co-design。

阵营 D · "agent 价格会被压到计算成本"——McGrew 的终局推演

Bob McGrew(OpenAI 前研究负责人) 给出最悲观(对推理供应商而言)的版本(该集英文原音、podwise 仅存中文,故以下为转述):因为竞争,agent 的价格可能被压到只剩计算成本,从而侵蚀掉一切建立在"专业稀缺"上的经济模式。他的比喻很直白——律师贵是因为时间稀缺;但一旦你把律师做成 AI 模型,就等于有了无限多个律师,于是它一点都不稀缺了。而价值会"逃"到哪里?McGrew 押的是:最有价值的机会在那些对"模型之外的领域"有深刻理解的应用——比如把 AI 接进既有业务流程的企业方案。

阵营 E · "在巨头打架的缝里挑窄市场"——Fal.ai 的策略

Fal.ai 的 Gorkem 和 Batuhan 选择根本不和 LLM 推理玩家正面打——他们的论点是 inference 经济学的现实是"分赛道":

"We chose to be a leader or play to be a leader in this fast-growing niche market rather than trying to go against Google or OpenAI or Anthropic."
「我们选择成为这个快速增长的利基市场的领导者,而不是试图与 Google 或 OpenAI 或 Anthropic 竞争。」
"Whenever something new comes up, we are the first one to optimize it. First one to adapt our inference engine to it."
「每当有新的东西出现,我们总是第一个优化它,第一个调整我们的推理引擎来适应它。」

阵营 F · "Diversity wins"——开源基础设施视角

vLLM / Inferact 的 Simon Mo 和 Woosuk Kwon 给的是另一种结构性预测:

"What we believe is diversity will triumph that sort of single of anything at all."
「我们相信多样性会战胜任何单一的事物。」
Simon Mo · Inferact
"Having this community all work together for this open-source, we have the execution beyond any single entity can have."
「拥有这个社区一起为开源项目努力,我们的执行力超越了任何单一实体所能达到的水平。」
Simon Mo · Inferact

阵营 G · "垂直整合到 SOL"——Nvidia 的反向押注

Nvidia 的 Kyle Kranen 和 Nader Khalil 不接受"多样性赢"也不接受"软件层赢"——他们的逻辑是只有 hardware-model co-design 才能逼近物理极限

"Before trying to layer reality back in of, why can't this be delivered at some date? Let's just understand the physics. What is the theoretical limit to how fast this can go?"
「在试图重新加入现实之前——比如,为什么不能在某个日期交付?——让我们先理解物理。理论上它能跑多快?」

Dynamo 作为 datacenter-scale inference engine,是把推理"垂直整合到 SOL"的工程化体现——这跟 Camp F 的"多样性赢"在底层架构观上几乎对立。

都没说透的

我的看法

判断(不是事实):这场争论里"推理是新瓶颈"是共识、"价值落点"是分歧——而分歧更多是赌时间窗,不是赌终局。短期(1–2 年)软件层粘性是真的(多云协调、kernel 优化、长尾客户化),Camp A 对;中期(3–5 年)开源 stack 会把这层粘性吃掉一大半,Camp F 和 Camp B 对;长期 McGrew 的"价格 = 计算成本"成立的概率是高的,但前提是模型差异化继续收敛——如果某家实验室真做出代际差距大的模型,整个论断就反转。所以这套论点的强度很大程度上取决于 performance-plateau 这个主题的走向(见姊妹主题)。

我对这个判断的把握:中等。最强的一环是"开源 stack 长期吃掉中间层"——这条已经被 vLLM 的实际市占在验证;最弱的一环是 "Jevons paradox 持续生效"——它现在是 Tuhin 的论点,但企业 AI 预算的真实弹性数据极少。

还想知道什么

取材