推理经济学 · Inference Economics
主题综述
主题页(活文档)· 最近更新 2026-05-20 · 取材 9 篇访谈
更新日志
- 2026-06-11 — 取材升级为逐字稿全文。把 podwise 摘要层的三手转述换成原话:Tri Dao 的"也许 100 倍?"、"工作负载向 Transformer/MoE 收敛、给芯片对手开门"、Tuhin 的 Jevons 都换成逐字。Redpoint、Stephanie、McGrew 几集是英文原音、podwise 仅存中文译文,无英文可逐字引用,故改为转述(McGrew 的"律师不再稀缺"比喻保留为转述要点)。
- 2026-05-20 — 首次综述。基于 9 篇访谈(Baseten Tuhin Srivastava、Together.AI Tri Dao、Fal.ai、vLLM/Inferact、Nvidia Brev/Dynamo、Bob McGrew、Redpoint、Stephanie Palazzolo、a16z Nathan Labenz)。
主流共识
第一点:推理成本在以每年约一个数量级的速度下降,这个量级几乎没有反对。
"In the last couple years inference cost has probably come down, maybe 100x?"「过去这几年,推理成本大概降了……也许 100 倍?」Tri Dao · Ep 74: Chief Scientist of Together.AI
Redpoint 的投资人也给了同量级的判断(英文原音、podwise 仅存中文,故转述):LLM 的推理和训练成本每年下降约 10 倍,直接改善了在其上构建的应用公司的利润结构。
第二点:推理负载本身在变质——从静态、同尺寸的请求变成 dynamic、agentic、长上下文,对调度和内存提出全新的问题。
"What if the hardest problem in artificial intelligence isn't training smarter models, but simply keeping them running?"「如果人工智能领域最难的问题不是训练更智能的模型,而是如何保持它们的运行呢?」
第三点:Jevons paradox 在生效——成本降低没有压缩总开支,而是把开发者引向更复杂、更耗 compute 的 agentic workflows。
分歧在哪
阵营 A · "软件层是护城河"——Baseten 的立场
Tuhin Srivastava (Baseten) 把推理拆成两层并明确押注上层:
"GPUs as a service are not sticky. Inference with the software layer included is incredibly sticky."「GPU 即服务并不具备粘性。包含软件层的推理则具有极强的粘性。」Tuhin Srivastava · Baseten CEO on the AI Inference Crunch
"If user signal is encoded in a model, your business is at risk. If it is encoded in workflows, that is where you develop moats."「如果用户信号被编码在模型中,你的业务就面临风险。如果它被编码在工作流中,那才是你建立护城河的地方。」Tuhin Srivastava · Baseten CEO on the AI Inference Crunch
"From the developer's perspective, they would insert more intelligence if you make it cheaper. They will insert more intelligence anyway, but if you make it cheaper, [they insert even more]."「从开发者的视角看,你把智能做得更便宜,他们就会塞进更多智能。其实他们本来就会塞更多,但你越便宜、他们塞得越多。」Tuhin Srivastava · Baseten CEO on the AI Inference Crunch
阵营 B · "推理供应商只是 GPU 经销商"——记者视角的怀疑
Stephanie Palazzolo (The Information) 给的是 Camp A 的直接反驳:
Stephanie Palazzolo(The Information)给的是 Camp A 的直接反驳(英文原音、仅存中文,故转述):推理供应商被怀疑"不过是 GPU 经销商"——尽管融资凶猛,却很难证明其高估值;而且它们的命运被绑死在一条线上——开源模型相对闭源模型的性能差距,推理供应商本质上是这条 gap 的代理。
Redpoint 给了同方向的实证——switching cost 在塌(同为英文原音转述):他们组合里很多公司几天内就从 Anthropic 切到 DeepSeek、推理成本降 80–90%;LLM 之间切换成本极低,公司可以按成本 / 性能随意换供应商,这反过来削弱了"模型公司靠规模建护城河"的逻辑。
阵营 C · "硬件可移植性是神话——但赢家也轮换"——Tri Dao 的双重立场
Tri Dao 既给 Nvidia 站台,又给挑战者留了门:
"Hardware portability is a myth because even within Nvidia chips, each generation requires rewriting code to maximize performance."「硬件可移植性是一个神话——即使在 Nvidia 芯片中,每一代都需要重写代码才能最大限度地提高性能。」Tri Dao · Ep 74: Chief Scientist of Together.AI
"Nvidia is dominant because they design very good chips and build very good software. … But as the workloads start to consolidate more around architecture aspects — like Transformers and MoE — we'll see a lot of competitors enter. It becomes a little easier to design chips for that workload."「Nvidia 占主导,是因为他们既设计出很好的芯片、又做出很好的软件。……但随着工作负载越来越向架构层面(比如 Transformer 和 MoE)收敛,我们会看到很多竞争者进来——为这种工作负载设计芯片,会变得容易一点。」Tri Dao · Ep 74: Chief Scientist of Together.AI
这一立场把战场推到 hardware-software co-design。
阵营 D · "agent 价格会被压到计算成本"——McGrew 的终局推演
Bob McGrew(OpenAI 前研究负责人) 给出最悲观(对推理供应商而言)的版本(该集英文原音、podwise 仅存中文,故以下为转述):因为竞争,agent 的价格可能被压到只剩计算成本,从而侵蚀掉一切建立在"专业稀缺"上的经济模式。他的比喻很直白——律师贵是因为时间稀缺;但一旦你把律师做成 AI 模型,就等于有了无限多个律师,于是它一点都不稀缺了。而价值会"逃"到哪里?McGrew 押的是:最有价值的机会在那些对"模型之外的领域"有深刻理解的应用——比如把 AI 接进既有业务流程的企业方案。
阵营 E · "在巨头打架的缝里挑窄市场"——Fal.ai 的策略
Fal.ai 的 Gorkem 和 Batuhan 选择根本不和 LLM 推理玩家正面打——他们的论点是 inference 经济学的现实是"分赛道":
"We chose to be a leader or play to be a leader in this fast-growing niche market rather than trying to go against Google or OpenAI or Anthropic."「我们选择成为这个快速增长的利基市场的领导者,而不是试图与 Google 或 OpenAI 或 Anthropic 竞争。」Gorkem / Batuhan · History of Generative Media with Fal.ai
"Whenever something new comes up, we are the first one to optimize it. First one to adapt our inference engine to it."「每当有新的东西出现,我们总是第一个优化它,第一个调整我们的推理引擎来适应它。」Gorkem / Batuhan · History of Generative Media with Fal.ai
阵营 F · "Diversity wins"——开源基础设施视角
vLLM / Inferact 的 Simon Mo 和 Woosuk Kwon 给的是另一种结构性预测:
"What we believe is diversity will triumph that sort of single of anything at all."「我们相信多样性会战胜任何单一的事物。」Simon Mo · Inferact
"Having this community all work together for this open-source, we have the execution beyond any single entity can have."「拥有这个社区一起为开源项目努力,我们的执行力超越了任何单一实体所能达到的水平。」Simon Mo · Inferact
阵营 G · "垂直整合到 SOL"——Nvidia 的反向押注
Nvidia 的 Kyle Kranen 和 Nader Khalil 不接受"多样性赢"也不接受"软件层赢"——他们的逻辑是只有 hardware-model co-design 才能逼近物理极限:
"Before trying to layer reality back in of, why can't this be delivered at some date? Let's just understand the physics. What is the theoretical limit to how fast this can go?"「在试图重新加入现实之前——比如,为什么不能在某个日期交付?——让我们先理解物理。理论上它能跑多快?」
Dynamo 作为 datacenter-scale inference engine,是把推理"垂直整合到 SOL"的工程化体现——这跟 Camp F 的"多样性赢"在底层架构观上几乎对立。
都没说透的
- "软件层粘性"是否真的扛得过一次性的迁移成本? Tuhin 的 Baseten 论点和 Redpoint 的"几天切换 DeepSeek 省 80%"实证是直接矛盾的。双方都没拿出具体客户长期留存数据——Baseten 30x 增长是新增还是续费没拆,Redpoint 的"几天切换"是从模型到模型还是连推理供应商一起切也没说清。
- Jevons paradox 多久会被消费侧的预算上限阻断? Tuhin 假设 agentic workflows 会无限拉高总开支。但没人讨论企业 AI 总预算到底有多少弹性——Redpoint 看到的"软件 350 亿 vs 人力 4500 亿"是 TAM 的理论上限,不是实际开支增长曲线。
- 如果"代理价格 = 计算成本"成立,哪种业务模型先死? McGrew 抛出来了,但没人接住。最直接的输家是按 token / 按调用收费的中间层,但语料里没有任何一家做这种业务的人承认这一点,全部声称"我们有软件层"。
- 新架构(MoE、MLA、SSM 等)的速度是否真的快于 Nvidia 重写代码的速度? Tri Dao 暗示了但没量化。这是判断 Nvidia 护城河会不会松动的关键变量。
我的看法
判断(不是事实):这场争论里"推理是新瓶颈"是共识、"价值落点"是分歧——而分歧更多是赌时间窗,不是赌终局。短期(1–2 年)软件层粘性是真的(多云协调、kernel 优化、长尾客户化),Camp A 对;中期(3–5 年)开源 stack 会把这层粘性吃掉一大半,Camp F 和 Camp B 对;长期 McGrew 的"价格 = 计算成本"成立的概率是高的,但前提是模型差异化继续收敛——如果某家实验室真做出代际差距大的模型,整个论断就反转。所以这套论点的强度很大程度上取决于 performance-plateau 这个主题的走向(见姊妹主题)。
我对这个判断的把握:中等。最强的一环是"开源 stack 长期吃掉中间层"——这条已经被 vLLM 的实际市占在验证;最弱的一环是 "Jevons paradox 持续生效"——它现在是 Tuhin 的论点,但企业 AI 预算的真实弹性数据极少。
还想知道什么
- Baseten / Together / Fireworks / Modal 的真实客户留存与扩展数据——3 家以上跑了 18 个月以上的客户、按 ACV 分层的 NDR 数据。没有这个,"软件层粘性"是叙事不是事实。
- 企业 AI 总开支的真实增长曲线——不是 TAM 估算,是 Fortune 500 公司 2024–2026 的实际推理账单。Jevons paradox 成不成立这事只能用账单数据回答。
- 一个跨架构迁移成本的具体案例——某家公司从 H100 迁到 B200 / TPU / Trainium 用了多少工程师月、性能恢复到多少。Tri Dao 说"hardware portability 是神话"需要这个数字才能落地。
- DeepSeek 后的"开源 / 闭源"差距数据——Stephanie 说推理供应商的命运绑定在这条 gap 上。需要至少 2–3 个独立 benchmark(不只是 MMLU)的逐月对比,才能判断这条 gap 是在缩小还是在锁定。
- 一份"app 层吃掉推理利润"的反例——一家专注 inference 优化、维持了 40%+ 毛利、且客户留存高的公司。如果三年内一个都找不到,McGrew 的"价格 = 计算成本"基本上自证。
取材
- Tuhin Srivastava (Baseten) · 2026-05-11 ·
35dea6160e718145a7a3c5263827a3bb - Tri Dao (Together.AI) · 2025-09-11 ·
26bea6160e7181f39b48fd0fba93d842 - Gorkem / Batuhan (Fal.ai) · 2025-09-06 ·
266ea6160e7181d5a2bed15472fcbfad - Simon Mo / Woosuk Kwon (vLLM / Inferact) · 2026-01-31 ·
2f9ea6160e718111815bf871f04ddd3b - Bob McGrew (former OpenAI Research) · 2025-06-18 ·
216ea6160e7181a4abe1e0c576c28050 - Stephanie Palazzolo (The Information) · 2025-08-07 ·
248ea6160e71818fb7a4cf78a04a75ba - Redpoint AI Investors · 2025-04-28 ·
1e3ea6160e7181dc895ff3e77430e7ae - Kyle Kranen / Nader Khalil (NVIDIA Brev / Dynamo) · 2026-03-12 ·
320ea6160e71812c9d7ed4b2a8e30e83 - Nathan Labenz on AI slowdown · 2025-10-15 ·
28dea6160e718189ae7bcf6cbddefe24