跨主题线索

阅读线索:agent 不到 9 nines 可靠,那应该卖给企业还是消费者

跨主题线索 · 拉的是 long-horizon-agents × ai-moat-2026 · 2026-05-20

这条线索

long-horizon-agents 主题里有一条所有阵营都同意的事实:agent 当前的可靠性远低于"九个 9",且没人摸到怎么到达。这件事被讨论时几乎全是从技术侧来看(RL 还是 world models 还是 context engineering)——但跨到 ai-moat-2026 后会浮出一个完全不同维度的问题:90% 可靠性的 agent 适合卖给什么类型的客户? 这条线索拉的是"产品形态 × 客户类型 × 护城河"的三联,发现 long-horizon 的不可靠不是技术问题这么简单——它直接决定了不同 AI-native 产品的护城河形状会不一样。

把这两个题目接起来的具体瞬间

1. Harrison Chase 给出 90% 时代的产品形态判断

long-horizon-agents 里 Harrison Chase 把这件事讲得最直接:

"The issue with agents is they aren't reliable to nine nines of reliability, but they can do a ton of work and more and more work over longer time horizons."
「agent 的问题是它们没法做到九个 9 的可靠性,但它们能完成大量工作,并且在更长的时间跨度上做越来越多。」
"The most effective applications of long-horizon agents involve generating a first draft of something that a human then reviews and edits."
「long-horizon agent 最有效的应用是生成初稿,然后由人来 review 和改。」

桥接的关键洞察:Harrison Chase 给出的"first draft + human review"模式预设了人在错误发生时的容错成本可承受。但容错成本在不同客户场景里差几个数量级——这把 ai-moat-2026 那场护城河辩论从"什么是护城河"变成了"在不同容错成本下,护城河长在不同地方"。


2. Camp B(替代 labor)vs Camp D(消费品牌)—— 容错成本差距决定可不可行

ai-moat-2026 里两个截然不同的护城河阵营在这件事上的对比异常鲜明:

B2B / 替代 labor 派(Bret Taylor、Jesse Zhang)押的是 outcome-based pricing——这预设客户愿意根据结果付费。但在长程任务上,10% 失败率在企业场景里意味着什么?

"The value of AI agents should be priced based on measurable outcomes rather than token usage."
「AI agent 的价值应该按可衡量的结果定价,而不是按 token 用量。」

如果一个法律 agent 90% 时间正确、10% 时间生成幻觉条款,没有律所敢按 outcome 付费——10% 失败的 outcome 不是"少 10% 的钱",是律所执照吊销。这是 long-horizon-agents 的"9 nines 没摸到"在 ai-moat 里直接禁掉了 outcome-based pricing 的某些 B2B vertical。

B2C / 品牌派(Cannon-Brookes、Spiegel)的处境完全不同:

"Snapchat changed people's relationship with photography. People used to take photos to save a moment; Snapchat made them about communicating."
「Snapchat 改变了人和摄影的关系——人们过去拍照是为了存住一个瞬间,Snapchat 把它变成了沟通。」
Evan Spiegel · Snap CEO Evan Spiegel

消费场景里 10% 失败的成本通常是"再试一次" 或 "不用了"——容错成本接近于 0。这意味着 long-horizon-agents 的当前可靠性水平对 B2C 产品形态几乎没约束,但对 B2B 高责任 vertical 是 hard ceiling。


3. Lightcone 的"startup-shaped holes"是这条线索的实证锚点

ai-moat-2026 里 Garry Tan / Lightcone 提到的"企业愿意接受新创公司"恰好对应 long-horizon 当前的容错策略:

"But when you do succeed and plug into the systems of record, the pot of gold is actually quite big, but it does take a long time."
「但一旦你成功并接入 systems of record,那笔财富其实非常可观——只是要花很长时间。」
The Lightcone / Garry Tan · Inside The MIT AI Study

桥接:Lightcone 提到的成功 AI startup(Tactile、Greenlight、Castle AI、Reducto)的共同点不是"它们的 agent 比别人更可靠"——是它们选的 vertical 中 10% 失败的容错成本可控。Reducto 处理 PDF:错的话回滚再来一次就行;Tactile / Greenlight 是垂直 enterprise AI:错的话 human review 就能 catch。这条不在 long-horizon-agents 的技术辩论里,但它解释了"为什么这些公司能在 9-nines 还没到达的时候就有商业价值"


4. World Models 阵营的 Genie 团队也无意中说明了同样的事

long-horizon-agents 里 World Models 阵营做的所有 demo 都在游戏 / 创作场景——这是英文语料里没人正面解释的一个现象:

"A year ago, getting a minute of consistency for an autoregressive model in real time was a stretch goal. Now that we've landed it, people say a minute isn't long enough; that is the ultimate sign of progress."
「一年前,autoregressive 模型实时跑 1 分钟一致性还是一个 stretch goal;现在我们做到了,大家说 1 分钟不够长——这就是进步的终极信号。」

桥接:Genie 选择游戏域不只是因为数据丰富——也因为游戏域的容错成本接近于 0。一帧错了就跳过去;不一致就重置世界。这跟 Lightcone 的"startup-shaped holes"在表象上完全不同(一边是技术研究、一边是企业销售),但在"为什么这个 vertical 现在可行" 这个问题上回答相同——可靠性不够时,先去找容错成本低的场景。


如果你继续往下拉

把 long-horizon 的可靠性约束和 ai-moat 的护城河形态接起来后,浮出一个没人正面讲但很有解释力的二维表

| 容错成本 高 | 容错成本 低 | |---|---| | B2B 高责任 vertical(法律、医疗、金融审批) — agent 还做不了主导,只能做"draft for human review";护城河必须建在 *audit trail + 人在环* 上 | B2C 消费产品(Spotify、TikTok、Roblox 类)— agent 失败成本接近零,护城河可以是品牌 / 设计 / 网络效应(Camp D)| | B2B 中等责任(合同摘要、邮件分诊、初稿)— Harrison Chase 的"first draft for human review"模式正适用;护城河在 workflow embedding(Tuhin 的 Camp C)| 创作 / 游戏 / 模拟(Genie / World Models / Wanaka)— 容错近零;护城河在 *创作工具 + 分发结构*(张阳 的熟人分发观察) |

对 builder 的具体含义:在 long-horizon agent 摸到九个 9 之前——按 Harrison Chase 的判断这至少还要 3–5 年——B2C 和"容错成本可控的 B2B vertical"才是真正可以 ship 的市场。Bret Taylor 的 Sierra 之所以在客服 vertical(错了客户只是不满意,不是被起诉)成立,不是因为 agent 比 Harvey 的法律 agent 更可靠,是客服 vertical 选对了容错成本带。这条线索同时也提示最不该做的产品形态:押"用 agent 取代医生 / 律师 / 金融审批人员"——技术 ceiling 是 hard wall,且没人在 long-horizon-agents 的语料里给出过这堵墙在哪一年能拆。


取材