主题综述

RL 环境:数据之后的下一个瓶颈与护城河

主题综述

主题页(活文档)· 最近更新 2026-06-12 · 取材 13 篇访谈

更新日志


主流共识

一、数据墙之后,瓶颈换成了"环境/任务"。 在 GPT-5 发布当天,OpenAI 的两位研究员把话说得很直接:算法已经足够强,现在缺的是任务,而好任务需要好环境。

"I do think there's a lot of value in getting really good tasks and getting really good tasks requires really good RL environments. I think the more complicated, the more realistic, the more simulated we can make them, I think the better we'll get. And I think we're kind of seeing that tasks matter more at this point, given the fact that we have such a strong algorithm."
「我认为,获得真正好的任务很有价值,而获得真正好的任务需要真正好的 RL 环境。我认为我们能把它们做得越复杂、越逼真、越模拟,我们就会做得越好。我认为,考虑到我们有如此强大的算法,现在任务显得更为重要。」

Prime Intellect 把这件事直接接到 Scale AI 的历史脉络上——主持人 Sonya Huang 问"构建环境是不是数据标注时代的自然继承者",Will Brown 的回答是"看起来已经是了":

"It very much seems like it kind of already is where it does seem like a lot of the focus from the major labs has shifted to... And so identifying which pieces of information the human can most uniquely assist the model in improving its skill on, I think is really the key to target."
「它看起来非常像已经是了,大型实验室的许多重点似乎已经转移到……因此,确定人类可以以何种独特的方式帮助模型提高技能,我认为这才是关键所在。」

二、为什么是 RL:它用算力换数据,从极少的人类信号里榨出价值。 这是把"环境=新瓶颈"讲通的关键一环。Karpathy 说 RL "像用吸管吸信息",Will Brown 不否认低效,却把低效本身翻译成了价值主张:

"RL allows you to trade off compute for data, in a sense, where you can get a lot of value out of a smaller amount of data by using more compute... one of the bottlenecks that's hard to scale is human data, especially high quality human data."
「从某种意义上说,强化学习允许你用计算能力换取数据,通过使用更多的计算能力,你可以从少量数据中获得很大的价值……难以扩展的瓶颈之一是人类数据,尤其是高质量的人类数据。」

OpenAI 的 Christina Kim 从内部给出同一观察的另一面——正因为 RL 极省数据,"贡献回流"才成立:为前沿 agent(如 deep research)造的环境数据集,能直接喂回旗舰推理模型。

"with reinforcement learning, training a model to be good at a specific capability is very data efficient. You don't need that many examples to teach it something new... we're able to take the datasets that we've created for the frontier agent models and then contribute it back to the frontier reasoning models."
「通过强化学习,训练模型擅长某项特定能力是非常节省数据的。你不需要太多例子就能教会它新的东西……我们能够将为前沿代理模型创建的数据集贡献回前沿推理模型。」

三、"环境=可验证奖励"——目标可度量,是把任务变成训练信号的门槛。 Will Brown 把"环境"和"eval"画了等号,关键不是问答对,而是"有一个目标、且有办法度量做得好不好":

"there actually is something that can measure progress and performance... it interacts with the system, the environment, the harness, the agent, whatever you want to call it. But there is some goal and there's a way to measure whether it's doing well or not."
「实际上有某种东西可以衡量进展和表现……它与系统、环境、工具、代理(随便你怎么称呼它)进行交互。但是有一个目标,并且有一种方法可以衡量它是否做得好。」

Cohere 的 Joelle Pineau 给这条共识画出了清晰的适用区间:奖励函数写得出来的地方,进展就快。

"in cases where we clearly know what's the goal, we can write down precisely the reward function, we're good, we can make a ton of progress. So that's why you're seeing progress in mathematics, very well defined reasoning tasks..."
「在那些我们清楚地知道目标的情况下,我们可以精确地写下奖励函数,我们做得很好,我们可以取得很大进展。这就是为什么你们看到数学、定义非常明确的推理任务……取得进展的原因。」

四、环境是"代码写的",因此比数据难共享——需要一个标准抽象。 这是供给侧一切讨论的物理前提。Nous Research 的 Roger Jin 把问题挑明:预训练时代有共享的数据格式,环境却各写各的。

"这些环境是用代码编写的,共享起来要困难得多。在开源领域,我们希望建立起我们的集合……开源开发者需要某种标准,以便共同协作,将环境扩展到数百万个。所以我们想在这里提出一个问题。什么样的抽象概念能够让开源扩展到一百万个环境?"
— Roger Jin · What is an RL environment? w/ Nous Research's Roger Jin

(注:Nous 这篇是技术演讲,逐字稿为中文,无英文原句可引;下文凡引此篇均为中文原文。)

五、设计选择直接决定能训出什么 agent。 这是 sharp question 里最少被泛泛而谈、却被技术人讲得最具体的一层。两个反复出现的具体抉择:

"What really kind of becomes the bottleneck in many ways is like cost of the simulator where I think there's a lot of focus on identifying clever ways to kind of mock the right piece of the system."
「在很多方面,真正的瓶颈在于模拟器的成本。我认为应该更多地关注如何巧妙地模拟系统的正确部分。」

分歧在哪

分歧一:谁来供给环境?开源 hub vs 商业数据厂 vs 实验室自建

这是全场最热也最直接对立的一条线。三种立场都明确把环境视为护城河,但护城河归谁,答案截然不同。

(A) 开源派:Prime Intellect——"GitHub for RL environments",不让价值被大厂独占。

"We don't want to have a world where all the future value of AI and all kinds of verticals is just owned by the big labs. We have something where we empower entrepreneurs and enterprises... a lot more like Claude Code moments, a lot more Cursor for X type moments."
「我们不希望出现这样一种情况:人工智能在各种垂直领域的未来价值都只归大型实验室所有。我们希望能够赋能企业家和企业……更多像 Claude Code 那样的时刻,更多 Cursor for X 类型的时刻。」

但注意 Prime Intellect 内部对"开源"的微妙保留:他们承认大量用户要把环境私有化,hub 的价值反而在于"消融对照"而非纯粹共享——

"there's definitely a lot of people we work with who want to keep their environments private... But the value for them of it being a hub is that they can do ablations on ones that are kind of known to be, they can compare their private one versus some public one."
「我们合作的很多人都希望保持他们环境的私密性……但对他们来说,作为一个中心的好处是,他们可以对已知的环境进行消融研究,可以将他们的私有环境与……公共环境进行比较。」

(B) 商业数据厂:环境是数据标注的"下一次迭代",护城河是专家供给 + 工具链。 三家厂的口径高度一致——环境不是新业务,是同一条曲线往上走。但他们彼此之间也在抢"谁才是正统"。

Surge 的 Edwin Chen——把环境框成 SFT→RLHF→verifiers 之后顺理成章的下一步,且强调这是"技术公司"才做得了的活,区别于"人肉外包"(body shops):

"The way I think about our environments is that they're kind of a continuation... the next step in training paradigms. So in the same way that historically a lot of work has gone into like SFT and then RHS and then verifiers, our environments are kind of just like the next step in that progression."
「我认为我们的环境是某种延续……训练模式的下一步。就像过去在 SFT、RHS 和验证器方面投入了大量工作一样,我们的环境就像是这个进展的下一步。」

Turing 的 Jonathan Siddharth——直接宣布数据标注公司"时代结束",把环境定义成"商业的迷你世界模型",并把 TAM 画成四维矩阵(行业 × 职能 × 角色 × 工作流):

"you'd build what's called an RL environment, which is like a mini world model for business... we are creating RL environments for every workflow, for every role, in every function, in every industry. That's like $30 trillion of knowledge work."
「你需要构建一个所谓的 RL 环境,这就像一个用于商业的迷你世界模型……我们正在为每个行业、每个职能、每个角色、每个工作流程创建 RL 环境。这相当于 30 万亿美元的知识工作。」
Jonathan Siddharth · 20VC Scale, Surge, Turing, Mercor
"I think the era of data labelling companies is over and it's now the era of research accelerators."
「我认为数据标注公司的时代已经结束了,现在是研究加速器的时代。」
Jonathan Siddharth · 20VC Scale, Surge, Turing, Mercor

Mercor 的 Brendan Foody——把话推到最满:整个经济会变成一台"RL 环境机器",而 eval 就是这台机器的产品需求文档(PRD):

"It's highly likely that the entire economy will become an RL environment machine, building out all of these worlds and contexts for us to then have rubrics and other kinds of verifiers."
「整个经济体很可能变成一个强化学习环境机器,构建所有这些世界和环境,然后我们再拥有评分标准和其他类型的验证器。」

数据厂阵营内部的微妙差异:三家都说自己赢,但锚点不同。Mercor 的差异化锚在"专家时薪"——

"our average marketplace pay rate is $95 an hour to put that in frame of reference, whereas Scale and Surge generally pay about $30 an hour."
「我们的平均市场支付费率是每小时 95 美元……而 Scale 和 Surge 通常支付每小时 30 美元左右。」

——这恰好把 Edwin Chen 同篇里坚持的"质量无上限、不是人肉外包"反过来怼了回去:Edwin 也用 $30/hr 划线("Scale and Surge generally pay about $30 an hour"是 Brendan 的说法,Edwin 自己则强调 Surge 不是 body shop、是 technology company first)。同一阵营,互指对方是低质供给。

(C) 实验室自建 / 不外包派。 OpenAI 内部的口径既肯定创业空间、又透出"最好自己来"的张力。Isa Fulford 给出一句对供给侧极有杀伤力的话——泛化有限,要做好就得在那件事本身上训:

"There's some generalization from training on one website to another, but if you want to get really, really good at something, the best thing to do is just train on that exact thing."
「从一个网站的训练到另一个网站是有一些泛化,但如果你想在某个方面做得非常好,最好的办法就是在那个确切的东西上训练。」

Nathan Lambert 则站到更激进的一端——他和 Noam Brown 一样"反 harness",认为脚手架是改变学习动态的拐杖:

"harnesses are cool, but they're a handicap that's changing the learning dynamic substantially... I feel like the core thrust has to be no harnesses."
「harness 很酷,但它们是一种阻碍,会大大改变学习动态……我觉得核心推动力必须是没有 harness。」

这与 Prime Intellect 把 harness 当成"环境的一部分、要做成通用抽象"的工程立场(Will Brown:"I think of a harness as like a piece of the environment")形成了直接的方法论对撞。

分歧二:可验证奖励的边界——可验证域 vs 软奖励/主观任务

共识止于"能写出奖励函数的地方 RL 很猛";分歧从"写不出来的地方怎么办"开始。

Cohere 的 Joelle Pineau 把边界划在"社会性行为"这一侧,明说不知道怎么把它写成数学:

"RL to shape the behavior of models to get them to be social creatures that we have no idea how to do... You don't know how to write that out mathematically. And that's where I think we're still in for some hard work."
「强化学习可以塑造模型的行为,使它们成为我们不知道如何实现的社交生物……你不知道如何用数学把它写出来。我认为在那方面我们还有一些艰苦的工作要做。」

Nathan Lambert 给了边界的精确技术史:RLVR 最初想叫"RL from Ground Truths",但发现"可验证"比"有标准答案"更宽——这本身就是在拓宽边界:

"the verifiable rewards is actually a more general notion because only like math questions have a ground truth where code is verifiable, precise instruction following is verifiable."
「可验证的奖励实际上是一个更广泛的概念,因为只有数学问题才有 ground truth,而代码是可验证的,精确的指令遵循是可验证的。」

但 Lambert 同时点出边界外的硬骨头——像 Claude Code 在后台"压缩上下文"这种关键技能并不可验证:

"even just the compressing context. I don't think that's really a verifiable thing, but that being messed up, that's a super crucial skill for long context actions and longer tasks."
「甚至只是压缩上下文。我认为这并不是一个真正可验证的事情,但如果它搞砸了,对于长上下文动作和更长的任务来说,这是一个非常关键的技能。」

数据厂的解法是"用 rubric + LLM judge 把软任务半结构化"。Will Brown 描述这正是正在涌现的范式:

"having tasks with a Prompts to grade with an LLM judge, a rubric for what success looks like on a task is kind of the paradigm that's emerging... there's a set of questions about yes, no, was this done in the LLM's answer? And that turns into the reward score."
「通过提示来评分,并由大型语言模型进行判断。针对任务成功的标准制定一个规则,这似乎是目前涌现出的一种范例……有一系列关于'是/否,LLM 的回答中是否完成了'的问题,这会转化为奖励分数。」

Brendan Foody 把同一招用具体例子讲实(让律师为合同红线写 rubric),并主张这能一路外推到"让模型用 30 天创办一家公司"那么远的任务:

"Imagine in 10 years when we want models to be able to go out and build a startup for 30 days. We need evals for that to effectively reward it."
「想象一下,10 年后,当我们希望模型能够出去并在 30 天内建立一家初创公司时。我们需要对此进行评估,以便有效地奖励它。」

潜在张力:Pineau 说软任务"不知道怎么写成数学",数据厂说"rubric + LLM judge 就是答案"。但谁也没回答——一个 LLM 评分员打出的 rubric 分,到底算不算"可验证",还是只是把 RLHF 的主观性藏进了一层伪装(这正是 Lambert 在过度优化一节里说的"sycophancy 就是 RLHF 在软奖励上被刷爆")。

Schulman 给出第三条路——别再靠人写死奖励,让生成器和验证器互相协同训练,形成良性循环:

"co-training generators and verifiers makes a lot of sense because... as the model gets better at reasoning and following instructions, it also becomes a better verifier and you have somewhat of a virtuous cycle there."
「联合训练生成器和验证器很有意义,因为……随着模型在推理和遵循指令方面变得更好,它也会成为一个更好的验证器,并且你会在某种程度上形成一个良性循环。」

分歧三:环境会不会像数据一样被"刷爆/过拟合"?

这条线上的张力最隐蔽,因为乐观方和警惕方常常是同一个人。

数据厂的乐观叙事是"丰富度无上限"——Edwin Chen 直接否认存在天花板:

"I think there's no ceiling. At the end of the day, you just want as much diversity and richness as you can get, because the more richness that you have, the more that models can learn from."
「我认为没有上限。归根结底,你只是想要尽可能多的多样性和丰富性,因为你拥有的丰富性越多,模型可以学习的就越多。」

但 Brendan Foody 自己就给出了反证——一旦实验室聚焦某个 eval,刷爆它快得惊人:

"If you look at just how fast people were able to saturate Olympiad math once they focused on it, how fast we've been saturating SweBench once we focus on it."
「看看一旦人们专注于奥林匹克数学,他们能多快就让它饱和;一旦我们专注于 SweBench,我们能多快就让它饱和。」

把"环境会被刷爆"讲到机制层面的是 Lambert——他把过度优化追溯成三代(控制 RL / RLHF / RLVR),核心是"模型优化器总会找最容易抬高奖励的那条路":

"All of these over optimizations are a just the model optimizer is strong enough where it can manipulate the agent with respect to the environment or manipulate the environment in a useful in a way that's useful to its target signal."
「所有这些过度优化都只是模型优化器足够强大,它可以相对于环境来操纵代理,或者以一种对其目标信号有用的方式来操纵环境。」

而且环境的"刷爆"在代码域有最朴素的形态——"让单元测试通过的最简单方法就是直接在里面放一个 pass"(Lambert,同上)。Will Brown 也承认这是真实风险,甚至把"用 RL 反过来查环境有没有后门"当成卖点:

"there are issues that come up in reinforcement learning where maybe if your environment has a backdoor, a model can exploit this and kind of game the system."
「强化学习中会出现一些问题,比如如果你的环境存在后门,模型可能会利用这一点来玩弄系统。」

Edwin Chen 自己其实也知道——他花了很大篇幅讲 LMArena 如何被"刷成标题党"、模型如何"reward hack 到正确答案"。所以"无上限"与"会被刷爆"并不真是两个阵营,而是同一批人没有调和的两句话:丰富度的供给可能无上限,但任何单一环境/奖励的可被利用性也几乎无上限。谁也没说清这两者赛跑谁更快。

分歧四:RL 真赢了 fine-tuning,还是只是分工不同?

标题党级别的命题("Why Fine-Tuning Lost and RL Won"),但发言人之间其实分歧明显。

最强的"RL 赢了"叙事来自 Deep Research 团队——他们的方法论就是"别用人写的图去拼模型,直接端到端 RL":

"我一次又一次看到人们吸取的一个教训是,我们认为可以通过自己编写代码来做比模型更聪明的事情。但随着领域的发展,模型提出了比人类更好的解决方案……我的长期建议是,我认为在模型之上进行强化学习调整,可能会成为构建最强大代理的关键部分。"
— Josh Tobin · OpenAI's Deep Research Team on Why Reinforcement Learning…

(注:Deep Research 这篇逐字稿为中文翻译稿,无英文原句。)

但"Fine-Tuning Lost"这篇的本人 Kyle Corbitt 反而给 fine-tuning 留了明确的活口——当你被迫用小模型(多为延迟原因),微调几乎是必需的:

"the main one I see that really drives fine-tuning is if you have to move to a smaller model, and it's typically for latency reasons, and this is usually like real-time voice."
「我看到真正推动微调的主要原因是,如果你必须迁移到更小的模型,这通常是出于延迟的原因,而且这通常就像实时语音一样。」

Turing 的 Jonathan Siddharth 更进一步,把"小的微调模型"说成企业侧的永久需求(承保、理赔,数据不出门、小模型更快更准)——"I think it's a permanent requirement"。这与"RL 赢了"是正面冲突:在他这里 fine-tuning 不是输家,是企业落地的主力。

Prime Intellect 干脆否认这是个二选一问题——他们刻意用"环境"而非"RL"做抽象,正因为环境同时能服务蒸馏、SFT、prompt 优化、A/B 测试:

"I think part of the reason why it's a useful abstraction is because it doesn't tie you to RL... You can use the same grader at the end to filter for the best examples and then do SFT fine tuning on that. You could do prompt optimization with an environment."
「它之所以是一个有用的抽象概念,部分原因是它没有把你和强化学习捆绑在一起……你可以在最后使用相同的评分器来过滤出最佳示例,然后对其进行 SFT 微调。你可以使用环境来进行提示优化。」

Schulman 给出最克制的版本——是分工,按时间跨度切:短程上下文学习难被击败,长程权重更新胜出:

"I would expect in-context learning to help in a very short horizon regime and to be really hard to beat over a short time horizon, but I would expect weight updates to win over a longer time horizon."
「我认为上下文学习在很短的时间范围内会有帮助,并且在很短的时间内很难被超越,但我认为权重更新会在更长的时间范围内胜出。」

分歧五:环境是否真的可扩展——还是会撞上 sim-to-real 墙

Schulman 提供了这条线上最有分量的历史反讽——OpenAI 早在很多年前就做过"GitHub for RL environments",叫 Universe,想法被他评为"深刻正确但早了十年":

"there's an early project called Universe where the idea was to create lots of different RL environments and build a whole data set of them... it was a deeply correct idea, but it was just way too early, like maybe even a decade too early."
「早期有个叫 Universe 的项目,目的是创造很多不同的 RL 环境,建立一个完整的数据集……这个想法非常正确,但它出现得太早了,可能早了十年。」

他把今天的环境热潮直接类比成机器人学的 Sim2Real——这意味着 sim-to-real gap 是结构性问题,不是工程细节。Surge 的主持人 Sarah Wang 也主动用了"robotics Sims Real Gap"来追问 Will Brown。Cohere 的 Pineau 则把"环境/模拟器贵且难凑齐多样性"列为 RL 低效的根因之一:"we have difficulty getting like just a variety of environments and simulation to test"(同上)。

而 Kyle Corbitt 给"环境必须复刻真实系统的失败模式"提供了最具体、也最让人怀疑可扩展性的画面:

"You have to build a copy of the Airbnb website that reacts to you as the user the exact same way that the real one does with the same failure modes... if you don't include the same failure modes and bugs they have, then when one of those bugs comes up in production, your agent's going to have no idea what to do with it."
「你必须构建一个 Airbnb 网站的副本,该副本以与真实网站完全相同的方式对你(作为用户)做出反应,并具有相同的故障模式……如果你不包括它们具有的相同的故障模式和错误,那么当其中一个错误在生产中出现时,你的代理将不知道该怎么办。」

把这句和 Turing 的"$30 万亿、每个工作流都造环境"放在一起,张力就出来了:如果每个环境都要复刻真实系统的全部 bug 才管用,那"为整个经济造环境"到底是工程问题,还是根本不可扩展的承诺?没人正面回答。


都没说透的

1. "rubric + LLM judge"到底算不算可验证奖励,从未被正面厘清。 数据厂把它当作软任务的通解,Pineau 把软任务列为 RL 的硬边界,Lambert 把 sycophancy 当作软奖励被刷爆的范例——三方用的几乎是同一套机制,却得出乐观/悲观/警惕三种结论,没人把"LLM 当裁判"与"真·可验证"的差别讲透。

2. 环境的"丰富度无上限"与"任何环境都会被刷爆"如何共存。 Edwin Chen 一边说没有天花板、一边详述 reward hacking;Brendan 一边卖环境、一边承认 SweBench 被秒刷。供给侧的乐观和过拟合的悲观从未被同一个人放在一起算账。

3. 数据厂的护城河到底是什么——专家网络、工具链,还是只是和实验室的关系深度? Mercor 说是专家时薪与匹配,Surge 说是测质量的技术平台,Turing 说是"主动型研究伙伴"关系;但 Isa Fulford 的"要做好就得在那件事本身上训"和 Schulman/Lambert 的"反 harness"暗示实验室有强烈的自建动机。外包与自建的边界(哪些环境注定外包、哪些注定内部)无人划定。

4. 环境工程会不会复制"预训练数据集竞赛"的集中化结局。 几位都把环境类比成新的预训练数据,Siddharth 甚至主动拿 NVIDIA 的客户集中度自比;但若供给最终集中到极少数厂+八家实验室,"GitHub for RL environments"的开放叙事还剩多少,没人愿意推演。


我的看法

(以下为判断,非转述。)把握中等。


还想知道什么

1. 一个被多家实验室买过的商业环境,在跨模型迁移上到底表现如何?Corbitt 说"目前看起来训得不够好",但只有买方(前沿实验室)有数据——需要买方侧的迁移实测。 2. "rubric + LLM judge"训出的能力,与"真·可验证奖励"训出的能力,在过拟合速度和泛化上是否有可测差异?这是分歧二、三的实证关键。 3. 单个高复杂度环境的真实成本结构与摊销周期(Corbitt 给了"几周到几个月工程师时间",传闻"百万美元/环境"无人证实)——决定了护城河深度。 4. 实验室自建 vs 外包的实际配比与边界:哪些域已被实验室收回内部、哪些长期外包?这是供给侧格局的决定性数据,所有受访者都绕开了。


取材

(注:13 篇成员中,两篇 Surge 访谈分别计入;以上 12 行覆盖全部 13 个来源——No Priors 与 Ep 80 为两次独立 Surge/Edwin Chen 访谈。)