主题综述

真实性基建:AI 内容洪水下的身份与溯源

主题综述

主题页(活文档)· 最近更新 2026-06-12 · 取材 5 篇访谈

更新日志

主流共识

把五个人摆到一张桌子上,第一件浮出来的共识是:他们都不再相信"检测假内容"能赢,于是不约而同地把赌注押到"身份/溯源"这一层。 防线后撤的方向高度一致,只是各自给这条防线起了不同的名字。

YouTube 的 Neal Mohan 讲得最直白——标签(检测层)"显然不是万无一失的",真正有把握的是把版权时代的 Content ID 平移到 AI 时代,做成肖像层:

"That's obviously not foolproof... we have a track record of Content ID, which is basically the rights management system that you could argue basically created that whole creator economy in the first place. So Content ID—think about that metaphor as it applies to AI. So we are working on this notion of I call it sort of likeness detection."
「这显然不是万无一失的……我们有 Content ID 的记录,基本上,你可以说这个权利管理系统在最初就创造了整个创作者经济。所以 Content ID,想想这个比喻在人工智能领域的应用。所以我们正在研究这个概念,我称之为肖像检测。」

LinkedIn 的 Ryan Roslansky 给同一条防线起的名字是 verified identity,并且明说水印(检测层)是辅助、身份才是主力:

"Authenticity and verified identity are key to solving this problem... It's less of a problem for LinkedIn because of the authenticity that exists in the profile and the verified identity. It's kind of one of our main ways to solve it."
「真实性和经过验证的身份是解决此问题的关键……我认为这对 LinkedIn 来说不是什么大问题,因为个人资料的真实性和身份验证。这有点像我们解决问题的主要方法之一。」

Reddit 的 Steve Huffman 把这条防线推到极致——对 Reddit 来说,"背后有没有一个人"不是产品问题,是生存问题(existential):

"Our product is people. Like our product is people and conversation and authenticity and community and community doesn't happen without people. So for us, it really is an existential issue."
「我们的产品是人。我们的产品是人和对话,是真实性和社区,没有人的参与就不会有社区。所以对我们来说,这确实是一个生存问题。」

第二件共识更微妙:没人提议禁掉 AI 写作;要管的是"AI 冒充人",而不是"人用了 AI"。 Huffman 把这条线划得最清楚——AI 辅助可以,AI masquerade 不行,关键是"座位上得有个人":

"When people say bots today, they're referring to AI masquerading as humans. That's not allowed on Reddit... The way we're thinking about it today is we want to make sure there's an ass in seat. Like, are you physically watching this thing?"
「现在人们所说的机器人,指的是伪装成人类的 AI。这在 Reddit 上是不允许的……我们现在的想法是,我们要确保有人工干预(座位上有人)。比如,你是否在亲自关注这件事?」

做 AEO 的 Ethan Smith(Graphite CEO)从分发算法这一端给出几乎一字不差的同一条线:

"When I say AI-generated content, I mean automated content with no human in the loop. So I think that the future of content is clearly AI-assisted... So it's not no AI at all, but it's not 100% generated with AI."
「当我说 AI 生成的内容时,我指的是没有人工干预的自动化内容。因此,我认为内容的未来显然是 AI 辅助的……所以不是完全没有 AI,但也不是 100% 由 AI 生成。」

到这里共识就用完了。一旦追问"那真实性这条防线到底建在什么地基上、由谁来守、守了归谁",五个人立刻散开。

分歧在哪

分歧线一:真实性靠什么锚定——加密身份 vs 平台版权系统 vs 社区文化 vs 分发算法

这是最深的一条裂缝。四个人手里拿着四种地基,而且互相之间并不兼容。

Huffman:靠"第三方加密身份 + 社区文化",平台自己最好什么都别知道。 他要的验证是"证明你是个人,但我不知道你是谁"——匿名本身被他当成安全特性,而不是漏洞:

"We want to know if you're a human, your general location, and age for safety purposes, but we don't need your name or address. Anonymity is a form of safety on Reddit. It's a big misconception. People think anonymity equals lack of safety."
「我们想知道你是否是人类,你的大致位置和年龄是为了安全目的,但我们不需要你的姓名或地址。因为在 Reddit 上,匿名就是安全。这是一个很大的误解。人们认为匿名等于缺乏安全。」

他给出的实现机制是把验证彻底外包出去(World ID / face ID / YubiKey),Reddit 只收一个"通过了"的 token:

"The way we want to implement these things is you actually kind of leave the app and then come back... all Reddit gets back is like a token that says they passed. So then we never know who you are, just that you passed this test... You're a human, but we don't know anything else about you. Then we can preserve the humanness, but also the privacy and the safety."
「我们想要实现这些东西的方式是,你实际上是离开应用程序然后再回来……然后 Reddit 得到的只是一个表示他们通过的令牌。所以我们永远不知道你是谁,只知道你通过了这个测试……你是人类,但我们对你一无所知。这样我们既可以保护人性,也可以保护隐私和安全。」

Roslansky:恰恰相反,越实名越好,验证是 LinkedIn 自己要握的入口。 LinkedIn 的 verified identity 走的是工作邮箱 / Active Directory / 驾照 / 护照,验证结果直接挂在 profile 上变成一个勾,而且与"能在平台上做什么"强绑定:

"Either through your work email address... or through your driver's license or through your passport, you can actually verify who you are. When you verify who you are, like a little check goes on to your profile... real verified people are less likely to create havoc inside of the system and it gives us much more flexibility in what those accounts have access to do. Versus non-verified accounts... there are more restrictions on what they're able to do."
「可以通过你的工作邮箱地址……或者通过你的驾照或护照,你就可以验证你的身份。当你验证了自己的身份时,你的个人资料上就会出现一个小勾……真正通过验证的人不太可能在系统内制造混乱,并且它使我们在这些帐户可以访问的内容方面具有更大的灵活性。对于未经验证的帐户,它们在产品中的操作会受到更多限制。」

把这两段并排放,分歧就很硬:同样叫"human verification",Huffman 要的是"平台对用户一无所知",Roslansky 要的是"平台知道你是真名实姓的 Alex"。一个把身份做成隐私保护层,一个把身份做成准入门槛。

Mohan:既不靠加密身份也不靠社区,靠的是平台自有的、可确权可变现的版权式系统。 注意 Content ID 的隐含立场——真实性的最终裁量权和分发权握在 YouTube 手里,由平台代创作者去"检测—下架—或变现":

"The algorithm should be good enough to actually detect that and then give you a choice as to whether that should come down. Does that come down? Or, you know, there might be some creators that choose to monetize it."
「算法应该足够好,可以检测到它,然后让你选择是否应该删除它。是否要删除?或者,你知道,有些创作者可能会选择将其货币化。」

而创作者最在乎的"真实性"在 Mohan 嘴里收敛成一个很具体的东西——肖像(likeness),不是言论、不是出处,而是脸和声音:

"The thing that I hear over and over that they really care about is their likeness. And so if you're Taylor Swift, it's your voice. If you're, you know, Marques Brownlee, it is your face."
「我一遍又一遍地听到他们真正关心的是他们的肖像。如果你是 Taylor Swift,那就是你的声音。如果你是 Marques Brownlee,那就是你的脸。」

Smith:真实性根本不靠任何"基建"去强制,而是分发算法的自然副产品——没有底层智慧的内容会自己沉下去。 这是与前三位最不同的一端:他不主张建任何身份/确权系统,而是断言"垃圾终被降权"已经在发生,并拿出实证:

"We essentially did a very rigorous study showing that AI content does not work. AI-assisted content edited is great... But purely 100% AI generated does not work."
「我们基本上做了一个非常严谨的研究,表明 AI 内容不起作用。AI 辅助编辑的内容很棒……但纯粹 100% 由 AI 生成的内容行不通。」

值得注意的是,"AI is Eating Search"里的 Robert McCloy(Scrunch AI)和 Smith 同属"分发算法"这一端,但他对"机制能不能守住"明显更悲观——灰帽、提示注入现在普遍有效,护栏只是还没建起来:

"I think it'll keep working until it stops working... there haven't been a lot of stories of people getting banned because of ChatGPT search, but that's coming."
「我认为它会一直有效,直到失效为止……目前还没有很多人因为 ChatGPT 搜索而被封号,但这种情况即将到来。」
Robert McCloy (Scrunch AI) · AI is Eating Search

他甚至把当下这些"有效"明确归因为偶然,因为底层缝合代码太不成熟——这与 Smith 那种"算法已经在筛、且会越来越准"的笃定,是同一阵营里的一道细缝:

"A lot of what works in AI search today, I would definitely say it works somewhat by accident... None of these products have put nearly as much attention and engineering into moderation, abuse detection."
「今天 AI 搜索中很多有效的方法,我肯定会说它们在某种程度上是偶然有效的……在审核、滥用检测方面,这些产品都没有像 Google 那样投入那么多的关注和工程设计。」
Robert McCloy (Scrunch AI) · AI is Eating Search

分歧线二:守门人是谁——社区 vs 平台

即使在"靠治理"这条路上,Huffman 和另外两位平台 CEO 也分得很开。Huffman 反复强调真正在执法的是社区,不是公司;他把它叫做"免疫系统",平台几乎是旁观者:

"The communities themselves reject that sort of content. That's basically low effort. And they downvote it, you know, they'll flame it in the comments. And you don't see that on other platforms. I see slop and now AI slop just going unchecked."
「社区本身会抵制这类内容。基本上就是低质量内容。他们会投反对票,你知道,他们会在评论里抨击。你在其他平台上看不到这些。我看到垃圾内容,现在未经审核的 AI 垃圾内容到处都是。」

有意思的是,对手阵营里的 Smith 反过来印证了 Huffman 这套——他观察到,是 Reddit(社区)而不是 ChatGPT(平台)在替 LLM 挡住垃圾,而 ChatGPT 之所以信 Reddit,恰恰因为 Reddit 的社区在管:

"Reddit is a community where it's real opinions from people, authentic, and it's heavily managed by the community... people are trying to create hundreds of fake Reddit accounts to spam, but that doesn't work very well."
「Reddit 是一个社区,这里有来自人们的真实意见,非常真诚,并且由社区进行严格管理……有人试图创建数百个虚假的 Reddit 账户来发垃圾信息,但这效果不是很好。」

主持人 Lenny 把这层意思点破成一句很尖的话——平台在搭社区的便车:

"It's interesting that Reddit is what is keeping ChatGPT from being spammed with stuff. It's not that ChatGPT is stopping the spam. Reddit is just really good at that."
「有趣的是,Reddit 正在阻止 ChatGPT 被垃圾信息淹没。并不是 ChatGPT 阻止了垃圾信息。而是 Reddit 在这方面做得非常好。」

而 Mohan 的全球内容治理立场是另一极:守门人就是平台本身,是"算法 + 人工"的组合,且它把这副担子视为特权而非可外包的事——这与 Huffman"把验证整个踢给第三方、平台尽量别知道"的设计哲学正面相对:

"It's always some combination because... hundreds of hours of content is uploaded to YouTube every single minute of every single day. We want to be as core to that North Star as possible."
「这通常是两者的结合,因为 YouTube 的规模非常大,每时每刻都有数百小时的内容上传到 YouTube。我们希望尽可能地贴近北极星。」

分歧线三:真实性是公共品,还是可货币化的私有资产

这条线最隐蔽,因为没人正面承认"我在卖真实性",但话里都漏了出来,而且方向不一。

最直白的是 Reddit:人类真实性同时是护城河、又是卖给大模型的训练数据——"Reddit 不是 AI,但是 AI 的燃料":

"Now we're in this third chapter, which is Reddit's not AI. But in an interesting paradox, Reddit is the fuel for AI... Reddit is one of the best supplies of human intelligence. And so Reddit's data has been used to train every large language model you've heard of."
「现在我们进入了第三篇章,那就是 Reddit 不是人工智能。但有趣的是,Reddit 是人工智能的燃料……Reddit 是人类智慧的最佳来源之一。因此,Reddit 的数据已被用于训练你听说过的每一个大型语言模型。」

Huffman 自己把这层货币化讲得很坦白——真实人类对话不仅是社区的灵魂,也正好是广告"天然契合"的地基(40% 的对话本就是商业的)。换句话说,真实性在 Reddit 这里被同一份资产卖了两次(训练数据 + 广告)。

Mohan 这边,真实性的货币化是直接写进产品的:肖像被冒用后,创作者的选项之一就是"把它变现"——真实性从"是否属实"变成"归谁所有、谁来收钱"。

LinkedIn 走的是第三条路:把"个性/真实身份"沉淀成一个可被任何 AI agent 调用的私有数据层——Roslansky 反复用"你的个性(your personality)"这个词,并明确设想它的归属在 LinkedIn:

"LinkedIn also potentially being the place where a lot of that deeper information about you can be stored. It's what I like to call... your personality... be it when you're writing an email on LinkedIn or potentially when you're using like any other AI agents on the internet, the ability... for that tool to hit that personality, to grab that context."
「LinkedIn 也可能成为存储大量关于你的更深入信息的地方。这就是我喜欢称之为的……你的个性……无论你是在 LinkedIn 上写电子邮件,还是在使用互联网上的任何其他 AI agent,都有能力让该工具击中那个个性,抓住那个背景。」

与之相对的是 Smith / Lenny 那种把真实性当公共品来担忧的口吻——他们怕的不是"谁拥有真实性",而是"真实性整体消失",整张网陷入自我循环、无物可信:

"I'm afraid of this world where everything is trained on AI and AI is trained on AI and generating AI and just like nothing is trusted."
「我害怕这个世界,所有东西都在 AI 上训练,AI 在 AI 上训练,生成 AI,就像没有任何东西是可信的。」

Smith 给这种恐惧补上了机制——"衍生品的无限循环"会把群体智慧(wisdom of the crowd)压缩成单一观点(model collapse):

"If you feed in derivatives of derivatives into the model, you will basically take the wisdom of the crowd and that will shrink and you'll have a single opinion on everything, which is really bad."
「如果你将衍生品的衍生品输入到模型中,你基本上会利用群体的智慧,这会缩小,你会对所有事情都有一个单一的意见,这非常糟糕。」

一句话把这条分歧线收起来:Reddit / YouTube / LinkedIn 三家 CEO 都在悄悄把真实性私有化、资产化(训练数据、肖像确权、个性数据层),而站在卖方/旁观位置的 Smith 和 Lenny 反而是在把它当作一个正在流失的公共品来心疼。没有人在同一张桌子上承认这两件事是矛盾的。

都没说透的

我的看法

以下是判断,不是发言人原话。我的把握程度:中等偏高(论点一),中等(论点二、三)。

1. 防线从"检测内容"后撤到"验证身份",几乎已成定局——因为检测注定输给生成军备竞赛,而身份只需验一次。 五个独立信源(平台、社交、招聘、SEO/AEO 两家)在没有串供的情况下收敛到同一招,这种一致性本身就是强信号。 2. 但真正会胜出的,大概率不是任何单一地基,而是 Reddit 式的"加密身份证明人 + 社区/算法文化筛内容"的组合。 纯平台确权(YouTube)把裁量权集中得太重、纯实名(LinkedIn)牺牲了匿名这一真实表达的前提、纯算法筛选(Smith)扛不住检测失灵。Huffman 那套"我知道你是人,但不知道你是谁"在隐私、可扩展、抗操纵三者间的折中最稳——前提是第三方验证层自己不塌。 3. "可验证的真实"确实正在变成可收费的稀缺资产,而且最先吃到红利的是握有存量人类语料的平台。 Reddit 把同一份真实性卖了两次(训练数据 + 广告)这件事,是这个主题里最被低估、也最值得继续追的线索:它意味着"真实性基建"的商业模式可能不是向用户收费,而是把用户的真实性打包转售给模型方。

还想知道什么

取材