AI 答题引擎集体污染:Gemini 3 正确答案中 56% 无来源支持

鏈新聞abmedia

根据 The Inference 于 2026 年 4 月 21 日刊出、作者 Pedro Dias 的深度分析文,AI 模型崩溃(model collapse)并非业界担心的“未来威胁”——它正以另一种形式即时发生:AI 答题引擎在查询当下即时报引其他 AI 生成的网页内容作为权威来源,整个污染循环无需经过模型重训练。这个论点以“咬住自己尾巴的蛇(Ouroboros)学会了引用自己”作为核心比喻。

Model Collapse 与 Retrieval Contamination 的关键差异

传统对 AI 模型退化的担忧围绕 model collapse:合成内容逐步污染训练数据、未来世代模型品质下滑。这是慢性、需要多轮重训练才显现的风险。

Pedro Dias 提出的警讯是另一个层面:retrieval contamination(检索污染)。Perplexity、Google AI Overviews、ChatGPT、Grok 等以 RAG(retrieval-augmented generation)为基础的答题引擎,在使用者提问的当下即时抓取网页内容作为答案依据。如果抓到的网页本身就是 AI 生成的错误内容,引擎就把它当成事实呈现给读者——而且这个污染不需要任何重训练即可即时生效。

三个真实案例:AI 引擎被自己生成的假讯息欺骗

作者列出三个具体事件:

一、Lily Ray 事件:Perplexity 曾引用一个名为“September 2025 Perspective Core Algorithm Update”的所谓 Google 演算法更新作为权威资讯——这个更新根本不存在,来源是 AI 生成的 SEO 部落格假文。

二、Thomas Germain 实测:记者 Thomas Germain 发了一篇测试性部落格“吃热狗最强的科技记者”,24 小时内就被 Google AI Overviews 与 ChatGPT 排在第一位并引用,还虚构出一个不存在的“南达科他州锦标赛”加以佐证。

三、Grokipedia:Musk 旗下 xAI 的百科计划已生成或改写 885,279 篇文章,包含错误事实(例如加拿大歌手 Feist 的父亲逝世日期写错)与无据引用。Grokipedia 2026 年 2 月中已在 Google 失去大部分能见度。

Oumi 研究:Gemini 3 正确率高,但 56% 没来源

NYT 委托 Oumi 进行的评估:Gemini 2 在 SimpleQA 基准测试正确率 85%、Gemini 3 提升到 91%。但同一个测试显示,Gemini 3 的正确答案中有 56% 是“ungrounded”——模型回答对了但没有可验证的支持来源;Gemini 2 的此比例为 37%。

这意味着新世代模型在答案“形式上更精确”,却同时在“答案来源可追溯性”上退步。对于媒体、研究、事实查核等场景,这个退步比纯粹错误率更致命,因为读者无法回溯到原始权威文件自行验证。

产业规模:Google AI Overviews 覆盖 20 亿用户

这个污染问题的产业规模:Google AI Overviews 月活用户超过 20 亿、Google 年搜索量超过 5 兆次、ChatGPT 週活接近 9 亿(5,000 万付费)。也就是绝大多数网路使用者取得事实资讯的管道,都已经走过“可能被 AI 生成内容污染”的答题引擎层。

Ahrefs 另外的研究显示,ChatGPT 引用的来源中有 44% 是“best X”类榜单文——这类文章正是 SEO 业为对抗答题引擎流失流量而大量产出的 AI 内容,恰好构成答题引擎的主要污染来源。

结构性结论:引用层已与可靠作者身份脱钩

作者的最终论断:AI 答题引擎的引用层已经与可靠作者身份脱钩。SEO 业产出 AI 内容 → 答题引擎抓来当事实 → 读者相信 → SEO 业获得激励继续产出更多 AI 内容,形成自我强化的污染循环。目前整个产业没有明确的问责机制让 AI 引擎对自己引用的来源品质负责。

对使用者而言,这意味着现阶段不能把 Perplexity、AI Overviews、ChatGPT 的回答当作事实查核的终点,仍需要人工回溯到官方一手来源才能确保准确。

这篇文章 AI 答题引擎集体污染:Gemini 3 正确答案中 56% 无来源支持 最早出现在 鏈新聞 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

以色列医疗 AI 初创公司 Aidoc 融资 $150M 百万,由高盛基金领投

据 Axios 称,以色列医疗影像 AI 初创公司 Aidoc 在一轮融资中筹集了 $150 百万资金,该轮融资由高盛旗下管理的基金领投,距其上一轮融资不到一年。本轮融资使 Aidoc 的总资本达到超过 $500 百万。投资者还包括英伟达旗下 NVentures、General Catalyst 和亚马逊网络服务。Aidoc 将使用这笔资金来开发 CARE,这是一种在数千万份医学影像扫描上训练的基础模型。美国食品药品监督管理局于 2026 年 1 月批准了 CARE 的 11 项新适应症,使 Aidoc 的总批准项目数达到超过 30 项。该公司的工具目前已部署在全球超过 1,600 家医疗中心。

GateNews53 分钟前

Illuminate Financial 为人工智能与金融科技初创企业敲定 $135M 早期成长基金

据 Illuminate Financial 称,总部位于伦敦的风险投资公司已完成一支 $135 百万的早期成长基金,用于投资 B 轮以及后期阶段的企业级人工智能和金融科技初创企业。该基金的支持方包括 8 家主要金融机构:BNP Paribas、Citi、Deutsche Börse、HSBC、Jefferies、RBC、S&P Global 和 TD Securities。这标志着该公司的第四支基金,也是其首支聚焦后期交易的基金。

GateNews1小时前

软银计划今年在美国推出并上市 AI 机器人公司 Roze,目标估值为 $100B

据《金融时报》报道,软银集团计划于今年在美国设立并上市一家名为 Roze 的独立人工智能机器人与数据中心公司,目标估值为 $100 十亿美元。CEO 孙正义正在推动这一举措,该举措旨在利用公司在人工智能领域的大规模投资。

GateNews1小时前

Anthropic 寻求融资,估值或超过 9000 亿美元,可能超越 OpenAI

据@Jin Ten@称,Anthropic 正计划在 4 月 30 日进行一轮新的融资,其对公司的估值将超过 $900 billion,可能使其成为全球最有价值的 AI 初创公司,并超越 OpenAI。该公司管理层正在审查多份可能使其估值翻倍以上的投资者提案。

GateNews1小时前

Anthropic 考虑新融资,估值超越 OpenAI 成为估值最高的 AI 新创

人工智能开发商 Anthropic 正处于新一轮融资的初步评估阶段,市场估值有望突破 9,000 亿美元。若此轮融资顺利完成,该公司将超越其竞争对手 OpenAI,成为全球估值最高的 AI 新创企业。随着生成式 AI 技术的快速普及,Anthropic 正积极寻求资金以扩充基础设施,并传出最快于今年十月进行首次公开募股(IPO)。科技巨头如 Google 与 Amazon 先前已投入巨资,显示资本市场对其技术潜力的高度重视。 Anthropic 融资规模与估值成长分析 彭博社引述知情人士报道,Anthropic 正处于新一轮融资的初步评估阶段,其企业估值有望突破 9,000 亿美元。与今年

鏈新聞abmedia1小时前

Anthropic 考虑投资者报价之际,二级市场估值已达 $1 Trillion

据报道,随着其在二级市场的估值接近 $1 trillion,Anthropic 正在权衡来自投资者的报价。由于公司仍处于早期讨论阶段,并寻求额外的基础设施以支持其产品需求的增长,需要注意的是,Anthropic 最新一次一级市场融资轮对公司的估值为 billion,而更高的估值数字反映出二级市场的交易活动。

GateNews2小时前
评论
0/400
暂无评论