AI 流利的谎言，要终结了吗？谷歌发布严苛的“阅卷官” FACTS Grounding

AI Summary

谷歌发布了“FACTS Grounding”基准测试，用于衡量 AI 根据给定文档回答的准确度，为 AI 的可靠性树立了新标准。

想象一下。 你在公司面临一个重要项目，收到了一份超过 100 页的厚报告。内容多到让人眼花缭乱。时间紧迫的你向 AI 求助：“请根据这份报告的内容，总结出 5 个核心战略。”

片刻后，AI 给出了非常简洁且逻辑清晰的回答。语气自信，语句流畅。但突然，你的脑海中闪过一个疑问：“这真的是报告里的内容吗？会不会是 AI 编造出来的？”

这种不安并非杞人忧天。虽然最新的 AI 模型已经彻底改变了搜索和利用信息的方式，但它们仍然无法摆脱“幻觉现象（Hallucination）”，即事实性错误。简单来说，就是 AI 不承认自己不知道，而是像说真话一样编造谎言来源 3。

为了解决这个问题，谷歌的 FACTS 团队和数据科学平台 Kaggle 联手了。他们给出的解决方案就是 “FACTS Grounding”——一套全新的 AI 试卷，即基准测试（Benchmark，用于衡量性能的标准试卷）来源 14。

为什么事实核查如此重要？

我们要想把 AI 作为业务合作伙伴来信任并使用，就必须能够验证 AI 说的话不仅是“流利的”，更是“真实的”。然而，到目前为止，AI 测试大多停留在总结短句或回答常识问题的水平。这还不足以确认 AI 是否真的能从庞大的信息森林中摘取准确的果实来源 15。

比喻来说，如果说以前是看 AI “说话有多好听”，那么现在则开始要求它“像法庭证人一样只说真话”。在分析法律文件或寻找关系到生命的医学信息时，如果 AI 将哪怕一个字的错误信息当作事实来说，都可能导致惨痛的事故。谷歌和 Kaggle 这次推出的 FACTS 基准套件（Suite）正是为了填补这种“事实准确度”的漏洞而设计的严苛评估系统来源 14。

简单理解：什么是 FACTS Grounding？

简单来说，FACTS Grounding 是为 AI 准备的“地狱级开卷考试”。这不仅是写出背下来的东西，而是一个要求只能在给定的书中寻找答案的高难度考试。

1. 极厚的参考书 (Long Context)

如果说普通的 AI 测试是小测验水平，那么 FACTS Grounding 就像是扔给你一整本专业书籍。该基准测试向 AI 提供多达 32,000 个 token（Tokens，AI 处理文字的最小单位） 的文档来源 10。

这是什么概念呢？换算成普通的 A4 纸，大约是 60 到 80 页的海量内容。AI 必须从头到尾精读这份长文档，并针对用户的刁钻提问给出非常详尽的回答来源 12。

2. “接地 (Grounding)”这一绝对规则

这里的核心是接地（Grounding，基于给定参考资料进行回答的能力）。这相当于对 AI 下达指令：“暂时放下你的常识，只用这份文件里写的内容来决胜负！”如果文档中写着“苹果是红色的”，而 AI 利用自己的外部知识回答“苹果也可能是绿色的”，那么在这个考试中，哪怕是正确的话也是“错误答案”。没有根据的回答会被毫不留情地淘汰。

3. 三位严苛的 AI 裁判

这次考试最有趣的地方在于，它不使用人工阅卷，而是由三位被称为业界最强头脑的“AI 裁判”负责打分来源 1。

谷歌的骄傲 Gemini 1.5 Pro
OpenAI 的王牌 GPT-4o
Anthropic 的优等生 Claude 3.5 Sonnet

这三个模型组成一个团队，像拿放大镜一样审视其他 AI 给出的答案。它们会彻查每一句话是基于原始文档的哪一页、哪一行，以及是否包含巧妙编造的内容来源 1。这就像三位严厉的教授在共同审阅研究生的论文。

现状：AI 智力撞上了“70% 之墙”

通过这份新试卷对目前顶尖的 AI 模型进行测试后，公布了一份相当令人震惊的成绩单。那就是“70% 事实准确度天花板 (Ceiling)”现象来源 14。

试想一下。 你会把重要工作交给一个在 10 个事实中说错 3 个的秘书吗？在日常对话中，AI 看起来可能很完美，但在需要基于信息密集的长文档给出精确回答的“实战”情况下，即使是再出色的 AI，在约 70% 的准确度面前也会显得捉襟见肘。

这证明了 AI 在复杂语境下依然难以紧抓“事实”不放。该基准测试共包含 1,719 个示例问题来源 12，目前通过“FACTS Grounding 排行榜”实时公布成绩，透明地揭示了技术的局限性来源 10。

未来：迈向更诚实的 AI

谷歌 FACTS 团队表示，此次基准测试的发布将成为“缩小 AI 事实准确度差距的重要里程碑” 来源 14。我们可以期待以下变化：

真正可靠的业务合作伙伴：一旦企业引入通过了这项严苛考试的 AI，AI 就能在法律、金融等不容许丝毫误差的领域大显身手。
以“真实性”为核心的技术战争：现在，AI 公司不能再只是空喊“我们更聪明”，而是必须通过“我们的模型在 FACTS Grounding 中获得了 90%”这样具体的成绩单来证明其可靠性。
幻觉现象的终结？：既然有了严格的评分标准，开发者们将会更激烈地研究抑制幻觉现象的技术。因为现在已经具备了一个一旦说谎就会立刻被识破的系统来源 15。

AI 视角：MindTickleBytes AI 记者的视角

比起变聪明，AI 更难做到的是“变得诚实”。FACTS Grounding 开始对 AI 进行强力训导：“不要不懂装懂，只能基于根据说话。”目前 70% 的成绩单并不是可耻的结果，而是一封令人兴奋的挑战书，它向我们展示了未来需要征服的“信任领地”是多么广阔。期待在不久的将来，能见到只说 99% 真话的 AI 同事。

参考资料

事实核查总结

核查项目数：13
已核实项目数：13
结论：通过 (PASS)

Share this article:

测试你的理解

Q1. 在 FACTS Grounding 基准测试中，负责为 AI 的回答打分的“裁判”是谁？

人类专家组
Gemini、GPT、Claude 等尖端 AI 模型
谷歌的搜索算法

该基准测试利用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 这三个强大的 AI 模型作为“裁判”，自动判定回答是否符合事实。

Q2. 在 FACTS Grounding 测试中，AI 一次需要阅读的文档最大长度是多少？

约 500 个单词
最高 32,000 个 token（约 60-80 页）
无限

该试卷向 AI 提供多达 32,000 个 token 的庞大文档，并要求其仅在其中寻找答案。

Q3. 目前尖端 AI 在该基准测试中表现出的事实准确度“天花板（上限）”大约是多少？

根据最近的报告，目前的 AI 模型在处理复杂信息的情况下，正面临着约 70% 事实准确度的壁垒。