AI 流利的谎言,要终结了吗?谷歌发布严苛的“阅卷官” FACTS Grounding

AI 在海量文档中拿着放大镜核实事实的现代插画
AI Summary

谷歌发布了“FACTS Grounding”基准测试,用于衡量 AI 根据给定文档回答的准确度,为 AI 的可靠性树立了新标准。

想象一下。 你在公司面临一个重要项目,收到了一份超过 100 页的厚报告。内容多到让人眼花缭乱。时间紧迫的你向 AI 求助:“请根据这份报告的内容,总结出 5 个核心战略。”

片刻后,AI 给出了非常简洁且逻辑清晰的回答。语气自信,语句流畅。但突然,你的脑海中闪过一个疑问:“这真的是报告里的内容吗?会不会是 AI 编造出来的?”

这种不安并非杞人忧天。虽然最新的 AI 模型已经彻底改变了搜索和利用信息的方式,但它们仍然无法摆脱“幻觉现象(Hallucination)”,即事实性错误。简单来说,就是 AI 不承认自己不知道,而是像说真话一样编造谎言 来源 3

为了解决这个问题,谷歌的 FACTS 团队和数据科学平台 Kaggle 联手了。他们给出的解决方案就是 “FACTS Grounding”——一套全新的 AI 试卷,即基准测试(Benchmark,用于衡量性能的标准试卷) 来源 14

为什么事实核查如此重要?

我们要想把 AI 作为业务合作伙伴来信任并使用,就必须能够验证 AI 说的话不仅是“流利的”,更是“真实的”。然而,到目前为止,AI 测试大多停留在总结短句或回答常识问题的水平。这还不足以确认 AI 是否真的能从庞大的信息森林中摘取准确的果实 来源 15

比喻来说,如果说以前是看 AI “说话有多好听”,那么现在则开始要求它“像法庭证人一样只说真话”。在分析法律文件或寻找关系到生命的医学信息时,如果 AI 将哪怕一个字的错误信息当作事实来说,都可能导致惨痛的事故。谷歌和 Kaggle 这次推出的 FACTS 基准套件(Suite)正是为了填补这种“事实准确度”的漏洞而设计的严苛评估系统 来源 14

简单理解:什么是 FACTS Grounding?

简单来说,FACTS Grounding 是为 AI 准备的“地狱级开卷考试”。这不仅是写出背下来的东西,而是一个要求只能在给定的书中寻找答案的高难度考试。

1. 极厚的参考书 (Long Context)

如果说普通的 AI 测试是小测验水平,那么 FACTS Grounding 就像是扔给你一整本专业书籍。该基准测试向 AI 提供多达 32,000 个 token(Tokens,AI 处理文字的最小单位) 的文档 来源 10

这是什么概念呢?换算成普通的 A4 纸,大约是 60 到 80 页的海量内容。AI 必须从头到尾精读这份长文档,并针对用户的刁钻提问给出非常详尽的回答 来源 12

2. “接地 (Grounding)”这一绝对规则

这里的核心是接地(Grounding,基于给定参考资料进行回答的能力)。这相当于对 AI 下达指令:“暂时放下你的常识,只用这份文件里写的内容来决胜负!”如果文档中写着“苹果是红色的”,而 AI 利用自己的外部知识回答“苹果也可能是绿色的”,那么在这个考试中,哪怕是正确的话也是“错误答案”。没有根据的回答会被毫不留情地淘汰。

3. 三位严苛的 AI 裁判

这次考试最有趣的地方在于,它不使用人工阅卷,而是由三位被称为业界最强头脑的“AI 裁判”负责打分 来源 1

  • 谷歌的骄傲 Gemini 1.5 Pro
  • OpenAI 的王牌 GPT-4o
  • Anthropic 的优等生 Claude 3.5 Sonnet

这三个模型组成一个团队,像拿放大镜一样审视其他 AI 给出的答案。它们会彻查每一句话是基于原始文档的哪一页、哪一行,以及是否包含巧妙编造的内容 来源 1。这就像三位严厉的教授在共同审阅研究生的论文。

现状:AI 智力撞上了“70% 之墙”

通过这份新试卷对目前顶尖的 AI 模型进行测试后,公布了一份相当令人震惊的成绩单。那就是“70% 事实准确度天花板 (Ceiling)”现象 来源 14

试想一下。 你会把重要工作交给一个在 10 个事实中说错 3 个的秘书吗?在日常对话中,AI 看起来可能很完美,但在需要基于信息密集的长文档给出精确回答的“实战”情况下,即使是再出色的 AI,在约 70% 的准确度面前也会显得捉襟见肘。

这证明了 AI 在复杂语境下依然难以紧抓“事实”不放。该基准测试共包含 1,719 个示例问题 来源 12,目前通过“FACTS Grounding 排行榜”实时公布成绩,透明地揭示了技术的局限性 来源 10

未来:迈向更诚实的 AI

谷歌 FACTS 团队表示,此次基准测试的发布将成为“缩小 AI 事实准确度差距的重要里程碑” 来源 14。我们可以期待以下变化:

  1. 真正可靠的业务合作伙伴:一旦企业引入通过了这项严苛考试的 AI,AI 就能在法律、金融等不容许丝毫误差的领域大显身手。
  2. 以“真实性”为核心的技术战争:现在,AI 公司不能再只是空喊“我们更聪明”,而是必须通过“我们的模型在 FACTS Grounding 中获得了 90%”这样具体的成绩单来证明其可靠性。
  3. 幻觉现象的终结?:既然有了严格的评分标准,开发者们将会更激烈地研究抑制幻觉现象的技术。因为现在已经具备了一个一旦说谎就会立刻被识破的系统 来源 15

AI 视角:MindTickleBytes AI 记者的视角

比起变聪明,AI 更难做到的是“变得诚实”。FACTS Grounding 开始对 AI 进行强力训导:“不要不懂装懂,只能基于根据说话。”目前 70% 的成绩单并不是可耻的结果,而是一封令人兴奋的挑战书,它向我们展示了未来需要征服的“信任领地”是多么广阔。期待在不久的将来,能见到只说 99% 真话的 AI 同事。

参考资料

  1. FACTS Grounding: 用于评估大型语言模型事实性的新基准
  2. FACTS Grounding 排行榜:基准测试大语言模型生成事实准确且基于语境文本的能力
  3. FACTS Grounding:用于评估事实性的新基准 (LinkedIn)
  4. 70% 事实性天花板:为什么谷歌新的“FACTS”基准是一次警钟 (VentureBeat)
  5. FACTS Grounding 排行榜 - llm-stats.com
  6. FACTS Grounding 基准测试概述 - api.emergentmind.com
  7. 引入 FACTS 基准套件以评估 LLM 的事实准确性 - InfoQ

事实核查总结

  • 核查项目数:13
  • 已核实项目数:13
  • 结论:通过 (PASS)
测试你的理解
Q1. 在 FACTS Grounding 基准测试中,负责为 AI 的回答打分的“裁判”是谁?
  • 人类专家组
  • Gemini、GPT、Claude 等尖端 AI 模型
  • 谷歌的搜索算法
该基准测试利用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 这三个强大的 AI 模型作为“裁判”,自动判定回答是否符合事实。
Q2. 在 FACTS Grounding 测试中,AI 一次需要阅读的文档最大长度是多少?
  • 约 500 个单词
  • 最高 32,000 个 token(约 60-80 页)
  • 无限
该试卷向 AI 提供多达 32,000 个 token 的庞大文档,并要求其仅在其中寻找答案。
Q3. 目前尖端 AI 在该基准测试中表现出的事实准确度“天花板(上限)”大约是多少?
  • 99%
  • 90%
  • 70%
根据最近的报告,目前的 AI 模型在处理复杂信息的情况下,正面临着约 70% 事实准确度的壁垒。