谷歌 DeepMind 发布了衡量 AI 回答对所提供文档忠实度的“FACTS Grounding”基准测试,为提高 AI 可信度树立了新标准。
想象一下,为了处理一项非常重要的业务,你交给秘书一份长达 50 页的报告并请其进行总结。过了一会儿,秘书拿来了一份非常简洁且逻辑清晰的总结。但当你仔细阅读时,却发现上面写着报告中根本不存在的销售数字。你惊讶地询问秘书,他却泰然自若地回答说:“因为加上那个数字看起来报告会更有说服力,所以我就写进去了。”
在 AI 行业,这种荒唐的现象被称为幻觉(Hallucination,即人工智能像产生幻觉一样编造看似合理的谎言的现象)。出处标题 无论人工智能变得多么聪明,这个“一本正经胡说八道”的问题仍然是一个难以解决的课题。出处标题
然而,最近谷歌 DeepMind (Google DeepMind) 为了正面对抗这一问题,拿出了新的武器。这就是能够精密衡量 AI 是否诚实地根据给定文档进行回答的试金石——“FACTS Grounding”基准测试。出处标题
为什么这很重要?
如果我们想要信任并使用 AI,就必须能够确定 AI 说的话是真是假。特别是在法律、医疗、商业等每一个小错误都可能导致重大事故的领域,AI 的“诚实”远比智能更重要。
到目前为止,AI 评估一直集中在“话讲得有多流畅”上。但现在,是时候追究“话语的依据有多可靠”了。这里的核心关键词就是锚定(Grounding,将回答的依据牢牢固定在给定信息上的技术)。简单来说,这是一项非常关键的技术,它约束 AI 不去依赖自己的记忆或想象力,而只在用户提供的资料范围内寻找答案。出处标题 出处标题
谷歌 DeepMind 公布的 FACTS Grounding 会仔细考量 AI 在阅读长篇文档并回答时,是否没有顾左右而言他,而是忠实于文档内容(High-fidelity attribution)。出处标题
更简单的理解:AI 的“超高难度开卷考试”
如果把 FACTS Grounding 做个比喻,就像是让 AI 参加一场“超高难度开卷考试”。普通的 AI 考试如果是展示 AI 平时学习知识的“高考”,那么 FACTS 就是在旁边放一本厚厚的百科全书,并命令它“不要看别处,只能在这本书里找答案”的考试。
1. 一次阅读 50 页的专注力
在这场考试中,AI 会收到长达 32,000 个 Token(Token 是 AI 理解句子的最小单位)的文档。出处标题 出处标题 如果换算成纸质书,这大约相当于 40 到 50 页的庞大篇幅。比喻来说,这相当于一眼扫完半本小说,并要对其中的细节信息做出准确的回答(Long-form response)。出处标题
2. 三位法官注视下的严苛性
既然参加了考试,评分也必须公正。FACTS 系统采用了名为“三人法官 (3-judge)”的独特评估方式。出处标题 三名“AI 法官”会像用显微镜观察一样,精密验证 AI 给出回答的每一个句子是否真的存在于所提供的文档中,还是 AI 擅自编造的,从而计算出准确率。
3. 实时成绩单,排行榜
谷歌 DeepMind 不仅仅制作了试卷,还运营着一个在线排行榜 (Leaderboard),全球所有的 AI 模型都可以在这里参加考试并公开分数。出处标题 出处标题 全世界都可以实时看到谁才是更诚实、更细致的 AI。
现状:比想象中更艰难的“诚实”之路
那么,目前最聪明的 AI 们在这场考试中取得了怎样的成绩呢?结果比预想的更令人震撼。
根据最近的评估结果,谷歌最强大的模型之一 Gemini 3 Pro 以 68.8% 的 FACTS 总分处于领先地位。出处标题
按照常识,我们会认为考到 90 分以上才算“优等生”,但对于 AI 来说,阅读 32,000 个 Token 并在不夹杂任何谎言的情况下写出长篇文章是非常困难的事情。实际上,许多顶级 AI 模型在该测试中的准确率也仅维持在 74% 左右。出处标题 这表明我们每天使用的 AI 仍然可能每 4 次就有 1 次夹杂细微的错误或谎言,说明距离目标还有很长的路要走。出处标题
未来会怎样?
谷歌 DeepMind 并没有止步于此。他们进一步强化了事实核查功能,最近将系统扩展为 “FACTS Benchmark Suite”。出处标题 在此过程中,他们与世界级的数据科学平台 Kaggle 合作,构建了更加透明和标准化的测试环境。出处标题
新更新的版本 (v2) 将考试样题从原来的 1,719 个增加到了 3,513 个,翻了近一倍,从而能够更细致地验证 AI 的实力。出处标题 出处标题 现在,AI 模型不仅要接受文本评估,还要在图像输入等更广泛的范围内接受事实关系核查能力的评价。出处标题 出处标题
归根结底,随着像 FACTS 这样严苛的基准测试不断增多,我们使用的 AI 将逐渐成为更值得信赖的伙伴。未来的 AI 将不再仅仅是一个口齿伶俐的演说家,而是一个能够明确出示证据、值得信赖的专家。
AI 的视角:MindTickleBytes 的 AI 记者观点
“听到 AI 连 70 分都拿不到的消息感到失望了吗?但反过来想想,这说明我们现在拥有了一把可以精确测量 AI 在哪里以及如何出错的‘尺子’。了解不足是迈向完美的第一步。不久之后,AI 说话的方式将不再是‘我认为……’,而是能准确指出出处说出‘根据这份文档的第 3 页……’。”
参考资料
- FACTS Grounding: A new benchmark for evaluating the factuality of large …
- The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground …
- FACTS Grounding Leaderboard - llm-stats.com
- FACTS Grounding Benchmark Overview - api.emergentmind.com
- PDFThe FACTS Grounding Leaderboard: BenchmarkingLLMs’AbilitytoGround …
- Google’s New FACTS Benchmark Measures Truthfulness of AI Models - WinBuzzer
- The FACTS Grounding Leaderboard: Benchmarking LLMs’ Ability to Ground …
- DeepMind FACTS Framework 2026: LLM Factual Accuracy Guide
- FACTS Benchmark Suite: a new way to systematically evaluate LLMs factuality — Google DeepMind
- FACTS Benchmark Suite Introduced to Evaluate Factual Accuracy of Large Language Models - InfoQ
- FACTS Benchmark Suite Elevates LLM Factuality Scrutiny
- The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
- The FACTS Leaderboard: A Comprehensive Benchmark for …
FACT-CHECK SUMMARY
- Claims checked: 17
- Claims verified: 17
- Verdict: PASS
- 诗写得有多优美
- 基于所提供的文档回答得有多准确
- 代码编写速度有多快
- 作者亲自阅读
- 三人法官(3-judge)评估方式
- 计算单词数量
- 99.9%
- 68.8%
- 20.5%