捕捉 AI 的“迷之自信”！Google DeepMind 发布 AI 事实核查测试卷 “FACTS Grounding”

AI Summary

Google DeepMind 发布了衡量 AI 对所提供信息的忠实度的全新基准测试“FACTS Grounding”，致力于解决 AI 的幻觉现象。

想象一下，在一次非常重要的商务会议前，你把一份超过 100 页的厚厚的市场调查报告交给了 AI。你请求道：“请从这份报告中提取我们公司明年需要关注的 3 个核心数据。”片刻后， AI 非常自信地回答：“好的，根据报告，A 市场的占有率为 15%，增长率为 5%。”但后来你检查发现，报告中根本没有“15%”这个数字。这是 AI 编造出来的谎言。

这种 AI 将非事实信息说得像真的一样自信的现象，我们称之为“幻觉 (Hallucination，人工智能生成错误信息的现象)”FACTS Grounding：评估大语言模型事实性的新基准…。尽管大语言模型 (LLM) 已深入我们的生活，但这种“迷之自信”仍然是让 AI 难以获得 100% 信任的一大障碍。

最近，Google DeepMind 为了正面突破这一问题，提出了新的解决方案。那就是衡量 AI 说话是否有事实依据的严苛测试卷——“FACTS Grounding”。

为什么这对我们很重要？

现在我们遇到疑问时，会找 AI 而不是百科全书。但 AI 传达信息的方式并不像我们预期的那样完美FACTS Grounding：评估大语言模型事实性的新基准…。特别是在分析复杂文档或在教育领域处理重要信息时，AI 的错误答案可能是致命的FACTS Grounding：评估大语言模型事实性的新基准…。简单来说，错误的信息不仅仅是一个插曲，还可能导致业务决策失败或学习偏差。

为了提高业务效率并更安全地使用人工智能，必须有一个工具来衡量 AI 不仅仅是“说得好”，而是“在多大程度上准确遵循了所提供的依据 (Grounding)”评估 AI 的事实准确性：语言模型的新基准。此次发布的 FACTS Grounding 正是扮演了这一角色，有望成为行业的新标杆FACTS 基准套件提升了对 LLM 事实性的审查。

为 AI 准备的“超精细开卷考试”

如果打个比方，FACTS Grounding 可以说是给 AI 的“超精细开卷考试”。这与我们考试时把课本放在旁边寻找正确答案类似。

考试方式如下：首先给 AI 一份非常长的文档（最多 32,000 Token，约相当于一本书的一大部分）。然后根据该文档内容提出需要详细回答的问题FACTS Grounding 排行榜：衡量 LLM 的依据能力…。AI 必须读完这篇长文，且不能根据自己已有的知识，而必须仅在提供的文档中寻找依据来撰写回答FACTS Grounding 排行榜 - llm-stats.com。

在此过程中，核心有以下两点：

依据 (Grounding，明确提供回答的根据)：回答的所有内容是否都基于提供的输入信息？FACTS Grounding - 评估依据的前沿基准…
防幻觉：是否随意编造了文档中没有的内容？FACTS Grounding：评估大语言模型事实性的新基准…

通过这一由总共 1,719 个示例问题组成的测试，非常仔细地推敲 AI 的“真实性”FACTS Grounding 排行榜 - llm-stats.com。

谁来打分？“由 AI 教授组成的评审团”

令人惊讶的是，这项苛刻考试的评分并不是由人直接完成的。Google DeepMind 团队任命了三种最先进的 AI 模型作为“评委”。

Google 的 Gemini 1.5 Pro
OpenAI 的 GPT-4o
Anthropic 的 Claude 3.5 Sonnet

这三位“AI 教授”组成一个团队，自动评估其他 AI 给出的答案与文档的一致程度，以及是否混入了谎言FACTS Grounding：评估大语言模型事实性的新基准…。通过来自不同公司的最高性能模型进行交叉验证，提高了评估的公平性和准确性。如果是人来评分，可能需要数月时间处理海量内容，而 AI 则能精准且迅速地完成。

现状：实时公开的 AI 成绩单

不仅仅是公开了测试卷。Google DeepMind 还建立了一个“在线排行榜 (Leaderboard)”，实时显示全球各种 AI 模型在这次考试中的得分FACTS Grounding：评估大语言模型事实性的新基准…。

通过这个排行榜，任何人都可以查看哪个模型更善于总结信息，哪个模型产生的幻觉现象更少FACTS Grounding 排行榜：衡量 LLM 的依据能力…。这不仅仅是为了排名，今后它将成为企业根据自身目的选择最准确 AI 的客观标准。

未来展望：从“智能”到“信任”

Google DeepMind 的 FACTS 团队解释说，该项目是“为了衡量 AI 模型利用源材料的准确程度以及避免虚假信息而迫切需要的工具”FACTS Grounding：评估大语言模型事实性的新基准…。

以后，为了在这个排行榜上获得更高分，AI 开发商将不仅仅致力于使句子流畅，而是会投入更多努力来提高“基于事实的准确性”FACTS 基准套件提升了对 LLM 事实性的审查。最终，我们离这样的场景又近了一步：当我们使用的聊天机器人该说“不知道”时会诚实地说不知道，而说“这是事实”时则能提供可靠的依据。

AI 视角

MindTickleBytes AI 记者的视角 如果说之前的 AI 是“口才出众的社交达人”，那么现在正是其转型为“拿证据说话的缜密专家”的时候。我认为 FACTS Grounding 作为一个指标，开始为 AI 的“诚实度”而非仅仅是智力打分，这展示了技术的成熟。未来，市场的主流将不再仅仅是聪明的 AI，而是用户可以放心交付任务的“负责任的 AI”。

参考资料

Share this article:

测试你的理解

Q1. 在 FACTS Grounding 基准测试中，以下哪项不是负责对 AI 模型回答进行打分的“评委”模型？

Gemini 1.5 Pro
Llama 3
Claude 3.5 Sonnet

FACTS Grounding 使用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 这三种最先进的模型作为评委，自动评估回答的准确性。

Q2. 在 FACTS Grounding 测试中，AI 需要阅读的文档最大长度是多少？

1,000 Token
10,000 Token
32,000 Token

该基准测试向 AI 提供长达 32,000 Token（约相当于一本书的一部分）的长文档，并要求其从中寻找回答的依据。

Q3. FACTS Grounding 的主要目的之一是针对 AI 将错误信息说得像真的一样的现象，这种现象称为什么？

深度伪造 (Deepfake)
幻觉 (Hallucination)
过拟合 (Overfitting)

AI 在接收到复杂输入时生成非事实信息的现象被称为“幻觉 (Hallucination)”，FACTS Grounding 的目的就是减少这种现象。