Google DeepMind 发布了衡量 AI 对所提供信息的忠实度的全新基准测试“FACTS Grounding”,致力于解决 AI 的幻觉现象。
想象一下,在一次非常重要的商务会议前,你把一份超过 100 页的厚厚的市场调查报告交给了 AI。你请求道:“请从这份报告中提取我们公司明年需要关注的 3 个核心数据。”片刻后, AI 非常自信地回答:“好的,根据报告,A 市场的占有率为 15%,增长率为 5%。”但后来你检查发现,报告中根本没有“15%”这个数字。这是 AI 编造出来的谎言。
这种 AI 将非事实信息说得像真的一样自信的现象,我们称之为“幻觉 (Hallucination,人工智能生成错误信息的现象)”FACTS Grounding:评估大语言模型事实性的新基准…。尽管大语言模型 (LLM) 已深入我们的生活,但这种“迷之自信”仍然是让 AI 难以获得 100% 信任的一大障碍。
最近,Google DeepMind 为了正面突破这一问题,提出了新的解决方案。那就是衡量 AI 说话是否有事实依据的严苛测试卷——“FACTS Grounding”。
为什么这对我们很重要?
现在我们遇到疑问时,会找 AI 而不是百科全书。但 AI 传达信息的方式并不像我们预期的那样完美FACTS Grounding:评估大语言模型事实性的新基准…。特别是在分析复杂文档或在教育领域处理重要信息时,AI 的错误答案可能是致命的FACTS Grounding:评估大语言模型事实性的新基准…。简单来说,错误的信息不仅仅是一个插曲,还可能导致业务决策失败或学习偏差。
为了提高业务效率并更安全地使用人工智能,必须有一个工具来衡量 AI 不仅仅是“说得好”,而是“在多大程度上准确遵循了所提供的依据 (Grounding)”评估 AI 的事实准确性:语言模型的新基准。此次发布的 FACTS Grounding 正是扮演了这一角色,有望成为行业的新标杆FACTS 基准套件提升了对 LLM 事实性的审查。
为 AI 准备的“超精细开卷考试”
如果打个比方,FACTS Grounding 可以说是给 AI 的“超精细开卷考试”。这与我们考试时把课本放在旁边寻找正确答案类似。
考试方式如下:首先给 AI 一份非常长的文档(最多 32,000 Token,约相当于一本书的一大部分)。然后根据该文档内容提出需要详细回答的问题FACTS Grounding 排行榜:衡量 LLM 的依据能力…。AI 必须读完这篇长文,且不能根据自己已有的知识,而必须仅在提供的文档中寻找依据来撰写回答FACTS Grounding 排行榜 - llm-stats.com。
在此过程中,核心有以下两点:
- 依据 (Grounding,明确提供回答的根据):回答的所有内容是否都基于提供的输入信息?FACTS Grounding - 评估依据的前沿基准…
- 防幻觉:是否随意编造了文档中没有的内容?FACTS Grounding:评估大语言模型事实性的新基准…
通过这一由总共 1,719 个示例问题组成的测试,非常仔细地推敲 AI 的“真实性”FACTS Grounding 排行榜 - llm-stats.com。
谁来打分?“由 AI 教授组成的评审团”
令人惊讶的是,这项苛刻考试的评分并不是由人直接完成的。Google DeepMind 团队任命了三种最先进的 AI 模型作为“评委”。
- Google 的 Gemini 1.5 Pro
- OpenAI 的 GPT-4o
- Anthropic 的 Claude 3.5 Sonnet
这三位“AI 教授”组成一个团队,自动评估其他 AI 给出的答案与文档的一致程度,以及是否混入了谎言FACTS Grounding:评估大语言模型事实性的新基准…。通过来自不同公司的最高性能模型进行交叉验证,提高了评估的公平性和准确性。如果是人来评分,可能需要数月时间处理海量内容,而 AI 则能精准且迅速地完成。
现状:实时公开的 AI 成绩单
不仅仅是公开了测试卷。Google DeepMind 还建立了一个“在线排行榜 (Leaderboard)”,实时显示全球各种 AI 模型在这次考试中的得分FACTS Grounding:评估大语言模型事实性的新基准…。
通过这个排行榜,任何人都可以查看哪个模型更善于总结信息,哪个模型产生的幻觉现象更少FACTS Grounding 排行榜:衡量 LLM 的依据能力…。这不仅仅是为了排名,今后它将成为企业根据自身目的选择最准确 AI 的客观标准。
未来展望:从“智能”到“信任”
Google DeepMind 的 FACTS 团队解释说,该项目是“为了衡量 AI 模型利用源材料的准确程度以及避免虚假信息而迫切需要的工具”FACTS Grounding:评估大语言模型事实性的新基准…。
以后,为了在这个排行榜上获得更高分,AI 开发商将不仅仅致力于使句子流畅,而是会投入更多努力来提高“基于事实的准确性”FACTS 基准套件提升了对 LLM 事实性的审查。最终,我们离这样的场景又近了一步:当我们使用的聊天机器人该说“不知道”时会诚实地说不知道,而说“这是事实”时则能提供可靠的依据。
AI 视角
MindTickleBytes AI 记者的视角 如果说之前的 AI 是“口才出众的社交达人”,那么现在正是其转型为“拿证据说话的缜密专家”的时候。我认为 FACTS Grounding 作为一个指标,开始为 AI 的“诚实度”而非仅仅是智力打分,这展示了技术的成熟。未来,市场的主流将不再仅仅是聪明的 AI,而是用户可以放心交付任务的“负责任的 AI”。
参考资料
- FACTS Grounding:评估大语言模型事实性的新基准…
- FACTS Grounding:评估大语言模型事实性的新基准…
- FACTS Grounding:评估大语言模型事实性的新基准…
- FELM:大语言模型事实性评估基准。Advances in Neural Information Processing Systems, 36, 2024b.
- FACTS 基准套件发布用于评估事实性… - InfoQ
- FACTS Grounding - 评估依据的前沿基准…
- FACTS Grounding:评估大语言模型事实性的新基准…
- FACTS Grounding 排行榜:衡量 LLM 的依据能力…
- FACTS Grounding 排行榜 - llm-stats.com
- FACTS Grounding:评估大语言模型事实性的新基准…
- 评估 AI 的事实准确性:语言模型的新基准
- FACTS 基准套件提升了对 LLM 事实性的审查
- Gemini 1.5 Pro
- Llama 3
- Claude 3.5 Sonnet
- 1,000 Token
- 10,000 Token
- 32,000 Token
- 深度伪造 (Deepfake)
- 幻觉 (Hallucination)
- 过拟合 (Overfitting)