捕捉 AI 的「盲目自信」！Google DeepMind 發佈 AI 事實查核試卷「FACTS Grounding」

AI Summary

Google DeepMind 發佈了衡量 AI 對提供資訊忠實程度的新基準「FACTS Grounding」，致力於解決 AI 的幻覺現象。

想像一下。在即將迎來非常重要的商務會議前，你將一份超過 100 頁的厚重市場調查報告交給了 AI。你拜託它：「請從這份報告中挑出我們公司明年應該關注的 3 個核心數據。」過了一會兒，AI 非常自信地回答：「好的，根據報告，A 市場的佔有率為 15%，增長率為 5%。」但後來檢查發現，報告中根本沒有「15%」這個數字。這是 AI 煞有其事編造的謊言。

這種 AI 將非事實資訊講得像真的一樣堂而皇之的現象，我們稱之為 「幻覺 (Hallucination，人工智慧生成錯誤資訊的現象)」FACTS Grounding：評估事實性的新基準…。雖然大型語言模型 (LLM) 已深入我們的生活，但這種「盲目自信」依然是讓 AI 難以獲得 100% 信任的一大障礙。

最近，Google DeepMind 為了正面突破這一問題，推出了一個新的解決方案。那就是測量 AI 說話內容多大程度上基於事實的嚴格試卷——「FACTS Grounding」。

為什麼這對我們很重要？

現在我們遇到好奇的事情時，會找 AI 而不是百科全書。但是 AI 傳遞資訊的方式並不像我們預期的那樣完美FACTS Grounding：評估事實性的新基準…。特別是在分析複雜文檔或在教育現場處理重要資訊時，AI 的錯誤回答可能是致命的FACTS Grounding：評估大型語言模型事實性的新基準…。簡單來說，錯誤的資訊不僅僅是一場意外，還可能導致商務決策失敗或學習錯誤。

為了提高商務效率並更安全地使用人工智慧，我們絕對需要一個工具來衡量 AI 不僅是「口才好」，還要看它「多準確地遵守提供的根據 (Grounding)」在 AI 中評估事實準確性：語言模型的新基準。這次公開的 FACTS Grounding 似乎將成為發揮此類作用的業界新標準FACTS 基準套件提升了 LLM 事實性審查。

為 AI 準備的「超精密開卷測試」

如果把 FACTS Grounding 做個比喻，可以說是給 AI 的 「超精密開卷測試」。這就像我們考試時把教科書放在旁邊尋找正確答案一樣。

測試方式如下：首先給 AI 一份非常長的文檔（最高達 32,000 標記，約相當於一本書的大部分內容）。然後拋出要求根據該文檔內容進行詳細回答的問題FACTS Grounding 排行榜：基準測試 LLM 的 Grounding 能力…。AI 必須讀完這篇長文，並且不能根據自己已有的知識，而是必須 僅在提供的文檔中 尋找根據來撰寫回答FACTS Grounding 排行榜 - llm-stats.com。

在此過程中，核心在於以下兩點：

Grounding (根據，明確提供回答的根據)：回答的所有內容是否都基於提供的輸入資訊？FACTS Grounding - 評估 Grounding 的尖端基準…
防止幻覺：是否沒有隨意編造文檔中不存在的內容？FACTS Grounding：評估事實性的新基準…

透過由總共 1,719 個示例問題組成的測試，非常細緻地考驗 AI 的「真實性」。

誰來評分？「由 AI 教授組成的評審團」

令人驚訝的是，這項嚴苛測試的評分並非由人工直接完成。Google DeepMind 團隊任命了三款頂尖 AI 模型作為「評審」。

Google 的 Gemini 1.5 Pro
OpenAI 的 GPT-4o
Anthropic 的 Claude 3.5 Sonnet

這三位「AI 教授」組成一個團隊，自動評估其他 AI 給出的回答與文檔的一致程度，或者是否夾雜了謊言FACTS Grounding：評估事實性的新基準…。透過讓不同公司的最高性能模型進行交叉驗證，提高了評估的公正性和準確性。這相當於讓 AI 精密且迅速地處理了如果由人工評分可能需要數月時間的海量數據。

現況：即時公開的 AI 成績單

不只是公開了試卷。Google DeepMind 還建立了 「在線排行榜 (Leaderboard)」，即時顯示全球各種 AI 模型在這項測試中獲得了多少分FACTS Grounding：評估事實性的新基準…。

透過這個排行榜，任何人都可以確認哪款模型更擅長總結資訊，哪款模型產生的幻覺現象更少FACTS Grounding 排行榜：基準測試 LLM 的 Grounding 能力…。這不僅僅是排名，更將成為未來企業選擇最適合其目的、最準確 AI 的客觀標準。

未來展望：從「智慧」轉向「信任」

Google DeepMind 的 FACTS 團隊解釋說，該項目是「為了測量 AI 模型多大程度上準確利用來源資料並避免虛假資訊，而迫切需要的工具」FACTS Grounding：評估事實性的新基準…。

未來，AI 開發商為了在這個排行榜上獲得更高分數，將會投入更多努力在提高「基於事實的準確性」上，而不僅僅是讓語句變得流暢FACTS 基準套件提升了 LLM 事實性審查。最終，當我們使用的聊天機器人在該說「不知道」時誠實地說不知道，在說「這是事實」時能同時提供可信的根據，我們距離這樣的目標又近了一步。

AI 的視角

MindTickleBytes AI 記者的視角 如果說到目前為止的 AI 是「口才流利的社交朋友」，那麼現在就是該轉變為「憑據說話的嚴謹專家」的時候了。我認為 FACTS Grounding 開始為 AI 的「誠實度」而非僅是智慧評分，是展現技術成熟度的指標。未來，市場的主流將不再只是聰明的 AI，而是用戶可以放心交付任務的「負責任的 AI」。

參考資料

Share this article:

測試你的理解

Q1. 在 FACTS Grounding 基準中，哪一個模型不是擔任評分 AI 模型回答的『評審』？

Gemini 1.5 Pro
Llama 3
Claude 3.5 Sonnet

FACTS Grounding 使用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 這三款頂尖模型作為評審，自動評估回答的準確性。

Q2. 在 FACTS Grounding 測試中，AI 需要閱讀的文檔最大長度是多少？

1,000 標記 (Tokens)
10,000 標記 (Tokens)
32,000 標記 (Tokens)

此基準為 AI 提供長達 32,000 標記（大約是一本書的一部分內容）的長文檔，並要求其從中尋找回答根據。

Q3. FACTS Grounding 的主要目的之一是解決 AI 將錯誤資訊說得煞有其事的現象，這稱為什麼？

深偽 (Deepfake)
幻覺 (Hallucination)
過擬合 (Overfitting)

當 AI 接收到複雜的輸入值時生成非事實資訊的現象被稱為『幻覺 (Hallucination)』，FACTS Grounding 的目的在於減少這種現象。