Google DeepMind 發佈了衡量 AI 對提供資訊忠實程度的新基準「FACTS Grounding」,致力於解決 AI 的幻覺現象。
想像一下。在即將迎來非常重要的商務會議前,你將一份超過 100 頁的厚重市場調查報告交給了 AI。你拜託它:「請從這份報告中挑出我們公司明年應該關注的 3 個核心數據。」過了一會兒,AI 非常自信地回答:「好的,根據報告,A 市場的佔有率為 15%,增長率為 5%。」但後來檢查發現,報告中根本沒有「15%」這個數字。這是 AI 煞有其事編造的謊言。
這種 AI 將非事實資訊講得像真的一樣堂而皇之的現象,我們稱之為 「幻覺 (Hallucination,人工智慧生成錯誤資訊的現象)」FACTS Grounding:評估事實性的新基準…。雖然大型語言模型 (LLM) 已深入我們的生活,但這種「盲目自信」依然是讓 AI 難以獲得 100% 信任的一大障礙。
最近,Google DeepMind 為了正面突破這一問題,推出了一個新的解決方案。那就是測量 AI 說話內容多大程度上基於事實的嚴格試卷——「FACTS Grounding」。
為什麼這對我們很重要?
現在我們遇到好奇的事情時,會找 AI 而不是百科全書。但是 AI 傳遞資訊的方式並不像我們預期的那樣完美FACTS Grounding:評估事實性的新基準…。特別是在分析複雜文檔或在教育現場處理重要資訊時,AI 的錯誤回答可能是致命的FACTS Grounding:評估大型語言模型事實性的新基準…。簡單來說,錯誤的資訊不僅僅是一場意外,還可能導致商務決策失敗或學習錯誤。
為了提高商務效率並更安全地使用人工智慧,我們絕對需要一個工具來衡量 AI 不僅是「口才好」,還要看它「多準確地遵守提供的根據 (Grounding)」在 AI 中評估事實準確性:語言模型的新基準。這次公開的 FACTS Grounding 似乎將成為發揮此類作用的業界新標準FACTS 基準套件提升了 LLM 事實性審查。
為 AI 準備的「超精密開卷測試」
如果把 FACTS Grounding 做個比喻,可以說是給 AI 的 「超精密開卷測試」。這就像我們考試時把教科書放在旁邊尋找正確答案一樣。
測試方式如下:首先給 AI 一份非常長的文檔(最高達 32,000 標記,約相當於一本書的大部分內容)。然後拋出要求根據該文檔內容進行詳細回答的問題FACTS Grounding 排行榜:基準測試 LLM 的 Grounding 能力…。AI 必須讀完這篇長文,並且不能根據自己已有的知識,而是必須 僅在提供的文檔中 尋找根據來撰寫回答FACTS Grounding 排行榜 - llm-stats.com。
在此過程中,核心在於以下兩點:
- Grounding (根據,明確提供回答的根據):回答的所有內容是否都基於提供的輸入資訊?FACTS Grounding - 評估 Grounding 的尖端基準…
- 防止幻覺:是否沒有隨意編造文檔中不存在的內容?FACTS Grounding:評估事實性的新基準…
透過由總共 1,719 個示例問題組成的測試,非常細緻地考驗 AI 的「真實性」。
誰來評分?「由 AI 教授組成的評審團」
令人驚訝的是,這項嚴苛測試的評分並非由人工直接完成。Google DeepMind 團隊任命了三款頂尖 AI 模型作為「評審」。
- Google 的 Gemini 1.5 Pro
- OpenAI 的 GPT-4o
- Anthropic 的 Claude 3.5 Sonnet
這三位「AI 教授」組成一個團隊,自動評估其他 AI 給出的回答與文檔的一致程度,或者是否夾雜了謊言FACTS Grounding:評估事實性的新基準…。透過讓不同公司的最高性能模型進行交叉驗證,提高了評估的公正性和準確性。這相當於讓 AI 精密且迅速地處理了如果由人工評分可能需要數月時間的海量數據。
現況:即時公開的 AI 成績單
不只是公開了試卷。Google DeepMind 還建立了 「在線排行榜 (Leaderboard)」,即時顯示全球各種 AI 模型在這項測試中獲得了多少分FACTS Grounding:評估事實性的新基準…。
透過這個排行榜,任何人都可以確認哪款模型更擅長總結資訊,哪款模型產生的幻覺現象更少FACTS Grounding 排行榜:基準測試 LLM 的 Grounding 能力…。這不僅僅是排名,更將成為未來企業選擇最適合其目的、最準確 AI 的客觀標準。
未來展望:從「智慧」轉向「信任」
Google DeepMind 的 FACTS 團隊解釋說,該項目是「為了測量 AI 模型多大程度上準確利用來源資料並避免虛假資訊,而迫切需要的工具」FACTS Grounding:評估事實性的新基準…。
未來,AI 開發商為了在這個排行榜上獲得更高分數,將會投入更多努力在提高「基於事實的準確性」上,而不僅僅是讓語句變得流暢FACTS 基準套件提升了 LLM 事實性審查。最終,當我們使用的聊天機器人在該說「不知道」時誠實地說不知道,在說「這是事實」時能同時提供可信的根據,我們距離這樣的目標又近了一步。
AI 的視角
MindTickleBytes AI 記者的視角 如果說到目前為止的 AI 是「口才流利的社交朋友」,那麼現在就是該轉變為「憑據說話的嚴謹專家」的時候了。我認為 FACTS Grounding 開始為 AI 的「誠實度」而非僅是智慧評分,是展現技術成熟度的指標。未來,市場的主流將不再只是聰明的 AI,而是用戶可以放心交付任務的「負責任的 AI」。
參考資料
- FACTS Grounding:評估事實性的新基準…
- FACTS Grounding:評估事實性的新基準…
- FACTS Grounding:評估事實性的新基準…
- FELM:基準測試大型語言模型的事實性評估。神經資訊處理系統進展,36, 2024b。
- FACTS 基準套件推出以評估事實… - InfoQ
- FACTS Grounding - 評估 Grounding 的尖端基準…
- FACTS Grounding:評估事實性的新基準…
- FACTS Grounding 排行榜:基準測試 LLM 的 Grounding 能力…
- FACTS Grounding 排行榜 - llm-stats.com
- FACTS Grounding:評估大型語言模型事實性的新基準…
- 在 AI 中評估事實準確性:語言模型的新基準
- FACTS 基準套件提升了 LLM 事實性審查
- Gemini 1.5 Pro
- Llama 3
- Claude 3.5 Sonnet
- 1,000 標記 (Tokens)
- 10,000 標記 (Tokens)
- 32,000 標記 (Tokens)
- 深偽 (Deepfake)
- 幻覺 (Hallucination)
- 過擬合 (Overfitting)