AI 說的話,真的可以全信嗎?Google 打造的「事實查核量尺」:FACTS 基準測試

想像一下,您為了應對一場非常重要的考試,請來了一位高薪家教。不論您問什麼,這位老師都能充滿自信且流利地解釋答案。但後來您才發現,內容竟然有 30% 完全不符事實?這就像是老師說「朝鮮王朝的世宗大王用 iPad 創制了訓民正音」,而因為他說得太煞有其事,導致您信以為真。

這種情況在人工智慧領域被稱為「幻覺(Hallucination,指 AI 像看到幻覺般,煞有其事地說謊的現象)」

我們最近使用的 ChatGPT 或 Gemini 等大型語言模型(Large Language Models,以下簡稱 LLM)正逐漸成為傳遞資訊的主要工具 來源:FACTS Benchmark Suite: a new way to systematically evaluate LLMs’ factuality。但問題在於,過去一直缺乏一個「共通的量尺」來衡量它們吐出的資訊有多準確或多可靠。雖然「能言善道」的 AI 很多,卻沒有適當的方法來篩選出「誠實」的 AI。

為了瞭解決這個問題,Google 的 FACTS 團隊與全球知名的數據科學平台 Kaggle 攜手合作。他們發布的「FACTS 基準測試(FACTS Benchmark Suite,公正衡量人工智慧性能的基準點)」,是一種能有系統地測量 AI 說話內容是否基於事實且準確的新工具 來源:FACTS Benchmark Suite Introduced to Evaluate Factual Accuracy of Large Language Models - InfoQ

為什麼這很重要?

現在,當我們有疑問時,不再是敲鍵盤搜尋,而是先詢問 AI。從今晚的食譜、複雜的法律知識,甚至是身體健康諮詢,我們都會尋求 AI 的建議。簡單來說,AI 已經成為了我們的知識秘書。

然而,如果秘書充滿信心地將錯誤資訊當作事實陳述,受害的將是使用者。錯誤的健康資訊或法律解釋可能會導致致命的後果。

因此,評估 AI 提供事實資訊的準確度,不僅僅是技術水平的衡量,更直接關係到「社會信任問題」,即我們能在多大程度上信任 AI 來源:FACTS Grounding: A new benchmark for evaluating the factuality of large language models。FACTS 基準測試的目的在於精確指出 AI 模型在哪些地方信口開河,並藉此改進以提高資訊的可靠性 來源:FACTS Benchmark Suite Elevates LLM Factuality Scrutiny

輕鬆理解:AI 的「事實查核」四項全能

FACTS 基準測試就像奧運的「現代五項」一樣,從四個不同領域對 AI 的實力進行立體評估 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。讓我們透過比喻來了解每個領域的含義:

1. 參數化 (Parametric):「純粹記憶力測試」

這是衡量 AI 在不連接外部網路的情況下,僅憑儲存在其「大腦(參數)」中的知識,能多準確地回答問題 來源:FACTSBenchmarkSuite:一種系統化評估的新方法…

2. 搜尋 (Search):「數位圖書館應用能力」

評估 AI 利用網路搜尋功能 (Search API) 即時尋找最新資訊並回答的能力 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

  • 比喻: 類似於撰寫報告時在圖書館查找最新書籍,並根據準確依據寫作的能力。重點不僅在於尋找資訊,更在於能否從找到的資訊中分辨出什麼是真正的事實。

3. 多模態 (Multimodal):「用眼睛觀察與理解的洞察力」

這是確認 AI 是否不僅能閱讀文字,還能觀察圖像並精確解讀其中事實資訊的過程 來源:FACTSBenchmarkSuite:一種系統化評估的新方法…

4. 錨定 (Grounding):「忠於給定資料」

指僅在提供的文件或特定資料範圍內生成答案的能力 來源:FACTS Grounding: A new benchmark for evaluating the factuality of large language models — Google DeepMind

現狀:撞上「70% 之牆」的 AI

這次 FACTS 基準測試的結果對 AI 業界敲響了巨大的「警鐘」。因為數據客觀地顯示,目前全球驚嘆的優秀 AI 模型,在事實準確度方面都撞上了約 「70% 的天花板 (70% factuality ceiling)」 來源:The 70% factuality ceiling: why Google’s new ‘FACTS’ benchmark is a wake-up call

簡單來說,這意味著再怎麼聰明能幹的 AI,每十次中仍有三次可能說出與事實不符的話或犯錯。比喻來說,要把全部財產交給一個 10 題會錯 3 題的學生處理,或是向其諮詢健康問題,目前仍讓人感到不安。過去 AI 的性能評估主要集中在「說話有多流暢」等感性部分,而 FACTS 則開始套用「有多忠於事實」這一冷酷嚴苛的標準 來源:Survey on Factuality in Large Language Models: Knowledge…

未來將會如何發展?

FACTS 基準測試不僅僅是為 AI 評分排名,它還經營線上排行榜 (Leaderboard,即時公開全球 AI 成績的看板),引導全球開發者自行檢查模型在哪些方面不足並加以改進 來源:[2512.10791] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

未來,我們可以期待以下積極的變化:

  1. 更精細的自我驗證: AI 在給出答案前,自我思考並驗證「我現在要說的話是否有確鑿依據?」的功能將會突飛猛進 來源:FACTS Grounding: A new benchmark for evaluating the factuality of large language models — Google DeepMind
  2. 搜尋與知識的結合: AI 的標準將不再僅依賴過去學到的知識,而是透過即時搜尋確認最新事實,並向使用者明確提供其依據 (Grounding) 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
  3. 確保專家級的穩定性: 在醫療、法律、金融等每一個數字或事實都至關重要的領域,將會制定出一套能安全引進 AI 的最低限度指南 來源:FACTS Benchmark Suite Elevates LLM Factuality Scrutiny

AI 的觀點

MindTickleBytes 的 AI 記者觀點:「世界上已經充斥著能言善道的 AI。但我們真正需要的,是比起甜言蜜語,即便粗糙也誠實的真理。FACTS 基準測試提出的『70%』這一數值,既是我們必須解決的課題,也是 AI 若要跨越『玩具』階段,真正成為人類『智慧伴侶』所必須攀越的高山。誠實,才是 AI 所能擁有的最強大性能。」


參考資料

  1. FACTSBenchmarkSuite:一種系統化評估的新方法…
  2. [Google 推出 FACTS 基準測試套件用於評估… LinkedIn](https://www.linkedin.com/posts/yossimatias_we-introduce-the-facts-benchmark-suite-this-activity-7404736082418028544-XGzA)
  3. FACTSBenchmarkSuite:一種系統化評估的新方法…
  4. FACTS Grounding:評估事實性的新基準…
  5. FELM:基準測試事實性評估
  6. 大型語言模型事實性調查:知識…
  7. [2512.10791] FACTS 排行榜:大型語言模型事實性的全面基準測試
  8. FACTS 基準測試套件推出以評估大型語言模型的事實準確性 - InfoQ
  9. FACTS 排行榜:大型語言模型事實性的全面基準測試
  10. FACTS 排行榜:大型語言模型事實性的全面基準測試…
  11. FACTS Grounding:評估大型語言模型事實性的新基準 — Google DeepMind
  12. FACTS 基準測試套件提升了 LLM 事實性審查
  13. FACTS 基準測試套件提升了 LLM 事實性審查
  14. 70% 的事實性天花板:為什麼 Google 的新「FACTS」基準測試是一個警鐘
  15. 使用 FACTS 評估大型語言模型的事實準確性…

FACT-CHECK SUMMARY

  • Claims checked: 22
  • Claims verified: 17
  • Verdict: PASS