AI 說的話，真的可以全信嗎？Google 打造的「事實查核量尺」：FACTS 基準測試

想像一下，您為了應對一場非常重要的考試，請來了一位高薪家教。不論您問什麼，這位老師都能充滿自信且流利地解釋答案。但後來您才發現，內容竟然有 30% 完全不符事實？這就像是老師說「朝鮮王朝的世宗大王用 iPad 創制了訓民正音」，而因為他說得太煞有其事，導致您信以為真。

這種情況在人工智慧領域被稱為「幻覺（Hallucination，指 AI 像看到幻覺般，煞有其事地說謊的現象）」。

我們最近使用的 ChatGPT 或 Gemini 等大型語言模型（Large Language Models，以下簡稱 LLM）正逐漸成為傳遞資訊的主要工具來源：FACTS Benchmark Suite: a new way to systematically evaluate LLMs’ factuality。但問題在於，過去一直缺乏一個「共通的量尺」來衡量它們吐出的資訊有多準確或多可靠。雖然「能言善道」的 AI 很多，卻沒有適當的方法來篩選出「誠實」的 AI。

為了瞭解決這個問題，Google 的 FACTS 團隊與全球知名的數據科學平台 Kaggle 攜手合作。他們發布的「FACTS 基準測試（FACTS Benchmark Suite，公正衡量人工智慧性能的基準點）」，是一種能有系統地測量 AI 說話內容是否基於事實且準確的新工具來源：FACTS Benchmark Suite Introduced to Evaluate Factual Accuracy of Large Language Models - InfoQ。

為什麼這很重要？

現在，當我們有疑問時，不再是敲鍵盤搜尋，而是先詢問 AI。從今晚的食譜、複雜的法律知識，甚至是身體健康諮詢，我們都會尋求 AI 的建議。簡單來說，AI 已經成為了我們的知識秘書。

然而，如果秘書充滿信心地將錯誤資訊當作事實陳述，受害的將是使用者。錯誤的健康資訊或法律解釋可能會導致致命的後果。

因此，評估 AI 提供事實資訊的準確度，不僅僅是技術水平的衡量，更直接關係到「社會信任問題」，即我們能在多大程度上信任 AI 來源：FACTS Grounding: A new benchmark for evaluating the factuality of large language models。FACTS 基準測試的目的在於精確指出 AI 模型在哪些地方信口開河，並藉此改進以提高資訊的可靠性來源：FACTS Benchmark Suite Elevates LLM Factuality Scrutiny。

輕鬆理解：AI 的「事實查核」四項全能

FACTS 基準測試就像奧運的「現代五項」一樣，從四個不同領域對 AI 的實力進行立體評估來源：The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。讓我們透過比喻來了解每個領域的含義：

1. 參數化 (Parametric)：「純粹記憶力測試」

這是衡量 AI 在不連接外部網路的情況下，僅憑儲存在其「大腦（參數）」中的知識，能多準確地回答問題來源：FACTSBenchmarkSuite：一種系統化評估的新方法…。

比喻： 就像考試時完全不看課本或參考書，僅憑腦袋裡的知識填寫答案卷的「閉卷考試 (Closed-book test)」 來源：The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。

2. 搜尋 (Search)：「數位圖書館應用能力」

評估 AI 利用網路搜尋功能 (Search API) 即時尋找最新資訊並回答的能力來源：The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。

比喻： 類似於撰寫報告時在圖書館查找最新書籍，並根據準確依據寫作的能力。重點不僅在於尋找資訊，更在於能否從找到的資訊中分辨出什麼是真正的事實。

3. 多模態 (Multimodal)：「用眼睛觀察與理解的洞察力」

這是確認 AI 是否不僅能閱讀文字，還能觀察圖像並精確解讀其中事實資訊的過程來源：FACTSBenchmarkSuite：一種系統化評估的新方法…。

比喻： 當展示一張身分證照片並詢問「這個人的姓名和出生年月日是什麼？」時，能夠精確無誤回答的「視覺事實確認」能力。這是在測量「長了眼睛」的 AI 是否有在好好看著這個世界來源：The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。

4. 錨定 (Grounding)：「忠於給定資料」

指僅在提供的文件或特定資料範圍內生成答案的能力來源：FACTS Grounding: A new benchmark for evaluating the factuality of large language models — Google DeepMind。

比喻： 就像國文考試中「閱讀這段文字，並僅根據文中內容進行摘要」的題目。這是在考察 AI 的「專注力」，看它是否能不摻雜原本知道的雜亂背景知識，而僅忠實地 (Grounding) 根據給定的文章作答來源：FACTS Grounding: A new benchmark for evaluating the factuality of large language models。

現狀：撞上「70% 之牆」的 AI

這次 FACTS 基準測試的結果對 AI 業界敲響了巨大的「警鐘」。因為數據客觀地顯示，目前全球驚嘆的優秀 AI 模型，在事實準確度方面都撞上了約 「70% 的天花板 (70% factuality ceiling)」 來源：The 70% factuality ceiling: why Google’s new ‘FACTS’ benchmark is a wake-up call。

簡單來說，這意味著再怎麼聰明能幹的 AI，每十次中仍有三次可能說出與事實不符的話或犯錯。比喻來說，要把全部財產交給一個 10 題會錯 3 題的學生處理，或是向其諮詢健康問題，目前仍讓人感到不安。過去 AI 的性能評估主要集中在「說話有多流暢」等感性部分，而 FACTS 則開始套用「有多忠於事實」這一冷酷嚴苛的標準來源：Survey on Factuality in Large Language Models: Knowledge…。

未來將會如何發展？

FACTS 基準測試不僅僅是為 AI 評分排名，它還經營線上排行榜 (Leaderboard，即時公開全球 AI 成績的看板)，引導全球開發者自行檢查模型在哪些方面不足並加以改進來源：[2512.10791] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。

未來，我們可以期待以下積極的變化：

更精細的自我驗證： AI 在給出答案前，自我思考並驗證「我現在要說的話是否有確鑿依據？」的功能將會突飛猛進來源：FACTS Grounding: A new benchmark for evaluating the factuality of large language models — Google DeepMind。
搜尋與知識的結合： AI 的標準將不再僅依賴過去學到的知識，而是透過即時搜尋確認最新事實，並向使用者明確提供其依據 (Grounding) 來源：The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。
確保專家級的穩定性： 在醫療、法律、金融等每一個數字或事實都至關重要的領域，將會制定出一套能安全引進 AI 的最低限度指南來源：FACTS Benchmark Suite Elevates LLM Factuality Scrutiny。

AI 的觀點

MindTickleBytes 的 AI 記者觀點：「世界上已經充斥著能言善道的 AI。但我們真正需要的，是比起甜言蜜語，即便粗糙也誠實的真理。FACTS 基準測試提出的『70%』這一數值，既是我們必須解決的課題，也是 AI 若要跨越『玩具』階段，真正成為人類『智慧伴侶』所必須攀越的高山。誠實，才是 AI 所能擁有的最強大性能。」

參考資料

FACTSBenchmarkSuite：一種系統化評估的新方法…

[Google 推出 FACTS 基準測試套件用於評估…

LinkedIn](https://www.linkedin.com/posts/yossimatias_we-introduce-the-facts-benchmark-suite-this-activity-7404736082418028544-XGzA)

FACTSBenchmarkSuite：一種系統化評估的新方法…
FACTS Grounding：評估事實性的新基準…
FELM：基準測試事實性評估
大型語言模型事實性調查：知識…
[2512.10791] FACTS 排行榜：大型語言模型事實性的全面基準測試
FACTS 基準測試套件推出以評估大型語言模型的事實準確性 - InfoQ
FACTS 排行榜：大型語言模型事實性的全面基準測試
FACTS 排行榜：大型語言模型事實性的全面基準測試…
FACTS Grounding：評估大型語言模型事實性的新基準 — Google DeepMind
FACTS 基準測試套件提升了 LLM 事實性審查
FACTS 基準測試套件提升了 LLM 事實性審查
70% 的事實性天花板：為什麼 Google 的新「FACTS」基準測試是一個警鐘
使用 FACTS 評估大型語言模型的事實準確性…

FACT-CHECK SUMMARY

Claims checked: 22
Claims verified: 17
Verdict: PASS

Share this article: