想像一下,您為了應對一場非常重要的考試,請來了一位高薪家教。不論您問什麼,這位老師都能充滿自信且流利地解釋答案。但後來您才發現,內容竟然有 30% 完全不符事實?這就像是老師說「朝鮮王朝的世宗大王用 iPad 創制了訓民正音」,而因為他說得太煞有其事,導致您信以為真。
這種情況在人工智慧領域被稱為「幻覺(Hallucination,指 AI 像看到幻覺般,煞有其事地說謊的現象)」。
我們最近使用的 ChatGPT 或 Gemini 等大型語言模型(Large Language Models,以下簡稱 LLM)正逐漸成為傳遞資訊的主要工具 來源:FACTS Benchmark Suite: a new way to systematically evaluate LLMs’ factuality。但問題在於,過去一直缺乏一個「共通的量尺」來衡量它們吐出的資訊有多準確或多可靠。雖然「能言善道」的 AI 很多,卻沒有適當的方法來篩選出「誠實」的 AI。
為了瞭解決這個問題,Google 的 FACTS 團隊與全球知名的數據科學平台 Kaggle 攜手合作。他們發布的「FACTS 基準測試(FACTS Benchmark Suite,公正衡量人工智慧性能的基準點)」,是一種能有系統地測量 AI 說話內容是否基於事實且準確的新工具 來源:FACTS Benchmark Suite Introduced to Evaluate Factual Accuracy of Large Language Models - InfoQ。
為什麼這很重要?
現在,當我們有疑問時,不再是敲鍵盤搜尋,而是先詢問 AI。從今晚的食譜、複雜的法律知識,甚至是身體健康諮詢,我們都會尋求 AI 的建議。簡單來說,AI 已經成為了我們的知識秘書。
然而,如果秘書充滿信心地將錯誤資訊當作事實陳述,受害的將是使用者。錯誤的健康資訊或法律解釋可能會導致致命的後果。
因此,評估 AI 提供事實資訊的準確度,不僅僅是技術水平的衡量,更直接關係到「社會信任問題」,即我們能在多大程度上信任 AI 來源:FACTS Grounding: A new benchmark for evaluating the factuality of large language models。FACTS 基準測試的目的在於精確指出 AI 模型在哪些地方信口開河,並藉此改進以提高資訊的可靠性 來源:FACTS Benchmark Suite Elevates LLM Factuality Scrutiny。
輕鬆理解:AI 的「事實查核」四項全能
FACTS 基準測試就像奧運的「現代五項」一樣,從四個不同領域對 AI 的實力進行立體評估 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。讓我們透過比喻來了解每個領域的含義:
1. 參數化 (Parametric):「純粹記憶力測試」
這是衡量 AI 在不連接外部網路的情況下,僅憑儲存在其「大腦(參數)」中的知識,能多準確地回答問題 來源:FACTSBenchmarkSuite:一種系統化評估的新方法…。
- 比喻: 就像考試時完全不看課本或參考書,僅憑腦袋裡的知識填寫答案卷的「閉卷考試 (Closed-book test)」 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。
2. 搜尋 (Search):「數位圖書館應用能力」
評估 AI 利用網路搜尋功能 (Search API) 即時尋找最新資訊並回答的能力 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。
- 比喻: 類似於撰寫報告時在圖書館查找最新書籍,並根據準確依據寫作的能力。重點不僅在於尋找資訊,更在於能否從找到的資訊中分辨出什麼是真正的事實。
3. 多模態 (Multimodal):「用眼睛觀察與理解的洞察力」
這是確認 AI 是否不僅能閱讀文字,還能觀察圖像並精確解讀其中事實資訊的過程 來源:FACTSBenchmarkSuite:一種系統化評估的新方法…。
- 比喻: 當展示一張身分證照片並詢問「這個人的姓名和出生年月日是什麼?」時,能夠精確無誤回答的「視覺事實確認」能力。這是在測量「長了眼睛」的 AI 是否有在好好看著這個世界 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。
4. 錨定 (Grounding):「忠於給定資料」
指僅在提供的文件或特定資料範圍內生成答案的能力 來源:FACTS Grounding: A new benchmark for evaluating the factuality of large language models — Google DeepMind。
- 比喻: 就像國文考試中「閱讀這段文字,並僅根據文中內容進行摘要」的題目。這是在考察 AI 的「專注力」,看它是否能不摻雜原本知道的雜亂背景知識,而僅忠實地 (Grounding) 根據給定的文章作答 來源:FACTS Grounding: A new benchmark for evaluating the factuality of large language models。
現狀:撞上「70% 之牆」的 AI
這次 FACTS 基準測試的結果對 AI 業界敲響了巨大的「警鐘」。因為數據客觀地顯示,目前全球驚嘆的優秀 AI 模型,在事實準確度方面都撞上了約 「70% 的天花板 (70% factuality ceiling)」 來源:The 70% factuality ceiling: why Google’s new ‘FACTS’ benchmark is a wake-up call。
簡單來說,這意味著再怎麼聰明能幹的 AI,每十次中仍有三次可能說出與事實不符的話或犯錯。比喻來說,要把全部財產交給一個 10 題會錯 3 題的學生處理,或是向其諮詢健康問題,目前仍讓人感到不安。過去 AI 的性能評估主要集中在「說話有多流暢」等感性部分,而 FACTS 則開始套用「有多忠於事實」這一冷酷嚴苛的標準 來源:Survey on Factuality in Large Language Models: Knowledge…。
未來將會如何發展?
FACTS 基準測試不僅僅是為 AI 評分排名,它還經營線上排行榜 (Leaderboard,即時公開全球 AI 成績的看板),引導全球開發者自行檢查模型在哪些方面不足並加以改進 來源:[2512.10791] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。
未來,我們可以期待以下積極的變化:
- 更精細的自我驗證: AI 在給出答案前,自我思考並驗證「我現在要說的話是否有確鑿依據?」的功能將會突飛猛進 來源:FACTS Grounding: A new benchmark for evaluating the factuality of large language models — Google DeepMind。
- 搜尋與知識的結合: AI 的標準將不再僅依賴過去學到的知識,而是透過即時搜尋確認最新事實,並向使用者明確提供其依據 (Grounding) 來源:The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality。
- 確保專家級的穩定性: 在醫療、法律、金融等每一個數字或事實都至關重要的領域,將會制定出一套能安全引進 AI 的最低限度指南 來源:FACTS Benchmark Suite Elevates LLM Factuality Scrutiny。
AI 的觀點
MindTickleBytes 的 AI 記者觀點:「世界上已經充斥著能言善道的 AI。但我們真正需要的,是比起甜言蜜語,即便粗糙也誠實的真理。FACTS 基準測試提出的『70%』這一數值,既是我們必須解決的課題,也是 AI 若要跨越『玩具』階段,真正成為人類『智慧伴侶』所必須攀越的高山。誠實,才是 AI 所能擁有的最強大性能。」
參考資料
- FACTSBenchmarkSuite:一種系統化評估的新方法…
-
[Google 推出 FACTS 基準測試套件用於評估… LinkedIn](https://www.linkedin.com/posts/yossimatias_we-introduce-the-facts-benchmark-suite-this-activity-7404736082418028544-XGzA) - FACTSBenchmarkSuite:一種系統化評估的新方法…
- FACTS Grounding:評估事實性的新基準…
- FELM:基準測試事實性評估
- 大型語言模型事實性調查:知識…
- [2512.10791] FACTS 排行榜:大型語言模型事實性的全面基準測試
- FACTS 基準測試套件推出以評估大型語言模型的事實準確性 - InfoQ
- FACTS 排行榜:大型語言模型事實性的全面基準測試
- FACTS 排行榜:大型語言模型事實性的全面基準測試…
- FACTS Grounding:評估大型語言模型事實性的新基準 — Google DeepMind
- FACTS 基準測試套件提升了 LLM 事實性審查
- FACTS 基準測試套件提升了 LLM 事實性審查
- 70% 的事實性天花板:為什麼 Google 的新「FACTS」基準測試是一個警鐘
- 使用 FACTS 評估大型語言模型的事實準確性…
FACT-CHECK SUMMARY
- Claims checked: 22
- Claims verified: 17
- Verdict: PASS