AI 的流利謊言即將終結？Google 公布嚴格評分員「FACTS Grounding」

AI Summary

Google 公布了「FACTS Grounding」基準測試，旨在衡量 AI 根據提供文件回答問題的準確度，為 AI 可信度樹立了新標準。

請試想一下。 您在公司接到一項重要專案，並收到了一份超過 100 頁的厚重報告。內容多到讓人眼花撩亂，時間緊迫的您向 AI 發出求救：「請根據這份報告內容，幫我整理出 5 個核心戰略。」

片刻後，AI 給出了一個非常整潔且邏輯清晰的回答。語氣充滿自信，句子流暢。但您的腦海中突然閃過一個疑問：「這些內容真的在報告裡嗎？該不會是 AI 編造出來的吧？」

這種焦慮並非杞人憂天。雖然最新的 AI 模型徹底改變了我們搜尋和利用資訊的方式，但它們依然無法擺脫會說錯事實的 「幻覺現象（Hallucination）」。簡單來說，就是 AI 不會說「我不知道」，而是像在說真話一樣流利地撒謊 Source 3。

為了縮小這個問題，Google 的 FACTS 團隊與數據科學平台 Kaggle 聯手出擊。他們推出的解決方案正是名為 「FACTS Grounding」 的全新 AI 試卷，即基準測試（Benchmark，用於衡量性能的標準試卷） Source 14。

事實查核為什麼如此重要？

如果我們要將 AI 當作商業夥伴來信任與使用，AI 所說的話不能僅止於「流利」，更必須能夠驗證是否為「真實」。然而，到目前為止的 AI 測試大多停留在摘要短句或回答常識測驗的程度，並不足以確認 AI 是否真的能從龐大的資訊森林中摘取正確的果實 Source 15。

比喻來說，以前我們看的是 AI「說話多漂亮」，現在則開始要求它「像法庭證人一樣只說真話」。在分析法律文件或搜尋攸關生命的醫學資訊時，如果 AI 將錯誤資訊當作事實來說，即使只有一字之差，也可能導致可怕的後果。Google 與 Kaggle 這次推出的 FACTS 基準測試套件（Suite）正是為了填補這種「事實準確度」的漏洞而設計的嚴格評核系統 Source 14。

輕鬆理解：什麼是 FACTS Grounding？

簡單來說，FACTS Grounding 是為 AI 準備的 「地獄級開卷考試」。它不是要 AI 寫下背誦的東西，而是要求 AI 必須僅在提供的書籍內容中尋找答案的高難度測驗。

1. 超級厚重的參考書 (Long Context)

如果一般的 AI 測試是隨堂小測驗，那麼 FACTS Grounding 就如同丟給 AI 一整本專業書籍。這項基準測試會提供給 AI 高達 32,000 個 Token（Token，AI 處理文字的最小單位） 的文件 Source 10。

這是什麼概念？以一般的 A4 紙計算，約相當於 60 到 80 頁的龐大份量。AI 必須從頭到尾精讀這份長文件，並針對使用者刁鑽的提問給出非常詳盡的回答 Source 12。

2. 「Grounding（紮根）」這項絕對規則

這裡的核心在於 Grounding（紮根，指根據提供的資料來源進行回答的能力）。這等同於對 AI 下令：「暫時放下你的常識，只用這份文件裡寫的內容來說話！」如果文件裡寫著「蘋果是紅的」，但 AI 卻利用其外部知識回答「蘋果也可能是綠的」，在這個考試中即便 AI 說的是對的，也會被判定為「錯誤」。沒有根據的回答將會被無情地淘汰。

3. 三位挑剔的 AI 裁判

這項測驗最有趣的地方在於，並非由人類逐一評分，而是由被譽為業界最強大腦的三位「AI 裁判」負責評分 Source 1。

Google 的驕傲 Gemini 1.5 Pro
OpenAI 的王牌 GPT-4o
Anthropic 的模範生 Claude 3.5 Sonnet

這三個模型組成一個團隊，像拿著顯微鏡一樣審查其他 AI 給出的答案。它們會徹底檢查每一句話是根據原始文件的第幾頁、第幾行，以及是否有任何巧妙編造的言詞 Source 1。這就像是三位嚴謹的教授共同審閱研究生的論文一樣。

現況：卡在「70% 之牆」的 AI 智慧

透過這份新試卷對目前頂尖 AI 模型進行測試後，公布了一份相當令人震撼的成績單。那就是 「70% 事實準確度天花板（Ceiling）」 現象 Source 14。

請思考一下。 您會把重要工作交給一位 10 個事實中會說錯 3 個的秘書嗎？在日常對話中，AI 或許看起來很完美，但在需要根據資訊密集的長文件給出精確回答的「實戰」情況下，即便再優秀的 AI 似乎都卡在約 70% 的準確度關卡。

這證明了 AI 在複雜脈絡中依然難以抓緊「事實」的絲線。這項由總計 1,719 個範例問題組成的基準測試 Source 12，目前正透過「FACTS Grounding 排行榜」即時公開成績，透明地揭示了技術的侷限 Source 10。

展望未來：邁向更誠實的 AI

Google FACTS 團隊表示，此次基準測試的發布將成為「縮小 AI 事實準確度差距的重要里程碑」 Source 14。現在我們可以期待以下變化：

真正可信的工作夥伴：一旦企業引進了通過這項嚴格測試的 AI，AI 將在法律、金融等不容許絲毫誤差的領域正式大顯身手。
以「真實性」為中心的技術戰爭：現在 AI 企業不能只是單純主張「我們更聰明」，而必須透過「我們的模型在 FACTS Grounding 中獲得了 90%」等具體成績單來證明信任。
幻覺現象的終結？：有了嚴格的評分標準，開發者們將會更激烈地研究抑制幻覺現象的技術。因為只要撒謊，立刻就會被系統揪出來 Source 15。

AI 觀點：MindTickleBytes AI 記者之見

讓 AI 變誠實比讓它變聰明更難。FACTS Grounding 開始對 AI 進行強力管教：「不要不懂裝懂，必須完全基於根據說話。」目前 70% 的成績單並非羞辱，而是展示了我們未來需要征服的「信任領土」是多麼廣闊的一張挑戰狀。期待不久的將來，能遇見只說 99% 真話的 AI 夥伴。

參考資料

事實查核摘要

查核主張數：13
驗證主張數：13
結論：通過 (PASS)

Share this article:

測試你的理解

Q1. 在 FACTS Grounding 基準測試中，負責為 AI 答案評分的「裁判」是誰？

人類專家小組
Gemini、GPT、Claude 等頂尖 AI 模型
Google 的搜尋演算法

此基準測試利用 Gemini 1.5 Pro、GPT-4o 及 Claude 3.5 Sonnet 這三個強大的 AI 模型作為「裁判」，自動判定答案的真實性。

Q2. 在 FACTS Grounding 測試中，AI 一次需要閱讀的文件最大長度是多少？

約 500 個單字
最高 32,000 個 Token（約 60~80 頁的份量）
無限制

這份試卷要求 AI 閱讀最高達 32,000 個 Token 的龐大文件，並要求僅從中尋找答案。

Q3. 目前頂尖 AI 在此基準測試中表現出的事實準確度「天花板（極限）」大約是多少？

根據最新報告，目前的 AI 模型在處理複雜資訊時，事實準確度正卡在約 70% 的瓶頸。