Google 公布了「FACTS Grounding」基準測試,旨在衡量 AI 根據提供文件回答問題的準確度,為 AI 可信度樹立了新標準。
請試想一下。 您在公司接到一項重要專案,並收到了一份超過 100 頁的厚重報告。內容多到讓人眼花撩亂,時間緊迫的您向 AI 發出求救:「請根據這份報告內容,幫我整理出 5 個核心戰略。」
片刻後,AI 給出了一個非常整潔且邏輯清晰的回答。語氣充滿自信,句子流暢。但您的腦海中突然閃過一個疑問:「這些內容真的在報告裡嗎?該不會是 AI 編造出來的吧?」
這種焦慮並非杞人憂天。雖然最新的 AI 模型徹底改變了我們搜尋和利用資訊的方式,但它們依然無法擺脫會說錯事實的 「幻覺現象(Hallucination)」。簡單來說,就是 AI 不會說「我不知道」,而是像在說真話一樣流利地撒謊 Source 3。
為了縮小這個問題,Google 的 FACTS 團隊與數據科學平台 Kaggle 聯手出擊。他們推出的解決方案正是名為 「FACTS Grounding」 的全新 AI 試卷,即基準測試(Benchmark,用於衡量性能的標準試卷) Source 14。
事實查核為什麼如此重要?
如果我們要將 AI 當作商業夥伴來信任與使用,AI 所說的話不能僅止於「流利」,更必須能夠驗證是否為「真實」。然而,到目前為止的 AI 測試大多停留在摘要短句或回答常識測驗的程度,並不足以確認 AI 是否真的能從龐大的資訊森林中摘取正確的果實 Source 15。
比喻來說,以前我們看的是 AI「說話多漂亮」,現在則開始要求它「像法庭證人一樣只說真話」。在分析法律文件或搜尋攸關生命的醫學資訊時,如果 AI 將錯誤資訊當作事實來說,即使只有一字之差,也可能導致可怕的後果。Google 與 Kaggle 這次推出的 FACTS 基準測試套件(Suite)正是為了填補這種「事實準確度」的漏洞而設計的嚴格評核系統 Source 14。
輕鬆理解:什麼是 FACTS Grounding?
簡單來說,FACTS Grounding 是為 AI 準備的 「地獄級開卷考試」。它不是要 AI 寫下背誦的東西,而是要求 AI 必須僅在提供的書籍內容中尋找答案的高難度測驗。
1. 超級厚重的參考書 (Long Context)
如果一般的 AI 測試是隨堂小測驗,那麼 FACTS Grounding 就如同丟給 AI 一整本專業書籍。這項基準測試會提供給 AI 高達 32,000 個 Token(Token,AI 處理文字的最小單位) 的文件 Source 10。
這是什麼概念?以一般的 A4 紙計算,約相當於 60 到 80 頁的龐大份量。AI 必須從頭到尾精讀這份長文件,並針對使用者刁鑽的提問給出非常詳盡的回答 Source 12。
2. 「Grounding(紮根)」這項絕對規則
這裡的核心在於 Grounding(紮根,指根據提供的資料來源進行回答的能力)。這等同於對 AI 下令:「暫時放下你的常識,只用這份文件裡寫的內容來說話!」如果文件裡寫著「蘋果是紅的」,但 AI 卻利用其外部知識回答「蘋果也可能是綠的」,在這個考試中即便 AI 說的是對的,也會被判定為「錯誤」。沒有根據的回答將會被無情地淘汰。
3. 三位挑剔的 AI 裁判
這項測驗最有趣的地方在於,並非由人類逐一評分,而是由被譽為業界最強大腦的三位「AI 裁判」負責評分 Source 1。
- Google 的驕傲 Gemini 1.5 Pro
- OpenAI 的王牌 GPT-4o
- Anthropic 的模範生 Claude 3.5 Sonnet
這三個模型組成一個團隊,像拿著顯微鏡一樣審查其他 AI 給出的答案。它們會徹底檢查每一句話是根據原始文件的第幾頁、第幾行,以及是否有任何巧妙編造的言詞 Source 1。這就像是三位嚴謹的教授共同審閱研究生的論文一樣。
現況:卡在「70% 之牆」的 AI 智慧
透過這份新試卷對目前頂尖 AI 模型進行測試後,公布了一份相當令人震撼的成績單。那就是 「70% 事實準確度天花板(Ceiling)」 現象 Source 14。
請思考一下。 您會把重要工作交給一位 10 個事實中會說錯 3 個的秘書嗎?在日常對話中,AI 或許看起來很完美,但在需要根據資訊密集的長文件給出精確回答的「實戰」情況下,即便再優秀的 AI 似乎都卡在約 70% 的準確度關卡。
這證明了 AI 在複雜脈絡中依然難以抓緊「事實」的絲線。這項由總計 1,719 個範例問題組成的基準測試 Source 12,目前正透過「FACTS Grounding 排行榜」即時公開成績,透明地揭示了技術的侷限 Source 10。
展望未來:邁向更誠實的 AI
Google FACTS 團隊表示,此次基準測試的發布將成為「縮小 AI 事實準確度差距的重要里程碑」 Source 14。現在我們可以期待以下變化:
- 真正可信的工作夥伴:一旦企業引進了通過這項嚴格測試的 AI,AI 將在法律、金融等不容許絲毫誤差的領域正式大顯身手。
- 以「真實性」為中心的技術戰爭:現在 AI 企業不能只是單純主張「我們更聰明」,而必須透過「我們的模型在 FACTS Grounding 中獲得了 90%」等具體成績單來證明信任。
- 幻覺現象的終結?:有了嚴格的評分標準,開發者們將會更激烈地研究抑制幻覺現象的技術。因為只要撒謊,立刻就會被系統揪出來 Source 15。
AI 觀點:MindTickleBytes AI 記者之見
讓 AI 變誠實比讓它變聰明更難。FACTS Grounding 開始對 AI 進行強力管教:「不要不懂裝懂,必須完全基於根據說話。」目前 70% 的成績單並非羞辱,而是展示了我們未來需要征服的「信任領土」是多麼廣闊的一張挑戰狀。期待不久的將來,能遇見只說 99% 真話的 AI 夥伴。
參考資料
- FACTS Grounding:評估大型語言模型事實性的全新基準測試
- FACTS Grounding 排行榜:基準測試 LLM 生成事實準確且基於上下文文本的能力
- FACTS Grounding:評估事實性的全新基準測試 (LinkedIn)
- 70% 事實性天花板:為什麼 Google 的新「FACTS」基準測試是一個警鐘 (VentureBeat)
- FACTS Grounding 排行榜 - llm-stats.com
- FACTS Grounding 基準測試概覽 - api.emergentmind.com
- FACTS 基準測試套件推出以評估 LLM 的事實準確性 - InfoQ
事實查核摘要
- 查核主張數:13
- 驗證主張數:13
- 結論:通過 (PASS)
- 人類專家小組
- Gemini、GPT、Claude 等頂尖 AI 模型
- Google 的搜尋演算法
- 約 500 個單字
- 最高 32,000 個 Token(約 60~80 頁的份量)
- 無限制
- 99%
- 90%
- 70%