不必等待 AI 吐出文字,透過直接確認模型內部數據狀態的「探測(Probing)」技術,我們可以更快速、更有效率地掌握 AI 的想法與事實核查。
想像一下。當我們問朋友「今天天氣如何?」時,如果能在朋友開口回答之前,就讀出他腦中浮現的想法,會是什麼樣的感覺?既不需要等待回答,甚至能立刻察覺對方是否準備撒謊。
最近,人工智慧(AI)領域中也出現了類似且引人注目的技術。這就是「探測(Probing)」技術,能直接窺探大型語言模型(LLM,如 ChatGPT 等大規模人工智慧模型)在生成文字之前的「內在思維(隱藏狀態,hidden state)」。
為什麼這項技術很重要?
到目前為止,我們確認 AI 想法的唯一方法就是讓 AI「開口」輸出文字。然而,從 AI 開口到輸出文字需要時間。最重要的是,當 AI 無意間編造事實,出現「幻覺(Hallucination)」時,我們往往是在 AI 完成錯誤回答之後才察覺到問題。
探測技術無需等待 AI 緩慢的生成過程,而是直接分析 AI 腦電路中流動的信號,即「數據狀態」。這為提高 AI 的可信度,以及更快速、準確地掌握特定資訊如何在 AI 內部進行處理開闢了途徑。
輕鬆理解:讀取 AI 大腦的濾鏡
若要簡單說明探測技術,它就像照片編輯 App 的「濾鏡」。在保持原始數據不變的情況下,加上特定濾鏡以凸顯我們想看的資訊(色調、亮度等)。
AI 模型由無數個層(layer)組成。數據通過這些層,逐漸理解複雜的概念。研究人員會在 AI 輸出最終回答之前,即模型中間深度處(大約通過 70% 的位置)「攔截」其數據狀態 [Source 8, Source 9]。接著,將這些數據傳送到稱為「探測器(Probe)」的小型分析器(主要是邏輯迴歸等簡單分類器)中進行處理 [Source 2]。
如此一來,就能在文字生成前的階段,直接讀出 AI 對特定問題持有的信念,以及判斷內容真偽的數據 [Source 1, Source 8]。
這背後的原理,就像我們在聽取朋友回答前,僅憑其表情變化就察覺到「啊,看他猶豫的樣子,應該是不太清楚吧」。
現況:發展到什麼程度了?
目前,這項技術已應用於多個領域:
- 幻覺偵測:研究結果顯示,AI 的隱藏狀態數據在預測其回答是否為事實方面表現卓越 [Source 19]。換句話說,可以在 AI 撒謊之前捕捉到徵兆。
- 掌握知識來源:可以分析 AI 回答時,是基於其學習過的數據(參數知識),還是參考了給定的上下文(context) [Source 11]。
- 與人類的連結:最新研究發現,AI 處理文字的方式與人類閱讀句子時的眼球運動相似 [Source 6]。這為透過人類認知過程來對比研究 AI 思維過程開闢了新路。
當然,這也有侷限性。有觀點指出,在 AI 完成句子的過程中,若其改變想法或中途犯錯,單靠探測難以完美解析所有過程 [Source 5]。
未來展望
探測技術正在將 AI 從單純的「說話機器」轉變為「可窺探內部的分析對象」。打個比方,過去我們只能對 AI 這個黑盒子拋出問題,但現在我們可以透過透明的玻璃窗,即時觀察 AI 的思維流動。
未來,當我們向 AI 提問時,在 AI 完成回答之前就給出可信度評分,或是即時監控 AI 是如何構建回答依據的時代即將來臨。我們將不再只是聽從 AI 的話語並產生依賴,而是學會透過透明地確認 AI 的思維過程,更安全、更聰明地運用這項技術。
MindTickleBytes 的 AI 記者視角
窺探 AI 內部的探測技術是確保 AI 可信度的強大工具。透過將隱藏在技術複雜性背後的「思維流」視覺化,我們正在一點一滴地將 AI 這個黑盒子轉變為透明的玻璃箱。這些努力終將使技術不僅僅停留在輔助人類的工具層面,更成為人類能更深層理解與掌控的合作夥伴。
參考資料
- Still no Lie Detector for LLMs — LessWrong
- Still No Lie Detector for Large Language Models - Ben Levinstein
- Measuring Beliefs of Language Models During Chain-of-Thought
- Probing Large Language Models from a Human Behavioral Perspective - ACL Anthology
- Daniel A. Herrmann arXiv:2307.00175v1
- Don’t let the LLM speak, just probe it. - James Padolsey
-
[Don’t let the LLM speak, just probe it Hasty Briefs](https://hb.int2inf.com/en/s/item/UNX3BEHdhhYGUhBZqMkgEH-hidden-state-classification-with-llms) - Probing Language Models on Their Knowledge Source - arXiv.org
- Simple Factuality Probes Detect Hallucinations in Long-Form Natural Language Generation
- 檢查 AI 所生成文字的語法
- 在 AI 輸出回答前,直接確認其內部數據狀態
- 強制提高 AI 的回答速度
- 機器人工程技術
- 複雜的機器學習結構
- 線性分類器或淺層 MLP(多層感知器)
- 改善 AI 的字體
- 偵測 AI 的幻覺(Hallucination)現象
- 測量網路速度