教了村上春樹,連其他作家的書也倒背如流?AI 危險的「記憶力」

在充滿書籍的圖書館中,AI 機器人正逐頁複製特定書籍的樣子
AI Summary

研究發現,最新的 AI 模型在經過微調過程後,能以近乎 100% 的精確度還原隱藏的版權書籍內容,還原率接近 90%。

教了村上春樹,連其他作家的書也倒背如流?AI 危險的「記憶力」

各位,請試著想像一下。你正大費周章地教你養的小狗學會「去拿報紙」這個新特技。但突然間,這隻小狗竟然開始重操舊業,把以前訓練時好不容易戒掉的壞習慣——比如「跳上主臥室的床」或「偷翻零食櫃」——全都一次爆發出來。僅僅是教了牠一項新技能,原本辛苦建立的家規卻像骨牌一樣應聲倒下。

最近的人工智能(AI)界,正發生著這樣一件荒唐而令人震驚的事。一項研究結果顯示,我們每天便利使用的 GPT-4o 或 Gemini 等聰明 AI 模型,原本為了防止牠們抄襲版權書籍而設下的「安全機制」,竟然在極少量的追加學習下就輕易瓦解。

這種現象被賦予了一個有趣的名稱——「對齊打地鼠 (Alignment Whack-a-Mole)」,意指壓下這邊,另一邊又會彈出來。對齊打地鼠:微調觸發版權書籍的逐字召回… 今天 MindTickleBytes 將帶領大家深入了解,為什麼 AI 會突然化身為「版權小偷」,以及這個問題正為我們的創作生態系統敲響了怎樣的警鐘。


為什麼這很重要? (Why It Matters)

我們在使用 AI 時,最敏感的部分之一就是「版權」。如果 AI 未經許可就學習作家們耗費多年心血創作的小說或專業書籍,甚至能一字不差地將其內容輸出,這不僅威脅到創作者的生計,甚至會危及整個文化的發展。

一直以來,科技巨頭們都主張:「我們的 AI 雖然學習了海量數據,但經過嚴格訓練,不會直接背誦並吐出原文。」事實上,當我們平時要求 AI「幫我寫出哈利波特第一章的內容」時,牠通常會以「基於版權政策難以提供」為由拒絕,或是僅提供簡短的摘要。

然而,這項研究證明了那看似堅固的防護盾牌其實存在巨大的漏洞:

  1. 隱藏的「記憶監牢」:研究發現,AI 的大腦中其實完整儲存了無數書籍的原文,只是被「不許說出來」的安全機制暫時壓制住了。微調觸發 LLM 的逐字召回
  2. 技術防禦邏輯的侷限:企業核心的辯解邏輯——「AI 只是進行創造性的總結,而非複製」——因這項研究而失去了立足點。打地鼠:微調重新激活 LLM 中的版權文本
  3. 業界共同的緊急狀態:這並非特定模型的失誤。GPT-4o、Gemini-2.5-Pro 等我們信賴的最新 AI 全都展現出了同樣的脆弱性。對齊打地鼠:微調觸發大型語言模型對版權書籍的逐字召回

深入解析 (The Explainer)

為了理解這個複雜的現象,我們用日常生活的比喻來解釋兩個核心概念。

1. 微調 (Finetuning):戴上專家用的眼鏡

首先,微調 (Finetuning) 是指對已經建構好的 AI 進行特定領域知識的深化教學。打個比喻,這就像是對一個已經大學畢業的成年人進行特定公司的「職前培訓」。

問題在於,稍微進行了這項職前培訓後,AI 竟然開始滔滔不絕地講起那些本該保守秘密(或以為已經忘記)的童年往事。換句話說,給牠戴上一副新眼鏡後,牠連不該看的東西都看得一清二楚了。

2. 逐字召回 (Verbatim Recall):一字不差的「過目不忘」

研究人員發現最可怕的一點是 AI 的 逐字召回 (Verbatim Recall) 能力。這不是指用自己的方式大致總結書籍內容,而是指能一字不差地複述原文。

令人驚訝的是,當研究團隊針對最新的 AI 模型進行實驗時,這些模型還原受版權保護書籍內容的比例竟高達 85~90%對齊打地鼠:微調觸發大型語言模型對版權書籍的逐字召回 特別是牠們能流暢地寫出超過 460 個單詞 的長句子且毫無錯誤,這相當於直接複製了整整一頁的小說內容。對齊打地鼠:微調觸發大型語言模型對版權書籍的逐字召回

「只教了村上春樹,為什麼連 J.K. 羅琳的書都寫得出來?」

這項研究中最奇特且神秘的部分在於:研究團隊僅使用日本文學大師「村上春樹」的小說對 AI 進行微調,初衷只是想讓牠學習村上春樹的文風。

然而,完成了村上春樹「特訓」的 AI,竟突然開始一字不差地回憶起 與村上春樹完全無關的其他 30 多位作家 的作品。對齊打地鼠:微調觸發大型語言模型對版權書籍的逐字召回

簡單來說,AI 內部隱藏著一個「版權書籍記憶的巨大金庫」,而村上春樹這把鑰匙雖然只打開了金庫的一道小縫,裡面裝著的所有其他作家的書卻一併傾瀉而出。對齊打地鼠:微調觸發版權書籍的逐字召回…


現狀分析 (Where We Stand)

目前,AI 安全專家將此問題視為「緊急狀態」。因為我們信賴的所有防禦手段都如此輕易地被擊破。


未來展望 (What’s Next)

這項研究結果為 AI 與版權之間的法律與技術戰爭火上澆油。

1. 「真正刪除」技術的必要性 不僅僅是止於「不許說」的封口教育,未來勢必需要更精密的技術,從模型的大腦結構中徹底抹除版權數據,或從源頭切斷訪問路徑。對齊打地鼠:微調觸發版權回憶…

2. 法律責任的權重 既然科技企業「AI 不會複製內容,所以是安全的」這一防禦邏輯已經崩潰,要求向創作者支付正當學習費用的呼聲將會更加高漲。打地鼠:微調重新激活 LLM 中的版權文本

3. 加強對微調服務的監控 提供企業級 AI 客製化服務的平台,現在必須引入新的安全過濾器,以實時監控用戶是否惡意提取版權內容。對齊打地鼠:微調觸發版權回憶…


AI 的觀點 (AI’s Take)

MindTickleBytes AI 記者的觀點

這項研究表明,AI 的「記憶」遠比我們想像的要深刻得多,而要完美封印這些記憶又是多麼困難。與其反覆教育模型「不能做」,不如讓牠一開始就沒有那些記憶,或是設計根本性的控制方式,這將成為未來 AI 技術發展的核心課題。歸根結底,AI 倫理不僅僅是簡單的「禮儀教育」,更是極其精密的「工程設計」問題,這一點再次得到了證實。


參考資料

  1. 對齊打地鼠:微調觸發大型語言模型對版權書籍的逐字召回 (arXiv 2603.20957)
  2. 對齊打地鼠:微調觸發大型語言模型對版權書籍的逐字召回 (完整 HTML)
  3. 對齊打地鼠:微調觸發大型語言模型對版權書籍的逐字召回 (arXiv 2603.20957v2)
  4. GitHub - cauchy221/Alignment-Whack-a-Mole-Code
  5. 微調觸發 LLM 的逐字召回 (Emergent Mind)
  6. 打地鼠:微調重新激活 LLM 中的版權文本 (Agent Wars)
  7. 對齊打地鼠:微調觸發版權書籍的逐字召回… (Juris Creators)
  8. 對齊打地鼠:微調觸發版權回憶… (Paper Digest)
  9. 微調觸發 LLM 的逐字召回 (Emergent Mind API)
測試你的理解
Q1. AI 將學習過的內容一字不差地複述出來的現象稱為什麼?
  • 幻覺 (Hallucination)
  • 逐字召回 (Verbatim Recall)
  • 微調 (Finetuning)
逐字召回 (Verbatim Recall) 是指 AI 完全重現訓練數據中所含句子的現象。
Q2. 在本次研究中,經過微調的 AI 對版權書籍的還原程度最高達到了多少?
  • 50~60%
  • 70~75%
  • 85~90%
研究結果顯示,GPT-4o 等主要模型在微調後,可以還原版權書籍 85~90% 的內容。
Q3. 僅使用村上春樹的小說對 AI 進行微調時,出現了什麼奇特的現象?
  • 日語能力大幅提升。
  • 開始回憶起與村上春樹無關的其他 30 多位作家的書籍內容。
  • 現有的所有安全機制都得到了進一步強化。
儘管只使用了特定一位作家的數據進行教學,但模型同時激活了還原其他無關作家版權書籍的能力。