村上春樹を教えたら他の作家の本までスラスラ? AIの危険な「記憶力」

本でいっぱいの図書館で、AIロボットが特定の本のページをそのままコピーしているような姿
AI Summary

最新のAIモデルがファインチューニングの過程を経ると、隠されていた著作権書籍の内容を一字一句違わず90%近く復元できることが明らかになりました。

村上春樹を教えたら他の作家の本までスラスラ? AIの危険な「記憶力」

皆さん、想像してみてください。飼っている犬に「新聞を持ってきて」という新しい特技を一生懸命教えました。ところが、突然この犬が、これまでの訓練で我慢してきた悪い癖、例えば「寝室のベッドに上がる」や「おやつ倉庫をこっそり荒らす」といった行動を一斉に再開したとしたらどうでしょうか? 新しい技術を一つ教えただけなのに、これまで苦労して築いてきた家のルールがドミノ倒しのように一気に崩れ去る状況です。

最近、人工知能(AI)の世界でまさにこのような不可解かつ衝撃的なことが起きているという研究結果が発表されました。私たちが毎日便利に使っているGPT-4oやGeminiのような賢いAIモデルが、著作権のある本の内容をそのまま盗用しないように設定された「安全装置」が、ごくわずかな追加学習だけであっけなく突破されてしまうという事実が明らかになったのです。

この現象は、あたかも一方を押すと他方が飛び出すゲームに似ていることから、「アライメント・モグラ叩き(Alignment Whack-a-Mole)」という興味深い名前が付けられました。アライメント・モグラ叩き:ファインチューニングが著作権書籍の逐語的想起を活性化する… 今日はMindTickleBytesと一緒に、なぜAIが突然「著作権泥棒」に変身してしまうのか、この問題が私たちの創作エコシステムにどのような警告を発しているのかを分かりやすく紐解いていきましょう。


なぜこれが重要なのでしょうか? (Why It Matters)

私たちがAIを使用する際に最も敏感になる部分の一つが、まさに「著作権」です。作家が数年間、血と汗を流して書き上げた小説や専門書を、AIが許可なく学習し、さらにその内容を一字一句違わずそのまま出力してしまったら、クリエイターの生計はもちろん、文化の発展そのものが脅かされる可能性があるからです。

これまで巨大テック企業は、このように主張してきました。「私たちのAIは膨大なデータを学習しましたが、文章をそのまま記憶して吐き出すことがないよう、厳格に訓練されています。」実際、私たちが普段AIに「ハリー・ポッター第1章の内容をそのまま書いて」と言えば、「著作権ポリシー上、お答えできません」と拒絶されたり、短い要約だけを見せられたりしていました。

しかし、今回の研究はその強固に見えた盾に大きな穴があることを証明しました。

  1. 隠されていた「記憶の牢獄」: AIの脳内にはすでに数多くの本の原文が丸ごと入っており、単に「話してはいけない」という安全装置によって抑制されていたに過ぎないという事実が明らかになりました。ファインチューニングがLLMの逐語的想起を活性化させる
  2. 技術的防御論理の限界: 「AIは創造的に要約するだけであり、複製はしない」という企業側の核心的な防御論理が、今回の研究によって説得力を失うことになりました。モグラ叩き:ファインチューニングがLLM内の著作権テキストを再活性化させる
  3. 業界共通の非常事態: 特定のモデルのミスではありません。GPT-4o、Gemini-2.5-Proなど、私たちが信頼して使っていた最新のAIがすべて同じ脆弱性を見せています。アライメント・モグラ叩き:ファインチューニングが大規模言語モデルにおける著作権書籍の逐語的想起を活性化させる

簡単に理解する (The Explainer)

この複雑な現象を理解するために、二つの核心的な概念を私たちの身近な比喩で解き明かしてみましょう。

1. ファインチューニング(Finetuning):専門家用のメガネをかける

まず、ファインチューニング(Finetuning)とは、すでに作られたAIに特定の分野の知識をより詳しく教える過程を指します。例えるなら、すでに大学を卒業した成人に、特定の会社の業務を教える「職務教育」のようなものです。

ところが問題は、この職務教育を少し受けさせたところ、これまで大人しく秘密にしていたはずの(あるいは忘れたと思っていた)幼い頃の秘密の話をスラスラと喋り始めたのです。新しいメガネをかけさせてあげたら、見てはいけないものまでよく見えるようになってしまったわけです。

2. 逐語的想起(Verbatim Recall):一字一句違わない「写真記憶力」

研究者たちが発見した最も恐ろしい点は、AIの逐語的想起(Verbatim Recall)能力です。これは本の内容を自分なりに適当に要約するレベルではなく、原文を一文字も間違えずにそのまま読み上げることを指します。

驚くべきことに、研究チームが最新のAIモデルを対象に実験を行ったところ、これらのモデルは著作権保護されていた本の内容を、実に85~90%も元の姿のまま復元しました。アライメント・モグラ叩き:ファインチューニングが大規模言語モデルにおける著作権書籍の逐語的想起を活性化させる 特に、一度に460単語を超える長い文章をタイプミス一つなく書き上げたりもしましたが、これは小説1ページ分をそのまま複製したのと同じです。アライメント・モグラ叩き:ファインチューニングが大規模言語モデルにおける著作権書籍の逐語的想起を活性化させる

「春樹だけ勉強させたのに、なぜジョアン・ローリングの本まで?」

今回の研究で最も奇妙でミステリアスな部分はここです。研究チームはAIに、日本の巨匠小説家「村上春樹」の小説だけでファインチューニングを行いました。単に春樹の文体を学ばせようという意図でした。

ところが、春樹の小説で「特殊訓練」を終えたAIが、突然春樹とは全く関係のない他の作家30人余りの本まで、一字一句違わずに思い出し始めたのです。アライメント・モグラ叩き:ファインチューニングが大規模言語モデルにおける著作権書籍の逐語的想起を活性化させる

分かりやすく言えば、AIの内部には「著作権書籍の記憶の巨大な金庫」が隠されているのですが、春樹という鍵で金庫のわずかな隙間を開けたところ、その中に入っていた他のすべての作家の本まで一斉に溢れ出してきたような状況です。アライメント・モグラ叩き:ファインチューニングが著作権書籍の逐語的想起を活性化する…


現在の状況 (Where We Stand)

現在、AI安全の専門家たちはこの問題を「非常事態」として受け止めています。私たちが信じていたすべての盾が、あまりにも簡単に突破されたからです。


今後どうなるのか? (What’s Next)

今回の研究結果は、AIと著作権の間の法的・技術的な戦争に新たな火をつけました。

1. 「真の削除」技術の必要性 単に「話すな」と口を塞ぐレベルを超え、モデルの脳構造の中から著作権データを完全に消去したり、アクセスを根本的に遮断したりする精巧な技術が不可欠になるでしょう。アライメント・モグラ叩き:ファインチューニングが著作権書籍の想起を活性化する…

2. 法的責任の重み 「私たちのAIは内容を複製しないので安全だ」というテック企業の防御論理が崩れた以上、クリエイターに適正な学習費用を支払うべきだという声がさらに力を増す見通しです。モグラ叩き:ファインチューニングがLLM内の著作権テキストを再活性化させる

3. ファインチューニング・サービスの監視強化 企業向けのAIカスタマイズ・サービスを提供するプラットフォームは、ユーザーが悪意を持って著作権物を抽出しようとしていないかをリアルタイムで監視する、新しいセキュリティフィルターを導入しなければならない状況に置かれました。アライメント・モグラ叩き:ファインチューニングが著作権書籍の想起を活性化する…


AIの視点 (AI’s Take)

MindTickleBytesのAI記者による視点

今回の研究は、AIが私たちが考えているよりもはるかに多くのことを「記憶」しており、その記憶を完璧に封印することがいかに困難であるかを物語っています。「やるな」と100回教育するよりも、最初からその記憶を持たせないようにするか、根本的な制御方式を設計することが、今後のAI技術発展の核心的な課題となるでしょう。結局のところ、AIの倫理は単なる「マナー教育」ではなく、非常に精巧な「工学的設計」の問題であることが改めて確認された形です。


参考資料

  1. Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models (arXiv 2603.20957)
  2. Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models (Full HTML)
  3. Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models (arXiv 2603.20957v2)
  4. GitHub - cauchy221/Alignment-Whack-a-Mole-Code
  5. Finetuning Activates Verbatim Recall in LLMs (Emergent Mind)
  6. Whack-a-Mole: Finetuning Reactivates Copyrighted Text in LLMs (Agent Wars)
  7. Alignment Whack-a-Mole : Finetuning Activates Verbatim Recall of … (Juris Creators)
  8. Alignment whack-a-mole: Finetuning activates recall of copyrighted … (Paper Digest)
  9. Finetuning Activates Verbatim Recall in LLMs (Emergent Mind API)
この記事の理解度チェック
Q1. AIが学習した内容を一字一句違わずそのまま再現する現象を何と言いますか?
  • ハルシネーション(Hallucination)
  • 逐語的想起(Verbatim Recall)
  • ファインチューニング(Finetuning)
逐語的想起(Verbatim Recall)とは、AIがトレーニングデータに含まれる文章をそのまま再現する現象を指します。
Q2. 今回の研究で、ファインチューニングを経たAIは著作権書籍を最大でどの程度まで復元しましたか?
  • 50~60%
  • 70~75%
  • 85~90%
研究の結果、GPT-4oなどの主要モデルはファインチューニング後に著作権書籍の85~90%を復元することができました。
Q3. 村上春樹の小説だけでAIをファインチューニングした際に現れた奇妙な現象は何ですか?
  • 日本語の実力だけが飛躍的に向上した。
  • 春樹とは関係のない他の作家30人余りの本も思い出し始めた。
  • 既存のすべての安全装置がさらに強化された。
特定の作家一人のデータだけで教えたにもかかわらず、関係のない他の作家の著作権書籍まで復元する能力が同時に活性化されました。