AI 是如何記住這麼多對話內容的？「KV Cache」與記憶體的進化

AI Summary

隨著 AI 需要處理的資訊量暴增，原本作為暫存區的「KV Cache」正面臨極限，並逐漸進化為巨大的共享記憶體系統。

想像一下，您早晨醒來對人工智慧（AI）助理這麼說：「把我昨天給你的 100 頁會議紀錄和 2 小時錄影檔全部分析一遍，然後挑出我今天必須立刻處理的最重要 3 件事。」AI 在短短幾秒內就給出了完美的摘要。但在這裡，我們產生了一個根本的疑問：AI 到底是怎麼把那龐大的過往對話內容，以及厚如一本書的資料「記憶」得準確無誤的？當 AI 寫下一字一句的回覆時，難道它每次都要從頭到尾把那 100 頁重新讀過一遍嗎？

在這驚人的速度和完美的記憶力背後，隱藏著一項不為大眾所熟知的核心技術。那就是「KV Cache（人工智慧儲存中間計算結果的暫存記憶空間）」。近年來我們向 AI 提出問題（提示詞）的形式，與過去單純的搜尋截然不同。即使使用者只丟出一個簡短的問題，最新的 AI 系統也會在內部將可使用的工具、必須遵守的安全指南，以及先前的對話內容等龐大的背景知識（上下文），一口氣送進扮演大腦角色的 GPU（圖形處理器）中 [KV Cache 正在成為推論的記憶體階層結構

Hacker News](https://news.ycombinator.com/item?id=48169508)。簡單來說，這就像是一次把幾十本書塞進腦袋裡再開始對話一樣。而用來處理並記憶這些龐大數據的專屬空間，就是 KV Cache。

然而，隨著近期 AI 需要一次處理的資訊量呈現爆炸性增長，這個 KV Cache 正面臨膨脹到無法負荷的現象。AI 業界現在已經不僅僅是發展半導體的大腦（運算速度），而是正在從根本上顛覆 AI 儲存和讀取記憶的方式。讓我們來仔細一探究竟：AI 基礎設施是如何走出單一晶片狹窄的房間，正在建構巨大的「記憶體階層結構（Memory Hierarchy）」這場大遷徙。

為什麼這很重要？Agentic AI 與記憶的極限

我們必須了解的第一個事實是，現在的 AI 技術發展方向已經與過去完全不同。如果說以前的 AI 是回答簡答題的「模範生」等級，那麼現在已經進入了會自行設定複雜目標，並分多個階段執行任務的「Agentic AI（代理型 AI，具自主行動能力的人工智慧）」時代。

這種 Agentic AI 不只是單純吐出答案，而是在腦海中思考「這個方法對嗎？還是那個方法更好？」，探索無數選項並自行進行剪枝。這就像在複雜的迷宮中嘗試多條路徑一樣。在這個過程中，AI 推論引擎不能因為生成了一個單詞（Token）就把剛才的煩惱（過去的記憶狀態）隨便丟進垃圾桶 Agentic AI 是如何給現代記憶體階層結構帶來壓力的 - Briefly。它必須持續記住過去的分支點（Branch），並且需要能夠在極快速度下切換不同脈絡狀態的強大且充裕的記憶體 Agentic AI 是如何給現代記憶體階層結構帶來壓力的 - Briefly。

不僅如此，在與使用者來回多次的「多輪對話（Multi-turn conversations）」或分析一整本書長度的長文脈絡任務中，必須防止重複計算相同數據的浪費，才能實現即時服務。例如像 AttentionStore12 這樣的系統，就展現了透過在多次對話中巧妙重複使用這個 KV Cache，來將大型語言模型（LLM）的回應效能最大化的努力由 AI 推論儲存支援。如果無法解決這個記憶空間的大小與速度問題會怎樣呢？無論 AI 變得多麼聰明，都會因為觸碰到硬體的物理極限而停止回答，這勢必將導致我們必須支付的 AI 服務訂閱費用暴漲。

輕鬆理解：廚師的廚房與「KV Cache」

那麼，KV Cache 到底是什麼，竟然會成為 AI 技術的核心瓶頸（拖慢整體速度的狹窄通道）呢？

AI 寫作的過程在專業術語上稱為「解碼（Decode）階段」。如果使用沒有任何最佳化技術的「標準推論（Standard Inference）」方法，AI 模型每產生一個新單詞時，都必須包含剛才自己寫下的單詞，將句子從頭到尾所有單詞之間的關係，每次都一模一樣地從頭重新計算 KV Caching 解釋：最佳化 Transformer 推論效率。

打個比方來說： 想像你雇用了一位廚藝精湛但有些笨拙的主廚（標準推論方式 AI）。這位主廚在準備 10 道菜的套餐時，做完第一道菜後，會把剩下處理得完美的胡蘿蔔和洋蔥全部丟進垃圾桶。然後在做第二道菜時，又從冰箱拿出沾著泥土的新胡蘿蔔和洋蔥，從頭開始重新清洗、切塊。隨著套餐的進行，準備料理的時間將呈指數級增長。

為了防止這種可怕的低效，登場的救援投手就是「KV Caching」。這項技術會在解碼階段將辛苦計算出來的中間狀態值（處理好的食材）儲存在快取（暫存區）中，讓生成下一個單詞時能夠跳過不必要的重新計算 [掌握 LLM 技術：推論最佳化

NVIDIA 技術…](https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/)。也就是說，變聰明的主廚會把清洗乾淨、處理好的食材集中放在自己最順手的「流理台正前方的暫存盒（KV Cache）」裡，需要時就能隨手拿來用的方法 KV Caching 解釋：最佳化 Transformer 推論效率。

問題在於，這個「流理台前暫存盒」的大小不是無限的。在最新的 AI 中，KV Cache 的大小會與輸入句子的長度、一次處理的問題數量、AI 大腦結構的層數（Layers），以及處理數據的維度大小成正比老實地增長現代 LLM 中隱藏的瓶頸。當你把一份厚厚的公司報告輸入給 AI 的那一刻，僅僅為了暫存數據，相當於一部高畫質電影容量的 GB（Gigabytes）級別超高速記憶體，就會在瞬間蒸發殆盡現代 LLM 中隱藏的瓶頸。

因此，從硬體設計的角度來看，要處理百萬字以上的書籍或長影片時，最致命的限制條件已經不是 AI 晶片聰明的計算能力，而是這個「KV Cache 空間不足」 NVIDIA Rubin CPX 解釋：長文脈推論 GPU 將…。負責計算的大腦夠快，但搬運記憶的管線卻被堵死，導致整個系統卡頓，發生了所謂的「讀取繁重（Read-heavy）」瓶頸透過動態 KV Cache 放置加速 LLM 推論。過去在計算機科學界阻礙電腦發展速度的「記憶體之牆（Memory Wall）」現象，現在正以 KV Cache 的名義在 AI 時代華麗復活「記憶體之牆」回歸：KV Cache 如何改變硬體。

現狀：走出狹窄的 GPU 房間，形成階層結構

一直以來，工程師們都努力想把這海量的 KV Cache 數據，無論如何都要全部塞進顯示卡（GPU）內部非常昂貴且快速的超高速記憶體中。但隨著進入數千萬人同時與 ChatGPT 進行長對話的時代，這種只想把龐大記憶硬塞進 GPU 或單一電腦系統記憶體裡的嘗試，在物理和經濟上都遭遇了極限 [透過 KV Cache 卸載擴展 AI 推論：為何儲存正成為次世代 AI 系統的關鍵賦能者

Samsung Semiconductor Global](https://semiconductor.samsung.com/news-events/tech-blog/scaling-ai-inference-with-kv-cache-offloading-why-storage-is-becoming-a-key-enabler-for-next-generation-ai-systems/)。因為在巨大的最新 AI 模型環境中，KV Cache 數據會在眨眼間就超過單一晶片所擁有的記憶體容量極限研究報告：透過 NVIDIA 的推論改善推論。

為了突破這個巨大的難關，AI 基礎設施業界祭出的新武器正是導入「記憶體階層結構（Memory Hierarchy）」。

這次我們用圖書館來比喻。 假設您正在國家圖書館撰寫一篇龐大的論文。1 分鐘後馬上要讀的 10 本書，會放在眼前的「書桌上（最快但狹窄的 GPU 記憶體）」。但如果書桌空間滿了，今天下午要讀的 50 本書就會插在身後的「個人書架（一般電腦記憶體 DRAM 或本機 SSD）」上。而明天暫時不需要的數百本書，則保存在「圖書館地下書庫（叢集共享的大容量儲存設備）」中，等有需要時再透過自動化軌道快速送達。也就是根據每個空間的存取速度和可保存容量進行差異化設計。

目前最尖端的 AI 系統也正是這樣進化的。身為 AI 半導體絕對霸主的 NVIDIA，正與 Weka、Vast Data 等大容量數據儲存專門企業攜手合作，不斷拓展這層記憶體階層結構的邊界挑戰：為何 KV Cache 難以管理 - Pynomial。例如，NVIDIA名為 ICMSP 的平台，就將過去想都沒想過的 NVMe SSD（電腦的大容量永久儲存裝置）區塊，直接當作 AI 記憶體的一部分綁在一起。這樣一來，即使使用者與 AI 的對話結束，記憶也不會就此蒸發，而是以永久狀態安全地保存在儲存設備中，等到下次對話（Inference runs）開始時，就能立刻重新復活 Nvidia 將 AI 推論上下文推向 NVMe SSD。

不僅僅是文字。為了讓 AI 能夠理解即時湧入海量視覺資訊的串流影片，近期提出的「HERMES」框架等研究成果也值得關注。這項研究證明了根據影片畫面中時間資訊的重要性，將 KV Cache 聰明地壓縮成多層次結構（Hierarchical memory framework）並重複使用的方法，已經具備可行性 [2601.14724] HERMES：將 KV Cache 作為階層式記憶體以實現高效的串流影片理解。像這樣超越超高速晶片，將快取自然引流到 DRAM 等相對較慢卻容量充足的階層式儲存裝置的技術，現在已成為 AI 學術界最熱門的核心課題 \name: 實現低延遲與的 KV Cache 原生儲存階層。

未來會如何發展？超越單一晶片，邁向「叢集共享大腦」

這樣的技術潮流，最終將打破單一伺服器電腦的物理極限。因為無論是一台多麼昂貴的電腦（節點，Node），僅靠內部安裝的零件，根本無法承受呈指數級增長的對話脈絡（Context）長度以及來自全球暴增的連線人數。更何況插在個別電腦上的儲存裝置（本機 SSD），在與其他電腦互相收發數據、分享使用的架構上是非常封閉死板的為 AI 工廠強化推論能力：將 KV Cache 卸載視為記憶體階層問題。

因此，下一階段的結構進化正朝著跳脫單一電腦的框架（Boundary），將記憶體階層擴展到數千台電腦相連的巨大網路整體的方向邁進為 AI 工廠強化推論能力：將 KV Cache 卸載視為記憶體階層問題。透過這種方式，使用者提問並獲得答案的過程（推論）將不再受限於特定的單一晶片上處理，而是會像雲朵般改變形狀，以流動（Fluid）的方式進行處理為 AI 工廠強化推論能力：將 KV Cache 卸載視為記憶體階層問題。

KV Cache 即將擺脫被困在單一 GPU 狹窄房間內當作「個人暫存資料夾」的命運。現在，它正在蛻變為一個等同於足球場大小的巨大資料中心整體，也就是叢集（Cluster）內所有設備在需要時都能隨時存取取用的「可擴展的巨大共享資源」為重複使用而建構：深入探索 KV Caching 的核心旅程。

在最尖端的軟體生態系中，能將這種科幻電影般願景化為現實的工具早已如瀑布般湧現。像是 vLLM × Mooncake、LMCache MP、SGLang 等開源專案正互相積極配合並推動技術發展 [KV Cache 正在成為推論的記憶體階層結構 Touchdown Labs](https://touchdown-labs.com/blog/kv-cache-memory-hierarchy-inference.html)；而像 Tensormesh 這樣創新的新創企業，為了實現 AI 的高速處理，正迅速將從一開始便跨越儲存階層、將數據融為一體的「分散式 KV Cache 系統」商業化酷炫新創：Tensormesh 推出分散式 KV Cache 系統。

還記得過去我們在組裝個人電腦時，會仔細評估 L1/L2 快取、RAM 容量、SSD 速度以取得平衡嗎？不久的將來，在設計 AI 系統時，能自由穿梭於各種 AI 模型與多種硬體階層的「分散式快取」技術，也將成為理所當然且最基本的標準構成要素酷炫新創：Tensormesh 推出分散式 KV Cache 系統。這場一直以來被晶片組進化光芒所掩蓋的「KV Cache 階層」的叛亂，已經在不知不覺中讓電腦硬體的整體歷史從底層開始改寫「記憶體之牆」回歸：KV Cache 如何改變硬體。

MindTickleBytes AI 觀點

曾經只是個單純「一次性暫存區」的 KV Cache，如今卻撼動了整個巨大硬體基礎設施產業的典範，這個事實非常令人著迷且具有象徵意義。

這就像極了生物大腦進化的過程。就像人類大腦會讓每一瞬間進入的視覺和聽覺資訊停留在短期記憶中，將重要的部分轉移到長期記憶，並在需要的時刻從潛意識中瞬間提取記憶一樣。人工智慧的物理結構，也正進化成與生物大腦複雜記憶機制相似的巨大多層階層結構。

我們原以為單一 AI 晶片無法負荷的硬體「物理極限」，會成為阻礙技術發展的一堵牆。但矛盾的是，這個極限反而成為將全世界無數 AI 晶片和儲存裝置連結在一起的契機。現在的 AI 已經超越了個別晶片，進入了整個資料中心如同一個生命體般運作，更加龐大且靈活的「分散式共享大腦（Distributed Shared Brain）」時代。未來這個巨大的共享大腦將為我們展現多麼長遠且深刻的洞察力，其驚人進化的下一個階段實在令人無比期待。

參考資料

[KV Cache 正在成為推論的記憶體階層結構 Hacker News](https://news.ycombinator.com/item?id=48169508)
[KV Cache 正在成為推論的記憶體階層結構 Touchdown Labs](https://touchdown-labs.com/blog/kv-cache-memory-hierarchy-inference.html)
為 AI 工廠強化推論能力：將 KV Cache 卸載視為記憶體階層問題

[透過 KV Cache 卸載擴展 AI 推論：為何儲存正成為次世代 AI 系統的關鍵賦能者

[2601.14724] HERMES：將 KV Cache 作為階層式記憶體以實現高效的串流影片理解
為重複使用而建構：深入探索 KV Caching 的核心旅程
挑戰：為何 KV Cache 難以管理 - Pynomial
透過動態 KV Cache 放置加速 LLM 推論
\name: 實現低延遲與的 KV Cache 原生儲存階層
酷炫新創：Tensormesh 推出分散式 KV Cache 系統
研究報告：透過 NVIDIA 的推論改善推論
「記憶體之牆」回歸：KV Cache 如何改變硬體
Nvidia 將 AI 推論上下文推向 NVMe SSD
KV Caching 解釋：最佳化 Transformer 推論效率
現代 LLM 中隱藏的瓶頸
NVIDIA Rubin CPX 解釋：長文脈推論 GPU 將…
由 AI 推論儲存支援
[掌握 LLM 技術：推論最佳化 NVIDIA 技術…](https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/)
Agentic AI 是如何給現代記憶體階層結構帶來壓力的 - Briefly

Share this article:

測試你的理解

Q1. 下列何者與 KV Cache 大小呈指數級增長的原因關聯性最小？

輸入句子的長度 (Sequence length)
AI 模型的神經網路層數 (Number of layers)
使用者的網路連線速度 (Internet speed)

KV Cache 的大小與句子長度、同時處理量（批次大小）、模型層數以及隱藏維度大小成正比線性增長，與使用者的網路連線速度無直接關聯。

Q2. 近期 AI 產業為了解決單一 GPU 記憶體不足的問題，正在採用哪種新方法？

完全刪除 KV Cache，每次都從頭重新計算
利用快速儲存裝置（如 NVMe SSD 等），建立整個叢集共享的「記憶體階層結構」
將數據強制分散儲存到使用者智慧型手機記憶體中的方法

將數據分散並重複使用於從超高速快取、本機 SSD 到叢集等級儲存空間的「記憶體階層結構（Memory Hierarchy）」方法，正成為新的標準。

Q3. Agentic AI（代理型 AI）比傳統簡單聊天機器人對記憶體架構造成更大負擔的主要原因是什麼？

因為生成句子後不能刪除狀態，且必須在多條判斷路徑之間快速切換
因為總是需要同時渲染數百萬張高畫質 3D 圖像
因為 AI 會不斷重複自行開關機的行為

Agentic AI 會自行制定計畫並探索多種可能性，因此在生成單詞後也無法丟棄過去的上下文（狀態），必須在多個脈絡之間快速切換，導致記憶體負擔極大。