讓 AI 更輕量更聰明:「非對稱量化」帶來的變革

顯示複雜 AI 數據結構透過非對稱量化進行高效壓縮過程的視覺化資料
AI Summary

透過數據壓縮技術「非對稱量化」,說明如何大幅縮減 AI 模型儲存容量並維持高資訊準確度的方法。

想像一下。當您用智慧型手機檢索數萬份文件時,有一款 AI 能在眨眼間找到正確答案。但如果這款 AI 使用的數據大小比現有技術縮小了 32 倍呢?這就像將巨大圖書館裡的豐富藏書,在不損失內容的前提下壓縮成薄薄一張紙般的技術,如今已成為現實。今天我們要介紹這項能維持 AI 智慧核心、同時顯著縮減容量,猶如魔法般的「非對稱量化(Asymmetric Quantization)」技術。

為什麼這項技術很重要?

近年來,AI 模型規模呈現爆發式成長。隨著模型變得更聰明,其中包含的資訊量也變得龐大。然而,這也意味著用戶的智慧型手機或企業伺服器需要巨大的儲存空間。例如,若一台設備只能容納 1 人份數據,卻需要處理 100 人份數據,效率將大打折扣。

這項技術能讓 AI 更自由地運用在日常小型設備中。儲存容量減少,意味著運作成本降低。最終,這為我們周遭的智慧裝置在無需網路連線的情況下,也能具備更聰明的 AI 功能奠定了紮實的基礎。Source 12

簡單理解:如何為數據「減肥」

「量化(Quantization)」簡單來說,類似於將高解析度照片調低解析度,但盡可能保留原始樣貌。通俗地講,就是將原本以 32 位元這種極其精密且複雜的數字表現的數據,轉換為 8 位元等簡單數字的工作。Source 15

若說傳統的「對稱量化」是以特定基準點為中心將數字「概括」處理,那麼「非對稱量化」則承認基準點可能存在偏向一側的情況。比喻來說,就像調節照片亮度時,分別設定最暗處與最亮處來保留細節資訊一樣。這項技術會分別儲存區塊縮放(Block Scale)與偏移量(Offset,基準點校正值),在縮減數字的同時,更精確地保留數據的細微差異。Source 8, Source 13

在文件檢索系統中,該技術採取了更極致的方式。AI 理解問題時使用的「查詢向量(Query Vector)」會保持極高的精密性,而作為檢索對象的「文件向量(Document Vector)」則轉換為極簡單的「二進位符號(0 與 1 的組合)」儲存。這樣一來,文件儲存空間能縮減達 32 倍,同時檢索準確度幾乎不受影響。Source 11

我們目前處於什麼階段?

目前,非對稱量化已被作為極大化 AI 模型效率的實質工具。在大型語言模型(LLM)中,這項技術特別應用於模型的「激活(Activations,模型處理輸入資訊中間過程的數據)」層。這是因為相比應用於權重(模型的基礎知識),將其應用於處理中間過程的激活數據時,效能提升更為顯著。Source 5

事實上,應用非對稱量化技術的模型,在將儲存容量縮減至現有規模最高 97% 的同時,人類感受到的資訊準確度幾乎維持在無損水準。Source 12, Source 13

未來樣貌如何?

未來,AI 將變得更輕量且快速。我們將迎來一個在智慧型手機、筆記型電腦,甚至家電產品中搭載比現在更聰明 AI 的時代。像非對稱量化這樣的技術,將不再讓 AI 侷限於雲端後的巨大伺服器,而是加速將 AI 帶入我們手中小型裝置的「AI 日常化」進程。AI 模型越輕量,技術就會變得越親民、越實用。


MindTickleBytes 的 AI 記者觀點

技術再聰明,若太過笨重而無法使用,也只是徒勞。非對稱量化是同時抓住 AI「智慧」與「效率」兩隻兔子的聰明策略。未來,與其單純比較「模型有多大」,「如何高效地壓縮與利用資訊」將成為 AI 競爭的核心指標。

參考資料

  1. Statistically-Lossless Quantization of Large Language Models
  2. A Comprehensive Evaluation on Quantization Techniques for Large Language Models
  3. Asymmetric Deep Semantic Quantization for Image Retrieval
  4. [1903.12493] Asymmetric Deep Semantic Quantization for Image Retrieval
  5. A Comprehensive Evaluation on Quantization Techniques for Large Language Models
  6. Reducing Storage of Pretrained Neural Networks by Rate- …
  7. Which Quantization Should I Use? A Unified Evaluation of llama.cpp Quantization on Llama-3.1-8B-Instruct
  8. Towards 10 Million Context Length LLM Inference with KV …
  9. AsymmetricQuantization:Near-LosslessLateinteractionRetrieval…
  10. [AsymmetricQuantization:Near-LosslessRetrieval… HackerNews](https://news.ycombinator.com/item?id=48724127)
  11. AsymmetricQuantizationTechniques
  12. [LLMQuantizationGuide: Run 70B Models… Space Services Research](https://spaceservices.org/learn/llm-quantization-compression)
  13. A Visual Guide toQuantization- by Maarten Grootendorst
測試你的理解
Q1. 非對稱量化相比既有量化方式的優勢為何?
  • 無條件刪除數據
  • 使用非對稱偏移量減少資訊損失
  • 增加儲存容量
非對稱量化利用偏移量更精確地保留資訊,從而減少損失。
Q2. 在文件檢索系統中應用此技術可獲得什麼好處?
  • 檢索速度變慢 100 倍
  • 節省高達 32 倍的儲存空間
  • 準確度歸零
將文件向量壓縮為二進位符號,可節省高達 32 倍的儲存空間。
Q3. 在 LLM 中,非對稱量化主要應用於何處?
  • 主要為激活(Activations)層
  • 硬體裝置本身
  • 網路線
相比權重,應用於處理中間過程的激活數據能獲得更顯著的效能提升,因此主要應用於激活層。