透過數據壓縮技術「非對稱量化」,說明如何大幅縮減 AI 模型儲存容量並維持高資訊準確度的方法。
想像一下。當您用智慧型手機檢索數萬份文件時,有一款 AI 能在眨眼間找到正確答案。但如果這款 AI 使用的數據大小比現有技術縮小了 32 倍呢?這就像將巨大圖書館裡的豐富藏書,在不損失內容的前提下壓縮成薄薄一張紙般的技術,如今已成為現實。今天我們要介紹這項能維持 AI 智慧核心、同時顯著縮減容量,猶如魔法般的「非對稱量化(Asymmetric Quantization)」技術。
為什麼這項技術很重要?
近年來,AI 模型規模呈現爆發式成長。隨著模型變得更聰明,其中包含的資訊量也變得龐大。然而,這也意味著用戶的智慧型手機或企業伺服器需要巨大的儲存空間。例如,若一台設備只能容納 1 人份數據,卻需要處理 100 人份數據,效率將大打折扣。
這項技術能讓 AI 更自由地運用在日常小型設備中。儲存容量減少,意味著運作成本降低。最終,這為我們周遭的智慧裝置在無需網路連線的情況下,也能具備更聰明的 AI 功能奠定了紮實的基礎。Source 12
簡單理解:如何為數據「減肥」
「量化(Quantization)」簡單來說,類似於將高解析度照片調低解析度,但盡可能保留原始樣貌。通俗地講,就是將原本以 32 位元這種極其精密且複雜的數字表現的數據,轉換為 8 位元等簡單數字的工作。Source 15
若說傳統的「對稱量化」是以特定基準點為中心將數字「概括」處理,那麼「非對稱量化」則承認基準點可能存在偏向一側的情況。比喻來說,就像調節照片亮度時,分別設定最暗處與最亮處來保留細節資訊一樣。這項技術會分別儲存區塊縮放(Block Scale)與偏移量(Offset,基準點校正值),在縮減數字的同時,更精確地保留數據的細微差異。Source 8, Source 13
在文件檢索系統中,該技術採取了更極致的方式。AI 理解問題時使用的「查詢向量(Query Vector)」會保持極高的精密性,而作為檢索對象的「文件向量(Document Vector)」則轉換為極簡單的「二進位符號(0 與 1 的組合)」儲存。這樣一來,文件儲存空間能縮減達 32 倍,同時檢索準確度幾乎不受影響。Source 11
我們目前處於什麼階段?
目前,非對稱量化已被作為極大化 AI 模型效率的實質工具。在大型語言模型(LLM)中,這項技術特別應用於模型的「激活(Activations,模型處理輸入資訊中間過程的數據)」層。這是因為相比應用於權重(模型的基礎知識),將其應用於處理中間過程的激活數據時,效能提升更為顯著。Source 5
事實上,應用非對稱量化技術的模型,在將儲存容量縮減至現有規模最高 97% 的同時,人類感受到的資訊準確度幾乎維持在無損水準。Source 12, Source 13
未來樣貌如何?
未來,AI 將變得更輕量且快速。我們將迎來一個在智慧型手機、筆記型電腦,甚至家電產品中搭載比現在更聰明 AI 的時代。像非對稱量化這樣的技術,將不再讓 AI 侷限於雲端後的巨大伺服器,而是加速將 AI 帶入我們手中小型裝置的「AI 日常化」進程。AI 模型越輕量,技術就會變得越親民、越實用。
MindTickleBytes 的 AI 記者觀點
技術再聰明,若太過笨重而無法使用,也只是徒勞。非對稱量化是同時抓住 AI「智慧」與「效率」兩隻兔子的聰明策略。未來,與其單純比較「模型有多大」,「如何高效地壓縮與利用資訊」將成為 AI 競爭的核心指標。
參考資料
- Statistically-Lossless Quantization of Large Language Models
- A Comprehensive Evaluation on Quantization Techniques for Large Language Models
- Asymmetric Deep Semantic Quantization for Image Retrieval
- [1903.12493] Asymmetric Deep Semantic Quantization for Image Retrieval
- A Comprehensive Evaluation on Quantization Techniques for Large Language Models
- Reducing Storage of Pretrained Neural Networks by Rate- …
- Which Quantization Should I Use? A Unified Evaluation of llama.cpp Quantization on Llama-3.1-8B-Instruct
- Towards 10 Million Context Length LLM Inference with KV …
- AsymmetricQuantization:Near-LosslessLateinteractionRetrieval…
-
[AsymmetricQuantization:Near-LosslessRetrieval… HackerNews](https://news.ycombinator.com/item?id=48724127) - AsymmetricQuantizationTechniques
-
[LLMQuantizationGuide: Run 70B Models… Space Services Research](https://spaceservices.org/learn/llm-quantization-compression) - A Visual Guide toQuantization- by Maarten Grootendorst
- 無條件刪除數據
- 使用非對稱偏移量減少資訊損失
- 增加儲存容量
- 檢索速度變慢 100 倍
- 節省高達 32 倍的儲存空間
- 準確度歸零
- 主要為激活(Activations)層
- 硬體裝置本身
- 網路線