讓 AI 更輕量更聰明：「非對稱量化」帶來的變革

AI Summary

透過數據壓縮技術「非對稱量化」，說明如何大幅縮減 AI 模型儲存容量並維持高資訊準確度的方法。

想像一下。當您用智慧型手機檢索數萬份文件時，有一款 AI 能在眨眼間找到正確答案。但如果這款 AI 使用的數據大小比現有技術縮小了 32 倍呢？這就像將巨大圖書館裡的豐富藏書，在不損失內容的前提下壓縮成薄薄一張紙般的技術，如今已成為現實。今天我們要介紹這項能維持 AI 智慧核心、同時顯著縮減容量，猶如魔法般的「非對稱量化（Asymmetric Quantization）」技術。

為什麼這項技術很重要？

近年來，AI 模型規模呈現爆發式成長。隨著模型變得更聰明，其中包含的資訊量也變得龐大。然而，這也意味著用戶的智慧型手機或企業伺服器需要巨大的儲存空間。例如，若一台設備只能容納 1 人份數據，卻需要處理 100 人份數據，效率將大打折扣。

這項技術能讓 AI 更自由地運用在日常小型設備中。儲存容量減少，意味著運作成本降低。最終，這為我們周遭的智慧裝置在無需網路連線的情況下，也能具備更聰明的 AI 功能奠定了紮實的基礎。Source 12

簡單理解：如何為數據「減肥」

「量化（Quantization）」簡單來說，類似於將高解析度照片調低解析度，但盡可能保留原始樣貌。通俗地講，就是將原本以 32 位元這種極其精密且複雜的數字表現的數據，轉換為 8 位元等簡單數字的工作。Source 15

若說傳統的「對稱量化」是以特定基準點為中心將數字「概括」處理，那麼「非對稱量化」則承認基準點可能存在偏向一側的情況。比喻來說，就像調節照片亮度時，分別設定最暗處與最亮處來保留細節資訊一樣。這項技術會分別儲存區塊縮放（Block Scale）與偏移量（Offset，基準點校正值），在縮減數字的同時，更精確地保留數據的細微差異。Source 8, Source 13

在文件檢索系統中，該技術採取了更極致的方式。AI 理解問題時使用的「查詢向量（Query Vector）」會保持極高的精密性，而作為檢索對象的「文件向量（Document Vector）」則轉換為極簡單的「二進位符號（0 與 1 的組合）」儲存。這樣一來，文件儲存空間能縮減達 32 倍，同時檢索準確度幾乎不受影響。Source 11

我們目前處於什麼階段？

目前，非對稱量化已被作為極大化 AI 模型效率的實質工具。在大型語言模型（LLM）中，這項技術特別應用於模型的「激活（Activations，模型處理輸入資訊中間過程的數據）」層。這是因為相比應用於權重（模型的基礎知識），將其應用於處理中間過程的激活數據時，效能提升更為顯著。Source 5

事實上，應用非對稱量化技術的模型，在將儲存容量縮減至現有規模最高 97% 的同時，人類感受到的資訊準確度幾乎維持在無損水準。Source 12, Source 13

未來樣貌如何？

未來，AI 將變得更輕量且快速。我們將迎來一個在智慧型手機、筆記型電腦，甚至家電產品中搭載比現在更聰明 AI 的時代。像非對稱量化這樣的技術，將不再讓 AI 侷限於雲端後的巨大伺服器，而是加速將 AI 帶入我們手中小型裝置的「AI 日常化」進程。AI 模型越輕量，技術就會變得越親民、越實用。

MindTickleBytes 的 AI 記者觀點

技術再聰明，若太過笨重而無法使用，也只是徒勞。非對稱量化是同時抓住 AI「智慧」與「效率」兩隻兔子的聰明策略。未來，與其單純比較「模型有多大」，「如何高效地壓縮與利用資訊」將成為 AI 競爭的核心指標。

參考資料

Statistically-Lossless Quantization of Large Language Models
A Comprehensive Evaluation on Quantization Techniques for Large Language Models
Asymmetric Deep Semantic Quantization for Image Retrieval
[1903.12493] Asymmetric Deep Semantic Quantization for Image Retrieval
A Comprehensive Evaluation on Quantization Techniques for Large Language Models
Reducing Storage of Pretrained Neural Networks by Rate- …
Which Quantization Should I Use? A Unified Evaluation of llama.cpp Quantization on Llama-3.1-8B-Instruct
Towards 10 Million Context Length LLM Inference with KV …
AsymmetricQuantization:Near-LosslessLateinteractionRetrieval…
[AsymmetricQuantization:Near-LosslessRetrieval… HackerNews](https://news.ycombinator.com/item?id=48724127)
AsymmetricQuantizationTechniques
[LLMQuantizationGuide: Run 70B Models… Space Services Research](https://spaceservices.org/learn/llm-quantization-compression)
A Visual Guide toQuantization- by Maarten Grootendorst

Share this article:

測試你的理解

Q1. 非對稱量化相比既有量化方式的優勢為何？

無條件刪除數據
使用非對稱偏移量減少資訊損失
增加儲存容量

非對稱量化利用偏移量更精確地保留資訊，從而減少損失。

Q2. 在文件檢索系統中應用此技術可獲得什麼好處？

檢索速度變慢 100 倍
節省高達 32 倍的儲存空間
準確度歸零

將文件向量壓縮為二進位符號，可節省高達 32 倍的儲存空間。

Q3. 在 LLM 中，非對稱量化主要應用於何處？

主要為激活（Activations）層
硬體裝置本身
網路線

相比權重，應用於處理中間過程的激活數據能獲得更顯著的效能提升，因此主要應用於激活層。