Google Gemini 2.5 Flash-Lite 正式發佈：如果 AI 變成「最快且最便宜」的小精靈？

AI Summary

Google 正式推出極大化速度與成本效益的「Gemini 2.5 Flash-Lite」，為開發者開啟了輕鬆構建大規模 AI 服務的大門。

想像一下。 當你打開手機應用程式時，AI 助手在提出問題之前就已經掌握了狀況，並立即給出答案。而營運這項服務的公司幾乎不需支付伺服器成本，就能同時為數百萬用戶提供這項功能。這就像每個人的口袋裡都住著一個既快速又聰明的小精靈。

到目前為止，強大的 AI 給人的印象通常是「慢且昂貴」。但 Google 最近正式發佈的 Gemini 2.5 Flash-Lite 試圖打破這一常識。這款模型不僅僅是聰明，更是 Google 為了實現「最快且最便宜」營運大規模服務而設計的野心之作。Gemini 2.5 Flash-Lite is now stable and generally available

為什麼這很重要？

無論 AI 技術多麼卓越，如果企業每詢問一次就要花費數角甚至數元，那麼要向數百萬用戶免費提供服務幾乎是不可能的。此外，如果 AI 生成回答需要超過 5 秒，用戶會感到乏味並離開應用程式。

Gemini 2.5 Flash-Lite 正是同時解決了「成本」與「速度」這兩大難題。Google DeepMind 的 Logan Kilpatrick 自信地介紹這款模型為 「我們模型中最快且最具成本效益的模型」。[Gemini 2.5 Flash-Lite now GA

Nakul Gowdra](https://www.linkedin.com/posts/nakul-gowdra_gemini-25-flash-lite-now-ga-activity-7353520695227674627-o5JS)

這意味著 AI 已經準備好超越實驗室或實驗性功能，成為我們每天使用的通訊軟體、購物 App、客戶中心等大規模服務的核心引擎。事實上，Snap 和 Spline 等公司已經在實際服務環境中運用這些最新版本的模型，並藉此創新用戶體驗。Google’s Gemini 2.5 AI models are now ready for prime time…

輕鬆理解：AI 界的「濃縮咖啡」

如果要把 Gemini 2.5 Flash-Lite 做個比喻，它就像是 「濃縮咖啡 (Espresso)」。雖然量少但核心成分高度濃縮，能瞬間傳遞能量。如果說有那種能閱讀整部百科全書並撰寫論文的「教授級」大型模型（例如 Gemini Pro），那麼 Flash-Lite 則更像是能在現場立即執行指令的「敏捷前線人員」。

這款模型主要有三大核心特色：

100 萬 Token 的龐大記憶力：其「上下文窗口（Context Window，AI 一次能理解並記憶的信息量）」高達 100 萬 Token。[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews](https://news-tech.io/en/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use) 這意味著即使一次丟入數千頁的文檔並提問，它也能對答如流。這就像在短短幾秒鐘內讀完圖書館一整架的書並總結內容一樣。

接近光速的速度：根據獨立分析機構 Artificial Analysis 的數據，Gemini 2.5 Flash-Lite 在該網站基準測試（Benchmark）的付費模型中，被記錄為最快的模型。Google’s Gemini 2.5 Flash Lite is now the fastest proprietary model …

多模態（Multimodal）能力：它不僅能理解文字，還能同時分析圖片、影片等多種形式的數據。[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews](https://news-tech.io/ko/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use)

實生活中的驚人變化：成本降低，速度提升

實際導入這款模型的企業獲得了什麼樣的效果呢？從一家名為「Kitsa」的公司案例中可以看出其威力。Kitsa 在臨床試驗機構篩選過程中使用 Gemini 2.5 Flash-Lite，結果令人驚嘆：

成本節省：比以往節省了 91% 的成本。
速度提升：數據獲取速度加快了 96%。

藉此，Kitsa 能更高效地執行提取龐大數據並遵守複雜法規的工作。簡單來說，原本需要幾天的文書工作，現在只需幾分鐘，而且只需極低的成本就能完成。Gemini 2.5 Flash-Lite: Powerful, Compact AI Now in Production

更聰明的「領悟力」與簡潔的回答風格

Google 在這次正式發佈版本中進一步精煉了模型。特別是在兩個方面有了長足的進步。Continuing to bring you our latest models, with an improved Gemini 2.5 …

首先是 指令遵循（Instruction following） 能力。即使效戶提出「請按照這個格式回答」等苛刻要求，或設置複雜的系統提示詞（System Prompt），它也能更準確地執行。這就像一位資深廚師，即使你要求「鹽只要放一點點，牛肉要五分熟，最後荷蘭芹只撒在左邊」，他也能完美理解。

其次是 回答簡潔化（Reduced verbosity）。AI 有時會長篇大論一些不必要的開場白，讓用戶感到乏味，而最新的 Flash-Lite 模型則能提供精簡明確的核心答案。這不僅讓閱讀更輕鬆，還能減少使用的單詞數（Token），進而降低成本並進一步提高回答速度，達到一舉兩得的效果。

在哪裡可以使用？

Gemini 2.5 Flash-Lite 現在已透過 Google AI Studio 和 Vertex AI 正式對所有人開放。Gemini 2.5 Flash, is now generally available in Vertex AI, the Gemini API, and Google AI Studio 如果你之前使用的是「預覽（Preview）」版本，現在是切換到更穩定的正式版本的時候了。Google 表示計劃於 8 月 25 日刪除預覽別名，並完全整合為正式版本。Gemini 2.5 Flash-Lite is now ready for scaled production use

我們現在正從詢問 AI 有多聰明的時代，進入到體驗 AI 如何深入且快速地滲透進我們日常生活的時代。Gemini 2.5 Flash-Lite 預計將在最前線發揮其「小而強大」的引擎作用。

參考資料

Gemini 2.5 Flash-Lite is now stable and generally available
Gemini 2.5 Updates: Flash/Pro GA, SFT, Flash-Lite on Vertex AI

[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews](https://news-tech.io/en/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use)

Applied LLMs - Transforming Industries Through AI
Google Unveils Fast, Low-Cost AI: Gemini 2.5 Flash-Lite
Google’s Gemini 2.5 AI models are now ready for prime time…

[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews (KO)](https://news-tech.io/ko/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use)

Gemini 2.5 Flash-Lite: Powerful, Compact AI Now in Production

[Gemini 2.5 Flash-Lite now GA

Nakul Gowdra](https://www.linkedin.com/posts/nakul-gowdra_gemini-25-flash-lite-now-ga-activity-7353520695227674627-o5JS)

[Gemini 2.5 Flash Lite - API Pricing & Providers OpenRouter](https://openrouter.ai/google/gemini-2.5-flash-lite)
Gemini 2.5 model family expands - The Keyword
Google’s Gemini 2.5 Flash Lite is now the fastest proprietary model …
Gemini 2.5 Flash-Lite is now ready for scaled production use
[Gemini 2.5 Flash-Lite Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-2.5-flash-lite)
Continuing to bring you our latest models, with an improved Gemini 2.5 …

FACT-CHECK SUMMARY

Claims checked: 13
Claims verified: 13
Verdict: PASS

Share this article:

測試你的理解

Q1. Gemini 2.5 Flash-Lite 與之前的預覽版相比，以下哪項不是其改進之處？

複雜指令執行能力提升
生成更長且冗長的回答
回答風格變得更加簡潔

最新版本為了降低 Token 成本與延遲，優化了回答內容，減少冗餘並使其更加簡潔（Reduced verbosity）。

Q2. Gemini 2.5 Flash-Lite 的強項之一，代表一次能處理數據量的「上下文窗口」大小為何？

10 萬 Token
50 萬 Token
100 萬 Token

該模型提供高達 100 萬（1 Million）個 Token 的龐大上下文窗口，能一次處理長篇文檔或複雜數據。

Q3. 獨立基準測試機構 Artificial Analysis 對該模型的評價為何？

最具創意的 AI 模型
最快的付費（Proprietary）模型
支援最多語言的模型

根據 Artificial Analysis 的測試結果，Gemini 2.5 Flash-Lite 是該網站測試的付費模型中速度最快的。