谷歌 Gemini 2.5 Flash-Lite 正式发布：当 AI 成为“最快且最便宜”的小精灵？

AI Summary

谷歌正式发布了将速度与成本效益发挥到极致的 'Gemini 2.5 Flash-Lite'，为所有人开启了无压力构建大规模 AI 服务的大门。

想象一下。 当你打开智能手机应用时，AI 助手在你提出问题之前就已经洞察了现状并立即给出答案。而运营这项服务的公司几乎不需要支付服务器成本，就能同时为数百万用户提供这一功能。这就像每个人的口袋里都装进了一只既快速又聪明的小精灵。

在此之前，人们普遍认为强大的 AI 意味着“慢且贵”。但谷歌最近正式发布的 Gemini 2.5 Flash-Lite 试图彻底打破这一常识。这款模型不仅聪明，更是谷歌为了实现“最快且最便宜”地运营大规模服务而设计的野心之作。Gemini 2.5 Flash-Lite is now stable and generally available

为什么这很重要？

无论 AI 技术多么出色，如果企业每次提问都要支付昂贵的费用，那么几乎不可能向数百万用户免费提供服务。此外，如果 AI 生成回答需要超过 5 秒的时间，用户会感到厌倦并离开应用。

Gemini 2.5 Flash-Lite 正是抓住了“成本”与“速度”这两只兔子。谷歌 DeepMind 的 Logan Kilpatrick 自信地介绍这款模型为“我们模型中最快且成本效益最高的模型”。[Gemini 2.5 Flash-Lite now GA

Nakul Gowdra](https://www.linkedin.com/posts/nakul-gowdra_gemini-25-flash-lite-now-ga-activity-7353520695227674627-o5JS)

这意味着 AI 现在已经准备好走出实验室或实验性功能，成为我们每天使用的即时通讯、购物应用、客户中心等大规模服务的核心引擎。事实上，Snap 和 Spline 等企业已经在实际服务环境中使用这些最新版本的模型，并正在革新用户体验。Google’s Gemini 2.5 AI models are now ready for prime time…

轻松理解：AI 界的“浓缩咖啡”

如果要把 Gemini 2.5 Flash-Lite 做个形象的比喻，它就像是 “浓缩咖啡（Espresso）”。虽然量少，但核心成分浓缩在一起，能瞬间传递能量。如果说阅读整本百科全书并撰写论文的大型模型（如 Gemini Pro）是“教授”，那么 Flash-Lite 则更像是现场立即执行指令的“敏捷外勤人员”。

该模型具有三大核心特征：

100万 Token 的庞大记忆力：其“上下文窗口（Context Window，AI 一次能理解和记忆的信息量）”高达 100万 Token。[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews](https://news-tech.io/en/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use) 这意味着即使一次性投入数千页的文档并提问，它也能对答如流。就像在短短几秒钟内读完图书馆一个书架的所有书籍并总结内容一样。

接近光速的速度：根据独立分析机构 Artificial Analysis 的数据，Gemini 2.5 Flash-Lite 在该网站进行基准测试（Benchmark，性能衡量标准）的所有付费模型中被记录为最快的模型。Google’s Gemini 2.5 Flash Lite is now the fastest proprietary model …

多模态（Multimodal）能力：它不仅能理解文本，还能同时分析图像、视频等多种形式的数据。[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews](https://news-tech.io/ko/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use)

生活中的惊人变化：成本降低，速度飙升

实际引入该模型的企业效果如何？从一家名为 ‘Kitsa’ 的企业案例中可以感受到其威力。Kitsa 在临床试验机构筛选过程中使用了 Gemini 2.5 Flash-Lite，结果令人惊叹：

成本节省：与以往相比节省了 91% 的成本。
速度提升：获取数据的速度提高了 96%。

通过该模型，Kitsa 能够更高效地执行提取庞大数据并遵守复杂法规的任务。简单来说，原本需要几天的文书工作，现在只需几分钟，且成本极低即可完成。Gemini 2.5 Flash-Lite: Powerful, Compact AI Now in Production

更聪明的“悟性”与简洁的回复风格

谷歌在这次正式发布版本中对模型进行了更精细的打磨，尤其在两个方面有了巨大进步。Continuing to bring you our latest models, with an improved Gemini 2.5 …

首先是指令遵循（Instruction following）能力。即使面对用户“请按照这个格式回答”的苛刻要求，或复杂的系统提示词（System Prompt，赋予 AI 的基本角色设定），它也能更准确地执行。就像一位老练的厨师，即使你要求“盐放极少，肉烤至七分熟，最后只在左边撒欧芹”，他也能完美理解。

其次是回复的简洁性（Reduced verbosity）。AI 有时会因为冗长的开场白而让用户感到乏味，而最新的 Flash-Lite 模型只提供必要的核心答案。这不仅提升了阅读体验，还减少了使用的单词数（Token），从而实现了降低成本和进一步提升回答速度的一石二鸟之效。

哪里可以体验？

Gemini 2.5 Flash-Lite 现在已通过 Google AI Studio 和 Vertex AI 正式向所有人开放。Gemini 2.5 Flash, is now generally available in Vertex AI, the Gemini API, and Google AI Studio 如果你之前使用的是“预览（Preview）”版，现在是转向更稳定的正式版的时候了。谷歌表示，计划在 8月 25日移除预览别名，并完全整合为正式版本。Gemini 2.5 Flash-Lite is now ready for scaled production use

我们现在正从询问 AI 有多聪明的时代，步入体验 AI 多么深刻且快速地融入我们日常生活的时代。Gemini 2.5 Flash-Lite 作为处于最前沿的“小而强”引擎，预计将发挥重要作用。

参考资料

Gemini 2.5 Flash-Lite is now stable and generally available
Gemini 2.5 Updates: Flash/Pro GA, SFT, Flash-Lite on Vertex AI

[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews](https://news-tech.io/en/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use)

Applied LLMs - Transforming Industries Through AI
Google Unveils Fast, Low-Cost AI: Gemini 2.5 Flash-Lite
Google’s Gemini 2.5 AI models are now ready for prime time…

[Gemini 2.5 Flash-Lite is now ready for scaled production…

TechNews (KO)](https://news-tech.io/ko/news/gemini-25-flash-lite-is-now-ready-for-scaled-production-use)

Gemini 2.5 Flash-Lite: Powerful, Compact AI Now in Production

[Gemini 2.5 Flash-Lite now GA

Nakul Gowdra](https://www.linkedin.com/posts/nakul-gowdra_gemini-25-flash-lite-now-ga-activity-7353520695227674627-o5JS)

[Gemini 2.5 Flash Lite - API Pricing & Providers OpenRouter](https://openrouter.ai/google/gemini-2.5-flash-lite)
Gemini 2.5 model family expands - The Keyword
Google’s Gemini 2.5 Flash Lite is now the fastest proprietary model …
Gemini 2.5 Flash-Lite is now ready for scaled production use
[Gemini 2.5 Flash-Lite Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-2.5-flash-lite)
Continuing to bring you our latest models, with an improved Gemini 2.5 …

事实核查总结

核查项目：13
验证通过：13
结论：通过 (PASS)

Share this article:

测试你的理解

Q1. 与之前的预览版相比，Gemini 2.5 Flash-Lite 的哪项改进是不正确的？

复杂指令遵循能力提升
生成更长且更冗长的回复
回复风格更加简洁

最新版本通过减少回复冗余（Reduced verbosity），使回复更加简洁，从而降低了 Token 成本并减少了等待时间。

Q2. 作为 Gemini 2.5 Flash-Lite 的强项之一，代表一次性可处理数据量的“上下文窗口”大小是多少？

10万 Token
50万 Token
100万 Token

该模型提供了高达 100万（1 Million）Token 的庞大上下文窗口，能够一次性处理长文档或复杂数据。

Q3. 独立基准测试机构 Artificial Analysis 对该模型的评价是？

最具创造力的 AI 模型
最快的付费（Proprietary）模型
支持语言最多的模型

根据 Artificial Analysis 的基准测试结果，Gemini 2.5 Flash-Lite 在该网站测试的所有付费模型中记录了最快的速度。