随口一说即刻作画,AI Gemini 2.0 Flash —— 这次“真家伙”来了?

形象化展示 AI 模型根据用户对话实时生成和修改图像的图片。
AI Summary

Gemini 2.0 Flash 推出了“原生图像生成”功能,无需额外工具,AI 模型自身即可直接创作图像,并通过对话进行实时修改。

前言:想象即刻化为画作的时代

各位,请想象一下。你正在向朋友描述昨天看到的壮丽景色,朋友听完你的描述,立刻就在素描本上完美地画出了那幅画面。但这还没完。如果你说:“啊,再在那个山丘上画一棵树吧”,朋友立刻就刷刷几笔添上了一棵树;如果你说:“希望夕阳的余晖能再温暖一点”,朋友就会把色调调得更加温馨。

这种如魔法般的事情,现在正在你的电脑屏幕上成为现实。谷歌为其最新的 AI 模型 Gemini 2.0 Flash 搭载了“原生(Native)”图像生成功能,并已正式向开发者开放体验 体验 Gemini 2.0 Flash 原生图像生成

今天,MindTickleBytes 将带你一起深入浅出地探讨为什么“原生”一词具有如此革命性的意义,以及这项技术将如何改变我们的日常生活。


为什么这很重要?没有“中间人”的真正多模态登场

直到现在,我们接触到的大多数图像生成 AI 实际上都像是在中间隔了一个“翻译官”。例如,当我们输入“画一只正在吃苹果的小狗”时,理解文本的 AI 会分析这句话,然后将指令传递给另一个“专门”负责画画的 AI。

但 Gemini 2.0 Flash 完全不同。这个模型是 “原生(Native)” 的,也就是说,它从诞生之初就被设计成能同时理解和生成文本与图像的统一体 Gemini 2.0 Flash:释放原生图像生成能力 - 技术深潜

为了方便理解,我们可以打个比方:

  • 传统方式:就像一个只会韩语的主厨和一个只会英语的副厨,通过一个“翻译员”来协作烹饪。沟通过程中可能会产生误解,速度自然也快不起来。
  • 原生方式 (Gemini 2.0):就像一位既精通韩语又精通英语,且厨艺精湛的“天才主厨”独自掌管厨房。在听到客人下单的瞬间,脑海中就已经勾勒出了成品图并开始烹饪。

得益于这种整合,Gemini 2.0 Flash 不仅仅是完成一次性的绘画,更带来了通过与用户对话实时修改画作的 “交互式图像编辑 (Conversational image editing)” 惊艳体验 您现在可以测试 Gemini 2.0 Flash 的原生图像输出


易于理解 1:理解世界运行规律的 AI 画出的画

Gemini 2.0 Flash 的另一个强项在于其 “对世界的深刻理解 (World understanding)”“推理能力 (Reasoning)” 体验 Gemini 2.0 Flash 原生图像生成

以往的许多图像模型专注于通过学习数万张图片数据来模仿视觉模式,比如“大约在某种颜色后面会出现某种形状”。相比之下,Gemini 在作画时会积极利用通过海量文本数据学到的“知识”。

例如,如果你要求它“画一张解释复杂意面食谱的插图”,Gemini 不仅仅是画一张好看的食物图,它还会基于“烹饪过程中需要哪些工具”、“面条煮熟后质感会如何变化”等实际知识,创作出更加写实且符合逻辑的图像 体验 Gemini 2.0 Flash 原生图像生成 - ONMINE

当然,谷歌也坦诚地表示,该模型的知识虽然“广泛且通用,但并非绝对或完全无误” 体验 Gemini 2.0 Flash 原生图像生成。但可以肯定的是,它比以往的模型更像一个“听得懂人话”的聪明画家。


易于理解 2:“劳模” AI 的诞生与巨大的记忆力

谷歌将 Gemini 2.0 Flash 称为 “劳模 (Workhorse)” AI Gemini 2.0 Flash:释放原生图像生成能力 - 技术深潜。这意味着该模型不仅是为了展示新奇功能,更是为了在实际工作或服务场景中能够快速、高效地使用而进行了优化。

其核心优势之一就是高达 100 万 (1M) token 的上下文窗口 (Context window,即信息处理容量) [Gemini 2.0 Flash Vertex AI 上的生成式 AI Google Cloud 文档](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)。

这里的“上下文窗口”是指 AI 一次性能记住并处理的信息量。形象地说,它就像是 AI 的“工作记忆”空间。

  • 100 万 token 意味着它能一次性将相当于数十本厚小说的信息量装进脑海并开展工作。
拥有如此巨大的记忆库,即使与用户进行非常漫长的对话,它也不会忘记之前提出的细节修改要求,并能准确反映在画作中。谷歌解释说,这是为了迎接 “智能体时代 (Agentic era)” 而设计的,即 AI 将超越单纯的工具,扮演能够自主判断和行动的“主动秘书”角色 [Gemini 2.0 Flash Vertex AI 上的生成式 AI Google Cloud 文档](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)。

当前现状:谁可以如何使用?

目前,这一惊艳的功能正处于“实验”阶段,供开发者率先体验。

  1. 面向对象:任何使用 Google AI Studio 的用户或使用 Gemini API 的开发者都可以进行测试 谷歌 Gemini 2.0 Flash 中的原生多模态 AI 图像生成…
  2. 核心功能:包括文本与图像的自然组合生成、交互式图像编辑、利用世界知识进行有逻辑的视觉化等 体验 Gemini 2.0 Flash 原生图像生成
  3. 使用方式:在 Google AI Studio 中选择“Gemini 2.0 Flash”模型,然后在聊天框输入“请画一幅什么样的画”。看到生成的画作后,可以通过追加对话要求修改,如“把天空调得更蓝一点”,修改会立即反映出来 Gemini 2.0 Flash:释放原生图像生成能力 - 技术深潜

这项技术在去年 12 月仅向部分测试者公开,现在经过更多开发者的磨合,已经准备好在不久的将来融入我们使用的各种应用和服务中 体验 Gemini 2.0 Flash 原生图像生成


未来展望:生活将迎来哪些变化

Gemini 2.0 Flash 展示的“原生图像生成”不仅是绘画技术的进步,更将为我们所有人带来 “表达的民主化”

  • 个人定制插图:即使不是专业画家,任何人都能轻松创作出完美契合自己文章的插图,或是蕴含家乡特色的艺术作品 Gemini 2.0 Flash 简介 - GitHub
  • 鲜活的故事叙述:在给孩子们读童话书时,根据孩子们天马行空的想象实时改变画面内容的“互动童话”也将成为现实 intro_gemini_2_0_flash.ipynb - Colab
  • 真正的多模态助手:文本、图像,甚至语音 (TTS) 都将整合为一,一个能完美理解我们意图并将其视觉化的“专属 AI 伙伴”将成为日常 使用 Gemini 2.0 Flash 实验版进行图像生成

通过这次更新,谷歌展现了领先竞争对手一步、推动“原生”方式图像生成大众化的强劲势头 谷歌凭借 Gemini 2.0 Flash 的原生图像生成领先 OpenAI


AI 的视角:MindTickleBytes 的总结

如果说过去的 AI 只是机械地执行我们交代的任务,那么现在的 AI 正在进化为能够读懂我们的意图并一起思考、创作的“伙伴”。Gemini 2.0 Flash 的出现,将成为彻底打破文本与图像这两种不同语言障碍的重要里程碑。技术越是复杂,我们的想象力就越能获得自由。现在,你最想请这位 AI 画家为你画出一幅怎样的风景呢?


参考资料

  1. 体验 Gemini 2.0 Flash 原生图像生成
  2. 体验 Gemini 2.0 Flash 原生图像生成
  3. 体验 Gemini 2.0 Flash 原生图像生成
  4. 体验 Gemini 2.0 Flash 中的原生图像生成
  5. 体验 Gemini 2.0 Flash 原生图像生成 - ONMINE
  6. 体验 Gemini 2.0 Flash 原生图像生成
  7. [Gemini 2.0 Flash Vertex AI 上的生成式 AI Google Cloud 文档](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)
  8. Gemini 2.0 Flash:释放原生图像生成能力 - 技术深潜
  9. Gemini 2.0 Flash 简介 - GitHub
  10. intro_gemini_2_0_flash.ipynb - Colab
  11. 使用 Gemini 2.0 Flash 实验版进行图像生成
  12. 您现在可以测试 Gemini 2.0 Flash 的原生图像输出
  13. 谷歌 Gemini 2.0 Flash 中的原生多模态 AI 图像生成…
  14. 谷歌凭借 Gemini 2.0 Flash 的原生图像生成领先 OpenAI
测试你的理解
Q1. Gemini 2.0 Flash 的图像生成方式“原生(Native)”有什么特点?
  • 使用专门负责图像生成的独立引擎。
  • 模型直接整合处理并生成文本与图像。
  • 需要将文本转换为图像的翻译工具。
Gemini 2.0 Flash 是一个将文本和图像生成整合为一的“原生多模态”模型。
Q2. Gemini 2.0 Flash 的“上下文窗口(数据处理容量)”有多大?
  • 1万 token
  • 10万 token
  • 100万(1M) token
Gemini 2.0 Flash 拥有高达 100 万(1M) token 的超大上下文窗口。
Q3. 文中提到的使用 Gemini 2.0 Flash 创作图像的优点是什么?
  • 只描绘绝对完美的事实。
  • 可以通过对话修改图像,实现“交互式编辑”。
  • 图像生成速度较慢,但质量极高。
现在可以通过自然对话实时修改图像,实现“交互式图像编辑”。
随口一说即刻作画,AI Gemini 2.0 Flas...
0:00