用语音让 AI 编辑照片?谷歌 Gemini 2.0 Flash 展示图像生成的未来

展现谷歌 Gemini 2.0 Flash 同时生成文本和图像并与用户对话的图形
AI Summary

谷歌 Gemini 2.0 Flash 向开发者开放了“原生图像生成”功能,其文本和图像同时输出的速度比前代模型快 2 倍,开启了对话式图像编辑的新时代。

请试想一下。假设您正在经营一个美食博客,您对 AI 说:“请帮我介绍一下今天做的草莓蛋糕配方。” 于是 AI 在写出诱人配方的同时,即刻展现出一张完美契合步骤的蛋糕照片。但如果照片中蛋糕上的奶油看起来有点少怎么办?再次对它说:“多加一点奶油,再在上面放一片薄荷叶”,AI 就会心领神会,瞬间修改并重新展示照片。Gemini 2.0 Flash 实验版:用自然语言创建与编辑图像……

这并非遥不可及的科幻故事。这是谷歌最新的人工智能模型 Gemini 2.0 Flash 刚刚带到我们身边的惊人变化。你现在可以测试 Gemini 2.0 Flash 的原生图像输出

为什么这很重要?

迄今为止我们使用的大多数图像生成 AI 更像是一种“配送服务”。因为理解文本的“大脑”和绘画的“手”是分开工作的。我们输入文字,文本模型进行解析并传达给图像模型,图像模型再画好后送回。打个比方,接单的店员和厨师在不同的房间,沟通传递过程既费时,有时还会因为误解而做出我们并不想要的菜肴。

但 Gemini 2.0 Flash 完全不同。该模型具备“原生(Native)”多模态(同时处理多种形式信息的技术)能力。谷歌凭借 Gemini 2.0 Flash 中的原生图像生成技术超越 OpenAI 这意味着同一个人工智能大脑可以同时学习、理解并生成文字和图像。

这一变化的重要性可以概括为以下三点:

  1. 压倒性的速度:比前代模型 Gemini 1.5 Flash 快了整整 2 倍Gemini 2.0 Flash 实验版:用自然语言创建与编辑图像…… 无需焦急等待,即可与 AI 实现即时沟通。
  2. 准确的语境把握:基于对世界的博大知识和推理能力,它不再是单纯地“印制”漂亮图片,而是生成完美契合当前情境的“准确”图像。体验 Gemini 2.0 Flash 原生图像生成 - ONMINE
  3. 自然的对话:不再是扔下一张图就了事,而是可以像和朋友聊天一样有来有往,精细地打磨作品。Gemini 2.0 Flash 图像生成与编辑 - GitHub

轻松理解:什么是“原生”图像生成?

如果这个概念听起来还是有点深奥,不如通过下面两个比喻来轻松理解吧。

比喻 1:“翻译员”与“双语者”的区别

如果说传统方式是只会韩语的人和只会英语的人通过翻译进行交流的压抑结构,那么 Gemini 2.0 Flash 就如同一个能将两种语言都作为母语完美掌控的双语者探索 Gemini 2.0 Flash 原生图像生成实验 由于不需要额外的翻译过程,速度自然飞快,且能精准捕捉意图而无任何细微差别的扭曲,同时产出文字和图像。谷歌凭借 Gemini 2.0 Flash 中的原生图像生成技术超越 OpenAI

比喻 2:“动动嘴皮子的 PS”

如果说传统的图像编辑是一项需要学习复杂工具用法并用鼠标逐一修改的苦活,那么现在只需动动嘴说“把旁边的椅子挪走”、“把背景换成夕阳下的海边”即可完成。因为 Gemini 2.0 Flash 记得我们对话的所有语境,所以哪怕只说“在刚才那张画里……”,它也能准确理解该如何修改。Gemini 2.0 Flash 图像生成与编辑 - GitHub 使用 Gemini 2.0 Flash 实验版进行图像生成

现状:在哪里可以体验?

在向大众全面开放这一创新功能之前,谷歌首先为开发者开辟了道路,让他们可以尽情实验并打造工具。体验 Gemini 2.0 Flash 原生图像生成

这项技术自去年 12 月起已向部分专家公开并经过了严格验证,现在正处于更多创作者测试其可能性的阶段。体验 Gemini 2.0 Flash 原生图像生成

未来会怎样?

Gemini 2.0 Flash 的出现,其意义远不止于诞生了一个“画图更漂亮的 AI”。

第一,它是向拥有“真智能”的 AI 的进化。该模型并非单纯模仿现有图片的模式,而是基于对世界运行规律的认知(World Knowledge)进行思考。体验 Gemini 2.0 Flash 原生图像生成 - ONMINE 例如在解释复杂食谱时,它会“理解”该菜肴实际应有的质感和形状,进而生成图像。体验 Gemini 2.0 Flash 原生图像生成 - Google ……

第二,创造力的爆发。谷歌已在 Gemini 2.0 Flash 之外,着手准备处理复杂编程任务或数据可视化速度极快的 Gemini 3 Flash 等未来型模型。Gemini 3 Flash — Google DeepMind

不久后,这些实验性功能将正式应用到我们每天使用的谷歌应用或 Gemini 服务中。[我体验了 Gemini 的新原生图像生成功能,结果…… Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) 届时,我们将真正实现与 AI 对话并把个人想象变为现实,让这种体验成为日常生活的一部分。

AI 的视角

以往的 AI 图像生成给人一种强烈的“刮彩票看运气”的感觉。但 Gemini 2.0 Flash 邀请我们进入“真正的对话”领域,AI 在其中实时理解我们的意图并共同完成作品。随着技术对人类语言理解得愈发深厚与温情,我们的想象力将摆脱工具的束缚,飞向更远、更自由的远方。

参考资料

  1. Experiment with Gemini 2.0 Flash native image generation
  2. Experiment With Gemini 2.0 Flash Native Image Generation
  3. Experiment with native image generation in Gemini 2.0 Flash
  4. Experiment with Gemini 2.0 Flash native image generation - ONMINE
  5. Experiment with Gemini 2.0 Flash native image generation- Google …
  6. Experiment with Gemini 2.0 Flash native image generation
  7. Gemini 2.0 Flash Image Generation and Editing - GitHub
  8. Gemini 3 Flash — Google DeepMind
  9. Explore Gemini 2.0 Flash Native Image Generation Experiment
  10. [I Tried Out Gemini’s New Native Image Gen Feature, and… Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/)
  11. Google: Gemini 2.0 Flash Experimental Free Chat Online - Skywork ai
  12. Gemini 2.0 Flash Experimental Let’s Create and Edit Images In…
  13. Image Generation with Gemini 2.0 Flash Experimental
  14. You can now test Gemini 2.0 Flash’s native image output
  15. Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash
  16. Google’s native multimodal AI image generation in Gemini 2.0 Flash …

FACT-CHECK SUMMARY

  • Claims checked: 12
  • Claims verified: 12
  • Verdict: PASS
测试你的理解
Q1. 与前代模型 Gemini 1.5 Flash 相比,Gemini 2.0 Flash 的速度提升了多少?
  • 约 1.5 倍
  • 约 2 倍
  • 约 5 倍
Gemini 2.0 Flash 的速度比前代模型 1.5 Flash 快 2 倍。
Q2. 在 Gemini 2.0 Flash 的图像生成功能中,通过对话修改图像的功能名称是什么?
  • 静态图像生成
  • 对话式图像编辑
  • 简单滤镜应用
该模型支持“对话式图像编辑”功能,可通过自然语言指令修改现有图像,并在保持对话语境的同时进行改进。
Q3. 目前普通开发者可以在哪里免费体验 Gemini 2.0 Flash 的实验性功能?
  • 谷歌搜索框
  • Google AI Studio
  • YouTube
Gemini 2.0 Flash 的实验性图像生成模型目前可在 Google AI Studio 免费使用。