开口即画?谷歌 Gemini 的惊人蜕变:轻松理解‘原生图像生成’

描绘用户输入文本提示词后,AI 实时生成高质量图像并通过对话进行修改的场景图片
AI Summary

谷歌在 Gemini 2.0 Flash 中加入了‘原生图像生成’功能,开启了无需额外工具、仅凭对话即可绘制和修改精美图像的新时代。

一句话搞定绘图!谷歌 Gemini 描绘的新未来

想象一下。 你对朋友说:“这是我昨晚梦见的一道非常特别的菜,紫色意大利面上盖着像云朵一样的白色奶酪,周围还有小精灵在跳舞。”话音刚落,那个朋友就在短短几秒钟内画出了你想象中的画面。

而且不仅仅是画画。如果你说:“嗯,把奶酪云做得再大一点,给其中一个小精灵戴上红帽子。”朋友会点点头,当场修改好画作。谷歌 Gemini 2.0 Flash 的全新实验性功能——“原生图像生成 (Native Image Generation)”正在将这种魔法变成现实。Google Gemini (来源 11)

今天,我们将用通俗易懂的方式为您介绍谷歌这项新技术究竟是什么,以及它将如何改变我们的日常生活。


为什么这很重要?“AI 将眼睛和手合二为一”

以前让 AI 画画的过程稍微有些繁琐。你需要命令一个擅长写作的 AI(语言模型),然后该 AI 在内部请求另一个擅长画画的 AI(图像生成模型):“帮我画一张这样的图。”打个比方,这就像是为了把英语翻译成韩语,先经过翻译员,再把指令传达给画家。因为存在中间环节,你的意图往往不能 100% 传达。

但这次公开的 Gemini 2.0 Flash 功能完全不同。正如“原生 (Native)”一词所暗示的,AI 从一开始就具备了同时理解和生成文字与图像的能力。探索 Gemini 2.0 Flash 原生图像生成实验 (来源 5)

这一变化对我们之所以重要,主要有三个原因:

  1. 可以通过对话修改图像:你可以先说“画一只小狗”,然后像聊天一样修改:“给那只小狗戴上红色项圈。”体验 Gemini 2.0 Flash 原生图像生成 (来源 3)
  2. 在图像中准确插入文字:以前的 AI 如果被要求在画中加入文字,往往会写出像外星语一样破碎的字符。现在,长句子也能自然地排布在图像中。谷歌为开发者推出 Gemini 2.0 Flash 原生图像生成 (来源 13)
  3. “懂得”世界的样子并进行绘制:它不仅仅是模仿漂亮的图画,还能根据逻辑绘制出写实的图像,例如烹饪配方的插图。体验 Gemini 2.0 Flash 原生图像生成 (来源 1)

轻松理解:Gemini 的‘图像生成’有何不同?

1. 对话式编辑 (Conversational Editing)

在现有的图像生成 AI 中,如果对图像不满意,必须重新编写长长的指令。但 Gemini 2.0 Flash 提供了“对话式编辑”功能。谷歌为开发者推出 Gemini 2.0 Flash 原生图像生成 (来源 13)

比喻来说,这就像坐在专业设计师身边提供实时反馈。如果你说“把背景调亮一点,左下角再放一盆花”,Gemini 会听懂你的话,在保持原图整体感觉的同时,精准修改你要求的部分。谷歌 Gemini 2.0 Flash 中的原生多模态 AI 图像生成以快速编辑、风格迁移给人留下深刻印象 (来源 14)

2. 增强的文本渲染 (Improved Text Rendering)

你是否见过 AI 画的图中“Happy Birthday”变成了“Hppy Brthdy”这类破碎的字符?Gemini 2.0 Flash 彻底改善了这一顽疾。即使是长句子也能准确地画入图像中,这在制作社交媒体贺卡或广告草案时非常有用。这意味着你不再需要把 AI 画好的图导出来再用 Photoshop 加字了。体验 Gemini 2.0 Flash 原生图像生成 (来源 3)

3. 世界知识 (World Knowledge) 与推理

该模型最大的特点之一是“对世界的深度理解”。它不只是拼接学习到的数据,而是经过“这种情况需要这种工具”的逻辑推理后再进行创作。体验 Gemini 2.0 Flash 原生图像生成 (来源 1)

例如,如果你要求“画出复杂的意大利面烹饪过程”,AI 会逻辑清晰地识别每个阶段使用的锅、夹子和食材之间的关系,完成一张仿佛出自专业厨师之手的写实插图。体验 Gemini 2.0 Flash 原生图像生成 (来源 1)


现状:在哪里可以体验?

遗憾的是,这项功能尚未正式应用于面向普通用户的“Gemini App”。不过,谷歌为开发者和早期采用者提供了一个名为“Google AI Studio”的实验室空间,让任何人都可以免费体验。[我试用了 Gemini 的新原生图像生成功能,结果…… Beebom (来源 4)](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/)
据悉,谷歌计划通过这一实验性模型收集全球用户的反馈,并在不久的将来正式推向我们智能手机上使用的 Gemini 服务。[我试用了 Gemini 的新原生图像生成功能,结果…… Beebom (来源 4)](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/)

未来会怎样?我们生活的变化

谷歌并没有止步于 Gemini 2.0 Flash 的成功,已经在加速准备更强大的后续模型。

最近提到的 Gemini 3 Flash 在视觉化呈现复杂代码任务方面表现出色,据称能比以前的模型更快地创作出丰富的视觉资料。Gemini 3 Flash — Google DeepMind (来源 8) 此外,Gemini 3.1 Flash 优化了实时语音响应,其水平甚至能让你体验到仿佛在和真人通电话的同时进行绘图。[Gemini 3.1 Flash 实时预览 Gemini API Google AI for Developers (来源 10)](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview)

当这些技术完全融入我们的日常生活时,会发生什么?

  • 会议实时视觉化:AI 在旁旁听复杂的业务会议内容,并实时将其总结为核心内容的图画和图表进行分享。
  • 制作专属绘本:睡觉前和孩子一起聊天,即时更换主角的形象和背景,共同完成世界上独一无二的故事。
  • 更直观的家具购物:如果你说“给你看我的客厅照片,请在这里摆放一张风格匹配的现代设计沙发看看”,AI 会实时合成家具展示给你。

AI 视角 (MindTickleBytes AI 记者观察)

这次 Gemini 的更新表明 AI 正在从单纯的“执行命令的工具”进化为真正的“创意合作伙伴”。特别是从根本上打破文字和图像界限的“原生”方式,将使我们与机器的沟通方式变得更加人性化和自然。

以前为了让 AI 画图,必须学习复杂的“提示词 (Prompt)”,但现在已经快步进入了可以像对朋友说话一样轻松交流“请这样改一下”的时代。技术越发展,使用方法反而越简单,这一悖论确实非常有趣。


参考资料

  1. Experiment with Gemini 2.0 Flash native image generation
  2. Experiment with Gemini 2.0 Flash native image generation
  3. [I Tried Out Gemini’s New Native Image Gen Feature, and… Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/)
  4. Explore Gemini 2.0 Flash Native Image Generation Experiment
  5. You can now test Gemini 2.0 Flash’s native image output
  6. Gemini 3 Flash — Google DeepMind
  7. Google: Gemini 2.0 Flash Experimental Free Chat Online - Skywork ai
  8. [Gemini 3.1 Flash Live Preview Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview)
  9. Google Gemini
  10. Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash…
  11. Google Launches Gemini 2.0 Flash Native Image Generation for Developers
  12. Google’s native multimodal AI image generation in Gemini 2.0 Flash impresses with fast edits, style transfers
  13. Unleash Creativity with Gemini 2.0 Flash Native Image Generation

FACT-CHECK SUMMARY

  • Claims checked: 14
  • Claims verified: 14
  • Verdict: PASS
测试你的理解
Q1. 在 Gemini 2.0 Flash 的‘原生图像生成’功能中,通过对话修改图像的功能名称是什么?
  • 自动渲染
  • 对话式编辑 (Conversational Editing)
  • 图形变换
用户可以使用‘对话式编辑 (Conversational Editing)’功能,通过自然的对话来修改和完善生成的图像。
Q2. Gemini 2.0 Flash 能够创作出更真实图像的核心原因是什么?
  • 使用了更多颜色
  • 世界知识 (World Knowledge) 与增强的推理能力
  • 简单的图像复制技术
该模型结合了关于世界运作方式的知识和逻辑推理能力,从而能够生成如烹饪配方插图般详细且真实的图像。
Q3. 目前可以直接体验这一实验性功能的工具是什么?
  • 谷歌搜索栏
  • Google AI Studio
  • YouTube
开发者和用户可以通过 Google AI Studio 中的‘gemini-2.0-flash-exp’模型免费测试此功能。