谷歌在 Gemini 2.0 Flash 中加入了‘原生图像生成’功能,开启了无需额外工具、仅凭对话即可绘制和修改精美图像的新时代。
一句话搞定绘图!谷歌 Gemini 描绘的新未来
想象一下。 你对朋友说:“这是我昨晚梦见的一道非常特别的菜,紫色意大利面上盖着像云朵一样的白色奶酪,周围还有小精灵在跳舞。”话音刚落,那个朋友就在短短几秒钟内画出了你想象中的画面。
而且不仅仅是画画。如果你说:“嗯,把奶酪云做得再大一点,给其中一个小精灵戴上红帽子。”朋友会点点头,当场修改好画作。谷歌 Gemini 2.0 Flash 的全新实验性功能——“原生图像生成 (Native Image Generation)”正在将这种魔法变成现实。Google Gemini (来源 11)
今天,我们将用通俗易懂的方式为您介绍谷歌这项新技术究竟是什么,以及它将如何改变我们的日常生活。
为什么这很重要?“AI 将眼睛和手合二为一”
以前让 AI 画画的过程稍微有些繁琐。你需要命令一个擅长写作的 AI(语言模型),然后该 AI 在内部请求另一个擅长画画的 AI(图像生成模型):“帮我画一张这样的图。”打个比方,这就像是为了把英语翻译成韩语,先经过翻译员,再把指令传达给画家。因为存在中间环节,你的意图往往不能 100% 传达。
但这次公开的 Gemini 2.0 Flash 功能完全不同。正如“原生 (Native)”一词所暗示的,AI 从一开始就具备了同时理解和生成文字与图像的能力。探索 Gemini 2.0 Flash 原生图像生成实验 (来源 5)
这一变化对我们之所以重要,主要有三个原因:
- 可以通过对话修改图像:你可以先说“画一只小狗”,然后像聊天一样修改:“给那只小狗戴上红色项圈。”体验 Gemini 2.0 Flash 原生图像生成 (来源 3)
- 在图像中准确插入文字:以前的 AI 如果被要求在画中加入文字,往往会写出像外星语一样破碎的字符。现在,长句子也能自然地排布在图像中。谷歌为开发者推出 Gemini 2.0 Flash 原生图像生成 (来源 13)
- “懂得”世界的样子并进行绘制:它不仅仅是模仿漂亮的图画,还能根据逻辑绘制出写实的图像,例如烹饪配方的插图。体验 Gemini 2.0 Flash 原生图像生成 (来源 1)
轻松理解:Gemini 的‘图像生成’有何不同?
1. 对话式编辑 (Conversational Editing)
在现有的图像生成 AI 中,如果对图像不满意,必须重新编写长长的指令。但 Gemini 2.0 Flash 提供了“对话式编辑”功能。谷歌为开发者推出 Gemini 2.0 Flash 原生图像生成 (来源 13)
比喻来说,这就像坐在专业设计师身边提供实时反馈。如果你说“把背景调亮一点,左下角再放一盆花”,Gemini 会听懂你的话,在保持原图整体感觉的同时,精准修改你要求的部分。谷歌 Gemini 2.0 Flash 中的原生多模态 AI 图像生成以快速编辑、风格迁移给人留下深刻印象 (来源 14)
2. 增强的文本渲染 (Improved Text Rendering)
你是否见过 AI 画的图中“Happy Birthday”变成了“Hppy Brthdy”这类破碎的字符?Gemini 2.0 Flash 彻底改善了这一顽疾。即使是长句子也能准确地画入图像中,这在制作社交媒体贺卡或广告草案时非常有用。这意味着你不再需要把 AI 画好的图导出来再用 Photoshop 加字了。体验 Gemini 2.0 Flash 原生图像生成 (来源 3)
3. 世界知识 (World Knowledge) 与推理
该模型最大的特点之一是“对世界的深度理解”。它不只是拼接学习到的数据,而是经过“这种情况需要这种工具”的逻辑推理后再进行创作。体验 Gemini 2.0 Flash 原生图像生成 (来源 1)
例如,如果你要求“画出复杂的意大利面烹饪过程”,AI 会逻辑清晰地识别每个阶段使用的锅、夹子和食材之间的关系,完成一张仿佛出自专业厨师之手的写实插图。体验 Gemini 2.0 Flash 原生图像生成 (来源 1)
现状:在哪里可以体验?
| 遗憾的是,这项功能尚未正式应用于面向普通用户的“Gemini App”。不过,谷歌为开发者和早期采用者提供了一个名为“Google AI Studio”的实验室空间,让任何人都可以免费体验。[我试用了 Gemini 的新原生图像生成功能,结果…… | Beebom (来源 4)](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) |
- 对象:开发者及所有普通用户 你现在可以测试 Gemini 2.0 Flash 的原生图像输出 (来源 6)
- 选择模型:
gemini-2.0-flash-exp(实验版本模型) 谷歌在 Gemini 2.0 Flash 中通过原生图像生成领先于 OpenAI…… (来源 12) - 特征:极大化了多模态 (Multimodal,同时处理文本、图像等多种信息) 能力,可以一次性收发文字和图片。谷歌:Gemini 2.0 Flash 实验版免费在线聊天 - Skywork ai (来源 9)
| 据悉,谷歌计划通过这一实验性模型收集全球用户的反馈,并在不久的将来正式推向我们智能手机上使用的 Gemini 服务。[我试用了 Gemini 的新原生图像生成功能,结果…… | Beebom (来源 4)](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) |
未来会怎样?我们生活的变化
谷歌并没有止步于 Gemini 2.0 Flash 的成功,已经在加速准备更强大的后续模型。
| 最近提到的 Gemini 3 Flash 在视觉化呈现复杂代码任务方面表现出色,据称能比以前的模型更快地创作出丰富的视觉资料。Gemini 3 Flash — Google DeepMind (来源 8) 此外,Gemini 3.1 Flash 优化了实时语音响应,其水平甚至能让你体验到仿佛在和真人通电话的同时进行绘图。[Gemini 3.1 Flash 实时预览 | Gemini API | Google AI for Developers (来源 10)](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview) |
当这些技术完全融入我们的日常生活时,会发生什么?
- 会议实时视觉化:AI 在旁旁听复杂的业务会议内容,并实时将其总结为核心内容的图画和图表进行分享。
- 制作专属绘本:睡觉前和孩子一起聊天,即时更换主角的形象和背景,共同完成世界上独一无二的故事。
- 更直观的家具购物:如果你说“给你看我的客厅照片,请在这里摆放一张风格匹配的现代设计沙发看看”,AI 会实时合成家具展示给你。
AI 视角 (MindTickleBytes AI 记者观察)
这次 Gemini 的更新表明 AI 正在从单纯的“执行命令的工具”进化为真正的“创意合作伙伴”。特别是从根本上打破文字和图像界限的“原生”方式,将使我们与机器的沟通方式变得更加人性化和自然。
以前为了让 AI 画图,必须学习复杂的“提示词 (Prompt)”,但现在已经快步进入了可以像对朋友说话一样轻松交流“请这样改一下”的时代。技术越发展,使用方法反而越简单,这一悖论确实非常有趣。
参考资料
- Experiment with Gemini 2.0 Flash native image generation
- Experiment with Gemini 2.0 Flash native image generation
-
[I Tried Out Gemini’s New Native Image Gen Feature, and… Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) - Explore Gemini 2.0 Flash Native Image Generation Experiment
- You can now test Gemini 2.0 Flash’s native image output
- Gemini 3 Flash — Google DeepMind
- Google: Gemini 2.0 Flash Experimental Free Chat Online - Skywork ai
-
[Gemini 3.1 Flash Live Preview Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview) - Google Gemini
- Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash…
- Google Launches Gemini 2.0 Flash Native Image Generation for Developers
- Google’s native multimodal AI image generation in Gemini 2.0 Flash impresses with fast edits, style transfers
- Unleash Creativity with Gemini 2.0 Flash Native Image Generation
FACT-CHECK SUMMARY
- Claims checked: 14
- Claims verified: 14
- Verdict: PASS
- 自动渲染
- 对话式编辑 (Conversational Editing)
- 图形变换
- 使用了更多颜色
- 世界知识 (World Knowledge) 与增强的推理能力
- 简单的图像复制技术
- 谷歌搜索栏
- Google AI Studio
- YouTube