Google 在 Gemini 2.0 Flash 中加入了「原生圖像生成」功能,開啟了無需額外工具、僅憑對話即可繪製並修改精細圖像的時代。
一句話就畫好!Google Gemini 描繪的新未來
想像一下。 您剛跟朋友說:「這是我昨晚夢見的一道非常特別的菜,紫色義大利麵上蓋著雲朵般的白色起司,周圍還有小精靈在跳舞。」話音剛落,那位朋友就在短短幾秒鐘內,把您想像中的畫面完整地畫了出來。
不僅僅是繪圖。如果您說:「嗯,這裡的起司雲再弄大一點,給其中一個精靈戴上紅帽子。」朋友會點點頭,立即修改畫作。 Google Gemini (Gemini) 2.0 Flash 的全新實驗性功能 「原生圖像生成 (Native Image Generation)」 正讓這種魔法般的體驗成為現實。 Google Gemini(來源 11)
今天我們將以深入淺出的方式,為您介紹 Google 這項新技術是什麼,以及它將如何改變我們的日常生活。
為什麼這很重要?「AI 將眼睛與手合而為一」
過去請 AI 繪圖時,過程有些繁瑣。當您命令擅長寫作的 AI(語言模型)時,該 AI 會在內部請求另一個擅長繪圖的 AI(圖像生成模型):「請畫這樣的圖。」打個比方,就像是 為了把英文翻譯成繁體中文,必須透過翻譯員再把訂單傳達給畫家 一樣。因為中間多了幾道手續,意圖往往無法 100% 傳達。
但這次公開的 Gemini 2.0 Flash 功能完全不同。正如 「原生 (Native)」 一詞所示,AI 從一開始就具備了同時理解並生成文字與圖像的能力。 探索 Gemini 2.0 Flash 原生圖像生成實驗 (來源 5)
這項轉變對我們至關重要的原因主要有三點:
- 可以透過對話修改圖像:在說出「畫一隻小狗」後,可以像聊天一樣要求「給那隻小狗戴上紅色項圈」來進行修改。 體驗 Gemini 2.0 Flash 原生圖像生成 (來源 3)
- 能精準地在圖像中加入文字:以前的 AI 在圖像中加入文字時,常會寫出像外星語般的破碎字體。現在,即使是長句子也能自然地排版在圖像中。 Google 為開發者推出 Gemini 2.0 Flash 原生圖像生成 (來源 13)
- 「懂得」世界樣貌後再動筆:不僅僅是模仿漂亮的畫作,它還能繪製出如料理食譜插圖般寫實且合乎邏輯的圖像。 體驗 Gemini 2.0 Flash 原生圖像生成 (來源 1)
輕鬆理解:Gemini 的「圖像生成」有何不同?
1. 對話式編輯 (Conversational Editing)
傳統的圖像生成 AI 如果讓人不滿意,必須從頭開始重新撰寫長串指令。但 Gemini 2.0 Flash 提供了 「對話式編輯」 功能。 Google 為開發者推出 Gemini 2.0 Flash 原生圖像生成 (來源 13)
打個比方,就像坐在專業設計師身旁提供即時回饋。當您說「請把背景調亮一點,並在左下角再放一盆花」時,Gemini 能聽懂您的話,並在維持原圖整體感覺的同時,精確修改您要求的部分。 Google Gemini 2.0 Flash 的原生多模態 AI 圖像生成以快速編輯與風格遷移令人印象深刻 (來源 14)
2. 提升文字渲染能力 (Improved Text Rendering)
您是否曾見過 AI 畫作中的「Happy Birthday」破碎成「Hppy Brthdy」?Gemini 2.0 Flash 徹底改善了這個陳年問題。即使是長句子也能精確地繪製在圖像中,這在製作社群媒體字卡或廣告提案時非常有用。這意味著我們不再需要把 AI 繪製的圖拿去 Photoshop 重新加字了。 體驗 Gemini 2.0 Flash 原生圖像生成 (來源 3)
3. 世界知識 (World Knowledge) 與推理
該模型最大的特點之一是 「對世界的深度理解」。它不僅僅是拼湊學習到的數據,而是經過邏輯推理,思考「在這種情況下需要這種工具」後再進行繪圖。 體驗 Gemini 2.0 Flash 原生圖像生成 (來源 1)
例如,當要求「繪製複雜的義大利麵烹飪過程」時,AI 會邏輯性地掌握各階段使用的鍋具、夾子、食材之間的關係,完成一張如同專業廚師親自下廚般的寫實插圖。 體驗 Gemini 2.0 Flash 原生圖像生成 (來源 1)
現況:在哪裡可以體驗?
| 遺憾的是,這項功能尚未正式應用於一般使用者版的「Gemini App」。不過,Google 為開發者和早期採用者在 「Google AI Studio」 實驗室空間中開放了免費體驗。 [我測試了 Gemini 的全新原生圖像生成功能,結果… | Beebom (來源 4)](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) |
- 對象:任何開發者及一般使用者 您現在可以測試 Gemini 2.0 Flash 的原生圖像輸出 (來源 6)
- 選擇模型:
gemini-2.0-flash-exp(實驗版模型) Google 在 Gemini 2.0 Flash 的原生圖像生成領域超越 OpenAI… (來源 12) - 特點:極大化多模態 (Multimodal) 能力,能同時處理文字與圖像等多種資訊。 Google: Gemini 2.0 Flash 實驗版免費線上聊天 - Skywork ai (來源 9)
| Google 計劃透過此實驗模型收集全球使用者的回饋,並在不久的將來正式在我們智慧型手機使用的 Gemini 服務中推出。 [我測試了 Gemini 的全新原生圖像生成功能,結果… | Beebom (來源 4)](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) |
未來會如何?我們生活的改變
Google 並未止步於 Gemini 2.0 Flash 的成功,已經在加快研發更強大的後續模型。
| 最近提到的 Gemini 3 Flash 在視覺化呈現複雜程式碼任務方面表現出色,且能比以往模型更快生成豐富的視覺資料。 Gemini 3 Flash — Google DeepMind (來源 8) 此外,Gemini 3.1 Flash 針對即時語音反應進行了優化,正達到如同與人通話並同步繪圖般的體驗水準。 [Gemini 3.1 Flash Live Preview | Gemini API | Google AI for Developers (來源 10)](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview) |
當這些技術完全融入我們的日常生活時,會發生什麼事呢?
- 會議中即時視覺化:AI 在旁旁聽複雜的商務會議內容,即時繪製並分享總結核心內容的圖畫與圖表。
- 製作專屬童話書:睡前與孩子對話,即時更換主角樣貌與背景,共同完成世上獨一無二的故事。
- 更直觀的居家裝潢購物:只要說「讓你看我客廳的照片。幫我配一張適合這裡的現代風格沙發」,AI 就會即時合成家具給您看。
AI 的視角 (MindTickleBytes AI 記者的觀點)
此次 Gemini 的更新顯示出 AI 正從單純的「執行工具」演進為真正的「創意夥伴」。特別是從根本上消除文字與圖像界限的「原生」方式,將使我們與機器的溝通更加人性化且自然。
以前為了讓 AI 繪圖,必須學習複雜的「提示詞 (Prompt)」,但現在就像對朋友說話一樣,能輕鬆地說「幫我改一下這裡」,這樣的時代已經近在咫尺。隨著技術發展,使用方法反而變得更簡單,這項悖論著實令人著迷,不是嗎?
參考資料
- 體驗 Gemini 2.0 Flash 原生圖像生成
- 體驗 Gemini 2.0 Flash 原生圖像生成
-
[我測試了 Gemini 的全新原生圖像生成功能,結果… Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) - 探索 Gemini 2.0 Flash 原生圖像生成實驗
- 您現在可以測試 Gemini 2.0 Flash 的原生圖像輸出
- Gemini 3 Flash — Google DeepMind
- Google: Gemini 2.0 Flash 實驗版免費線上聊天 - Skywork ai
-
[Gemini 3.1 Flash Live Preview Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-live-preview) - Google Gemini
- Google 在 Gemini 2.0 Flash 的原生圖像生成領域超越 OpenAI…
- Google 為開發者推出 Gemini 2.0 Flash 原生圖像生成
- Google Gemini 2.0 Flash 的原生多模態 AI 圖像生成以快速編輯與風格遷移令人印象深刻
- 利用 Gemini 2.0 Flash 原生圖像生成釋放創意
查核摘要
- 查核聲明數:14
- 已驗證聲明數:14
- 結論:通過
- 自動渲染
- 對話式編輯 (Conversational Editing)
- 圖形轉換
- 使用更多色彩
- 對世界的知識 (World Knowledge) 與強化的推理能力
- 單純的圖像複製技術
- Google 搜尋框
- Google AI Studio
- YouTube