Gemini 2.0 Flash 展示了「原生圖像生成」功能,無需額外工具,AI 模型本身即可直接創作圖像,並透過對話進行即時修改。
前言:想像力即刻化為眼前畫作的時代
各位請試著想像一下:你正在向朋友描述昨天看到的絕美風景,朋友聽完你的描述,立刻在素描本上完美勾勒出那幅畫面。不僅如此,當你說「啊,請在那座山丘上多畫一棵樹」時,朋友馬上隨手補上一棵;當你說「希望夕陽的光芒能再溫暖一點」時,他便立刻將色調調整得更加柔和。
這種宛如魔法般的事情,現在正透過你的電腦螢幕成為現實。Google 已在其最新的 AI 模型 Gemini 2.0 Flash 中搭載了「原生 (Native)」圖像生成功能,並正式開放給開發者進行實驗 Experiment with Gemini 2.0 Flash native image generation。
今天,MindTickleBytes 將帶領大家以輕鬆有趣的方式,深入探討為什麼「原生」這個詞具有革命性意義,以及這項技術將如何改變我們的日常生活。
為什麼這很重要?沒有「中間人」的真正多模態登場
到目前為止,我們接觸的大多數圖像生成 AI 都是以「翻譯機」作為中介。例如,當我們輸入「畫一隻正在吃蘋果的小狗」時,理解文本的 AI 會先分析這句話,再將指令傳達給「另一個」專門畫圖的 AI。
但 Gemini 2.0 Flash 完全不同。這個模型是 「原生 (Native)」 的,也就是說,它從誕生之初就被設計成能同時理解並生成文本與圖像的整合體 Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive。
為了方便理解,我們來打個比方:
- 傳統方式:就像一位只會說韓文的主廚和一位只會說英文的二廚,中間隔著一名「翻譯員」在做菜。傳達過程中可能會產生誤解,且速度自然較慢。
- 原生方式 (Gemini 2.0):就像一位精通韓文、英文,且廚藝精湛的「天才名廚」獨自掌控廚房。他聽取客人的點餐後,腦海中立刻浮現完成的畫面,並隨即開始烹飪。
得益於這種整合,Gemini 2.0 Flash 不僅能繪製一次性的圖畫,更能提供與使用者對話並即時修正畫作的 「對話式圖像編輯 (Conversational image editing)」 驚豔體驗 You can now test Gemini 2.0 Flash’s native image output。
輕鬆理解 1:通曉世理的 AI 所繪製的畫作
Gemini 2.0 Flash 的另一個強項在於其 「對世界的深刻理解 (World understanding)」 與 「推理能力 (Reasoning)」 Experiment with Gemini 2.0 Flash native image generation。
以往許多圖像模型主要是學習數萬張圖片數據,專注於模擬「大概這種顏色後面會出現這種形狀」的視覺模式。相比之下,Gemini 在作畫時會積極運用透過龐大文本數據學到的「知識」。
舉例來說,若你要求「畫一張解釋複雜義大利麵食譜的插圖」,Gemini 不僅會畫出一道漂亮的料理,還會根據實際烹飪過程中需要什麼工具、麵條煮熟後質地如何變化等知識,創作更具真實感且符合情境的圖像 Experiment with Gemini 2.0 Flash native image generation - ONMINE。
當然,Google 也誠實地表示該模型的知識「廣泛且普遍,但並非絕對或完全」 Experiment with Gemini 2.0 Flash native image generation。但可以確定的是,它絕對比以往的模型更「聽得懂人話」,是一位更聰明的畫家。
輕鬆理解 2:「苦力 (Workhorse)」 AI 的誕生與超大記憶力
Google 將 Gemini 2.0 Flash 稱為 「苦力 (Workhorse,指默默耕耘、盡職盡責的馬)」 AI Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive。這意味著該模型不只是展示新奇功能,更被優化為能在工作或服務現場快速且高效地投入使用。
| 其強大依據之一便是高達 100 萬 (1M) 標記的上下文窗口 (Context window) [Gemini 2.0 Flash | Generative AI on Vertex AI | Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)。 |
這裡的「上下文窗口」是指 AI 一次能記住並處理的信息量。簡單來說,就像是 AI 的「工作記憶」空間:
- 100 萬標記 意味著它能一次將大約數十本厚小說份量的資訊裝進腦袋裡工作。
| 擁有如此巨大的記憶庫,它在與使用者進行長篇對話時,也不會忘記先前要求的細微修正事項,並能準確反映在畫作中。Google 解釋這是 「代理時代 (Agentic era)」 必備的設計,即 AI 將超越單純工具,扮演能自主判斷並行動的「主動秘書」角色 [Gemini 2.0 Flash | Generative AI on Vertex AI | Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)。 |
現狀:誰可以使用?如何使用?
目前這項驚人的功能已開放「實驗」階段,供開發者優先體驗。
- 開放對象:凡是使用 Google AI Studio 的使用者或使用 Gemini API 的開發者,均可參與測試 Google’s native multimodal AI image generation in Gemini 2.0 Flash …。
- 核心功能:包含文本與圖像的自然組合生成、對話式圖像編輯,以及運用世界知識進行具情境感的視覺化等 Experiment with Gemini 2.0 Flash native image generation。
- 使用方式:在 Google AI Studio 中選擇「Gemini 2.0 Flash」模型,並在對話框輸入「請畫一張某某圖」。看到生成的畫作後,再透過追加對話要求「請把天空變藍一點」等修正,AI 會立即反映 Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive。
這項技術在去年 12 月僅開放給部分測試者,現在經過更多開發者的測試,已準備好融入我們未來使用的各種應用程式與服務中 Experiment With Gemini 2.0 Flash Native Image Generation。
未來發展:將為我們的生活帶來什麼變化?
Gemini 2.0 Flash 展現的「原生圖像生成」不僅提升了繪圖技術,更將為所有人帶來 「表達能力的民主化」。
- 個人化的客製插圖:即使不是專業畫家,任何人都能輕鬆創作出與自己文章完美契合的插圖,或是包含家鄉特色的藝術作品 Intro to Gemini 2.0 Flash - GitHub。
- 鮮活的故事敘述:在為孩子讀童話書時,能根據孩子天馬行空的想像,即時改變畫作內容的「互動式童話」也將成為現實 intro_gemini_2_0_flash.ipynb - Colab。
- 真正的多模態秘書:文本、圖像、甚至語音 (TTS) 將整合為一,成為一個能完美理解我們意圖並視覺化的「個人 AI 夥伴」 Image Generation with Gemini 2.0 Flash Experimental。
Google 透過這次更新,展示了其領先競爭對手、推動「原生」圖像生成普及化的強烈意志 Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash。
AI 的視角:MindTickleBytes 的一句話
如果說過去的 AI 只是機械式地執行指令,現在它已進化為能讀懂意圖、與我們共同思考並創作的「夥伴」。Gemini 2.0 Flash 的出現將成為打破文本與圖像這兩種不同語言隔閡的重要里程碑。隨著技術變得更複雜,我們的想像力反而會變得更加自由。現在,你想請這位 AI 畫家為你畫下什麼樣的美景呢?
參考資料
- Experiment with Gemini 2.0 Flash native image generation
- Experiment With Gemini 2.0 Flash Native Image Generation
- Experiment with Gemini 2.0 Flash native image generation
- Experiment with native image generation in Gemini 2.0 Flash
- Experiment with Gemini 2.0 Flash native image generation - ONMINE
- Experiment with Gemini 2.0 Flash native image generation
-
[Gemini 2.0 Flash Generative AI on Vertex AI Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash) - Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive
- Intro to Gemini 2.0 Flash - GitHub
- intro_gemini_2_0_flash.ipynb - Colab
- Image Generation with Gemini 2.0 Flash Experimental
- You can now test Gemini 2.0 Flash’s native image output
- Google’s native multimodal AI image generation in Gemini 2.0 Flash …
- Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash
- 使用專門負責圖像生成的獨立引擎。
- 模型直接整合並處理、生成文本與圖像。
- 需要文本轉圖像的翻譯工具。
- 1 萬標記 (tokens)
- 10 萬標記
- 100 萬 (1M) 標記
- 只繪製絕對完美的真實事物。
- 可以透過對話修改圖像的「對話式編輯」。
- 雖然生成速度慢,但品質壓倒性勝出。