Google Gemini 2.0 Flash 以比前代快 2 倍的速度,向開發者開放了能同時輸出文本與圖像的「原生影像生成」功能,開啟了對話式影像編輯的新紀元。
想像一下,你正在經營一個烹飪部落格,你對 AI 說:「幫我說明一下今天做的草莓蛋糕食譜。」接著,AI 不僅用文字寫出美味的食譜,還當場展示了與該步驟完美契合的蛋糕照片。但是,如果照片中蛋糕上的鮮奶油看起來有點少怎麼辦?你只要再說一句:「鮮奶油再放多一點,上面再加一片薄荷葉」,AI 就會心領神會,瞬間修改照片並再次展示給你看。Gemini 2.0 Flash Experimental Let’s Create and Edit Images In…
這不是遙遠未來的科幻故事。這是 Google 最新的人工智慧模型 Gemini 2.0 Flash 剛剛帶給我們的驚人變化。You can now test Gemini 2.0 Flash’s native image output
為什麼這很重要?
到目前為止,我們使用的大多數影像生成 AI 都像是一種「外送服務」。這是因為理解文本的大腦和畫圖的手是分開運作的。當我們輸入文字時,文本模型會進行解析並傳遞給影像模型,影像模型再畫好圖送回來。比喻來說,就像接單的店員和廚師在不同的房間,傳達過程中既耗時,有時也會因為溝通錯誤而做出我們不想要的菜餚。
但 Gemini 2.0 Flash 完全不同。這個模型具備了 「原生(Native)」多模態(同時處理多種形式資訊的技術) 能力。Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash 也就是說,一個人工智慧大腦可以同時學習、理解並生成文字與圖片。
這種變化的重要性可以總結為三點:
- 壓倒性的速度:比前代模型 Gemini 1.5 Flash 快了整整 2 倍。 Gemini 2.0 Flash Experimental Let’s Create and Edit Images In… 使用者無需焦急等待,即可與 AI 進行即時溝通。
- 精確的脈絡掌握:基於對世界龐大的知識與推理能力,它不僅僅是產出漂亮的圖片,而是能根據當前情況產出「精確」的影像。Experiment with Gemini 2.0 Flash native image generation - ONMINE
- 自然的對話:並非丟出一張圖片就結束,而是能像和朋友聊天一樣來回互動,精細地雕琢作品。Gemini 2.0 Flash Image Generation and Editing - GitHub
輕鬆理解:什麼是「原生」影像生成?
如果這個概念聽起來還有點抽象,我們試著透過以下兩個比喻來輕鬆理解:
比喻 1:「通譯員」與「雙語母語者」的差異
如果說傳統方式是只會說韓文的人和只會說英文的人透過中間的翻譯官進行溝通的沉悶結構,那麼 Gemini 2.0 Flash 就如同一個能將兩種語言都像母語一樣流利運用的雙語者。Explore Gemini 2.0 Flash Native Image Generation Experiment 由於不需要額外的翻譯過程,速度自然快得驚人,且能不失原意地精準掌握意圖,同時產出文字與圖像。Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash
比喻 2:「出一張嘴就能修圖的 Photoshop」
如果說傳統的影像編輯是必須學習複雜的工具用法、用滑鼠一點一點修改的苦工,現在則進入了只要說聲「把旁邊那張椅子移走」、「背景換成落日餘暉的海邊」就能完成的時代。由於 Gemini 2.0 Flash 記得所有對話脈絡,即便只說「剛才那張圖…」,它也能精確理解該如何修改。Gemini 2.0 Flash Image Generation and Editing - GitHub Image Generation with Gemini 2.0 Flash Experimental
現況:可以在哪裡試用?
在向大眾公開這項革新功能之前,Google 先為開發者開闢了道路,讓他們能盡情實驗並打造工具。Experiment with Gemini 2.0 Flash native image generation
-
Google AI Studio:目前可以在這裡免費直接體驗 Gemini 2.0 Flash 的實驗模型。[I Tried Out Gemini’s New Native Image Gen Feature, and… Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) Google’s native multimodal AI image generation in Gemini 2.0 Flash … - Gemini API:打造個人 App 或服務的開發者可以將此功能直接連動到他們的程式中,設計全新的體驗。Experiment with Gemini 2.0 Flash native image generation
這項技術從去年 12 月起就已向部分專家公開並經過嚴格驗證,現在正處於更多創作者測試其可能性的階段。Experiment With Gemini 2.0 Flash Native Image Generation
未來會如何發展?
Gemini 2.0 Flash 的出現,其意義遠大於僅僅是推出了一個「畫圖更漂亮的 AI」。
第一,是向具備「真正智慧」的 AI 進化。這個模型不僅僅是模仿現有圖片的模式,而是基於對世界運作方式的知識(World Knowledge)進行思考。Experiment with Gemini 2.0 Flash native image generation - ONMINE 例如在說明複雜食譜時,它會「理解」該料理實際應有的質地與形狀來生成影像。Experiment with Gemini 2.0 Flash native image generation- Google …
第二,是創意的大爆發。除了 Gemini 2.0 Flash,Google 還在準備能以光速處理更複雜程式編寫或數據視覺化的未來型模型,如 Gemini 3 Flash。Gemini 3 Flash — Google DeepMind
| 不久之後,這些實驗性功能將會正式應用到我們每天使用的 Google App 或 Gemini 服務中。[I Tried Out Gemini’s New Native Image Gen Feature, and… | Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) 到那時,我們將能真正享受與 AI 對話,將個人想像轉化為現實的日常體驗。 |
AI 的觀點
過去的 AI 影像生成強烈地給人一種「期待開獎的刮刮樂」的感覺。但 Gemini 2.0 Flash 邀請我們進入「真正的對話」領域,讓 AI 即時理解我們的意圖並共同完成作品。當技術越能深刻且溫暖地理解人類語言,我們的想像力就能擺脫工具的束縛,伸展得更遠、更自由。
參考資料
- Experiment with Gemini 2.0 Flash native image generation
- Experiment With Gemini 2.0 Flash Native Image Generation
- Experiment with native image generation in Gemini 2.0 Flash
- Experiment with Gemini 2.0 Flash native image generation - ONMINE
- Experiment with Gemini 2.0 Flash native image generation- Google …
- Experiment with Gemini 2.0 Flash native image generation
- Gemini 2.0 Flash Image Generation and Editing - GitHub
- Gemini 3 Flash — Google DeepMind
- Explore Gemini 2.0 Flash Native Image Generation Experiment
-
[I Tried Out Gemini’s New Native Image Gen Feature, and… Beebom](https://beebom.com/tried-out-gemini-native-image-gen-feature-and-its-amazing/) - Google: Gemini 2.0 Flash Experimental Free Chat Online - Skywork ai
- Gemini 2.0 Flash Experimental Let’s Create and Edit Images In…
- Image Generation with Gemini 2.0 Flash Experimental
- You can now test Gemini 2.0 Flash’s native image output
- Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash
- Google’s native multimodal AI image generation in Gemini 2.0 Flash …
FACT-CHECK SUMMARY
- Claims checked: 12
- Claims verified: 12
- Verdict: PASS
- 約 1.5 倍
- 約 2 倍
- 約 5 倍
- 靜態影像生成
- 對話式影像編輯
- 單純濾鏡套用
- Google 搜尋框
- Google AI Studio
- YouTube