一句話就能隨心作畫,Gemini 2.0 Flash 原生繪圖 AI — 這次「真傢伙」出現了?

模擬 AI 模型根據使用者對話即時生成與修改圖像的形象圖。
AI Summary

Gemini 2.0 Flash 展示了「原生圖像生成」功能,無需額外工具,AI 模型本身即可直接創作圖像,並透過對話進行即時修改。

前言:想像力即刻化為眼前畫作的時代

各位請試著想像一下:你正在向朋友描述昨天看到的絕美風景,朋友聽完你的描述,立刻在素描本上完美勾勒出那幅畫面。不僅如此,當你說「啊,請在那座山丘上多畫一棵樹」時,朋友馬上隨手補上一棵;當你說「希望夕陽的光芒能再溫暖一點」時,他便立刻將色調調整得更加柔和。

這種宛如魔法般的事情,現在正透過你的電腦螢幕成為現實。Google 已在其最新的 AI 模型 Gemini 2.0 Flash 中搭載了「原生 (Native)」圖像生成功能,並正式開放給開發者進行實驗 Experiment with Gemini 2.0 Flash native image generation

今天,MindTickleBytes 將帶領大家以輕鬆有趣的方式,深入探討為什麼「原生」這個詞具有革命性意義,以及這項技術將如何改變我們的日常生活。


為什麼這很重要?沒有「中間人」的真正多模態登場

到目前為止,我們接觸的大多數圖像生成 AI 都是以「翻譯機」作為中介。例如,當我們輸入「畫一隻正在吃蘋果的小狗」時,理解文本的 AI 會先分析這句話,再將指令傳達給「另一個」專門畫圖的 AI。

但 Gemini 2.0 Flash 完全不同。這個模型是 「原生 (Native)」 的,也就是說,它從誕生之初就被設計成能同時理解並生成文本與圖像的整合體 Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive

為了方便理解,我們來打個比方:

  • 傳統方式:就像一位只會說韓文的主廚和一位只會說英文的二廚,中間隔著一名「翻譯員」在做菜。傳達過程中可能會產生誤解,且速度自然較慢。
  • 原生方式 (Gemini 2.0):就像一位精通韓文、英文,且廚藝精湛的「天才名廚」獨自掌控廚房。他聽取客人的點餐後,腦海中立刻浮現完成的畫面,並隨即開始烹飪。

得益於這種整合,Gemini 2.0 Flash 不僅能繪製一次性的圖畫,更能提供與使用者對話並即時修正畫作的 「對話式圖像編輯 (Conversational image editing)」 驚豔體驗 You can now test Gemini 2.0 Flash’s native image output


輕鬆理解 1:通曉世理的 AI 所繪製的畫作

Gemini 2.0 Flash 的另一個強項在於其 「對世界的深刻理解 (World understanding)」「推理能力 (Reasoning)」 Experiment with Gemini 2.0 Flash native image generation

以往許多圖像模型主要是學習數萬張圖片數據,專注於模擬「大概這種顏色後面會出現這種形狀」的視覺模式。相比之下,Gemini 在作畫時會積極運用透過龐大文本數據學到的「知識」。

舉例來說,若你要求「畫一張解釋複雜義大利麵食譜的插圖」,Gemini 不僅會畫出一道漂亮的料理,還會根據實際烹飪過程中需要什麼工具、麵條煮熟後質地如何變化等知識,創作更具真實感且符合情境的圖像 Experiment with Gemini 2.0 Flash native image generation - ONMINE

當然,Google 也誠實地表示該模型的知識「廣泛且普遍,但並非絕對或完全」 Experiment with Gemini 2.0 Flash native image generation。但可以確定的是,它絕對比以往的模型更「聽得懂人話」,是一位更聰明的畫家。


輕鬆理解 2:「苦力 (Workhorse)」 AI 的誕生與超大記憶力

Google 將 Gemini 2.0 Flash 稱為 「苦力 (Workhorse,指默默耕耘、盡職盡責的馬)」 AI Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive。這意味著該模型不只是展示新奇功能,更被優化為能在工作或服務現場快速且高效地投入使用。

其強大依據之一便是高達 100 萬 (1M) 標記的上下文窗口 (Context window) [Gemini 2.0 Flash Generative AI on Vertex AI Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)。

這裡的「上下文窗口」是指 AI 一次能記住並處理的信息量。簡單來說,就像是 AI 的「工作記憶」空間:

  • 100 萬標記 意味著它能一次將大約數十本厚小說份量的資訊裝進腦袋裡工作。
擁有如此巨大的記憶庫,它在與使用者進行長篇對話時,也不會忘記先前要求的細微修正事項,並能準確反映在畫作中。Google 解釋這是 「代理時代 (Agentic era)」 必備的設計,即 AI 將超越單純工具,扮演能自主判斷並行動的「主動秘書」角色 [Gemini 2.0 Flash Generative AI on Vertex AI Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)。

現狀:誰可以使用?如何使用?

目前這項驚人的功能已開放「實驗」階段,供開發者優先體驗。

  1. 開放對象:凡是使用 Google AI Studio 的使用者或使用 Gemini API 的開發者,均可參與測試 Google’s native multimodal AI image generation in Gemini 2.0 Flash …
  2. 核心功能:包含文本與圖像的自然組合生成、對話式圖像編輯,以及運用世界知識進行具情境感的視覺化等 Experiment with Gemini 2.0 Flash native image generation
  3. 使用方式:在 Google AI Studio 中選擇「Gemini 2.0 Flash」模型,並在對話框輸入「請畫一張某某圖」。看到生成的畫作後,再透過追加對話要求「請把天空變藍一點」等修正,AI 會立即反映 Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive

這項技術在去年 12 月僅開放給部分測試者,現在經過更多開發者的測試,已準備好融入我們未來使用的各種應用程式與服務中 Experiment With Gemini 2.0 Flash Native Image Generation


未來發展:將為我們的生活帶來什麼變化?

Gemini 2.0 Flash 展現的「原生圖像生成」不僅提升了繪圖技術,更將為所有人帶來 「表達能力的民主化」

  • 個人化的客製插圖:即使不是專業畫家,任何人都能輕鬆創作出與自己文章完美契合的插圖,或是包含家鄉特色的藝術作品 Intro to Gemini 2.0 Flash - GitHub
  • 鮮活的故事敘述:在為孩子讀童話書時,能根據孩子天馬行空的想像,即時改變畫作內容的「互動式童話」也將成為現實 intro_gemini_2_0_flash.ipynb - Colab
  • 真正的多模態秘書:文本、圖像、甚至語音 (TTS) 將整合為一,成為一個能完美理解我們意圖並視覺化的「個人 AI 夥伴」 Image Generation with Gemini 2.0 Flash Experimental

Google 透過這次更新,展示了其領先競爭對手、推動「原生」圖像生成普及化的強烈意志 Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash


AI 的視角:MindTickleBytes 的一句話

如果說過去的 AI 只是機械式地執行指令,現在它已進化為能讀懂意圖、與我們共同思考並創作的「夥伴」。Gemini 2.0 Flash 的出現將成為打破文本與圖像這兩種不同語言隔閡的重要里程碑。隨著技術變得更複雜,我們的想像力反而會變得更加自由。現在,你想請這位 AI 畫家為你畫下什麼樣的美景呢?


參考資料

  1. Experiment with Gemini 2.0 Flash native image generation
  2. Experiment With Gemini 2.0 Flash Native Image Generation
  3. Experiment with Gemini 2.0 Flash native image generation
  4. Experiment with native image generation in Gemini 2.0 Flash
  5. Experiment with Gemini 2.0 Flash native image generation - ONMINE
  6. Experiment with Gemini 2.0 Flash native image generation
  7. [Gemini 2.0 Flash Generative AI on Vertex AI Google Cloud Documentation](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)
  8. Gemini 2.0 Flash: Unleashing Native Image Generation - A Tech Deep Dive
  9. Intro to Gemini 2.0 Flash - GitHub
  10. intro_gemini_2_0_flash.ipynb - Colab
  11. Image Generation with Gemini 2.0 Flash Experimental
  12. You can now test Gemini 2.0 Flash’s native image output
  13. Google’s native multimodal AI image generation in Gemini 2.0 Flash …
  14. Google Outpaces OpenAI with Native Image Generation in Gemini 2.0 Flash
測試你的理解
Q1. Gemini 2.0 Flash 的圖像生成方式「原生 (Native)」有什麼特點?
  • 使用專門負責圖像生成的獨立引擎。
  • 模型直接整合並處理、生成文本與圖像。
  • 需要文本轉圖像的翻譯工具。
Gemini 2.0 Flash 是一款將文本與圖像生成整合為一的「原生多模態」模型。
Q2. Gemini 2.0 Flash 的「上下文窗口 (數據處理容量)」大小為何?
  • 1 萬標記 (tokens)
  • 10 萬標記
  • 100 萬 (1M) 標記
Gemini 2.0 Flash 擁有高達 100 萬 (1M) 標記的巨大上下文窗口。
Q3. 文中提到使用 Gemini 2.0 Flash 創作圖像的優點是?
  • 只繪製絕對完美的真實事物。
  • 可以透過對話修改圖像的「對話式編輯」。
  • 雖然生成速度慢,但品質壓倒性勝出。
現在可以透過自然對話即時修正圖像,實現「對話式圖像編輯」。
一句話就能隨心作畫,Gemini 2.0 Flash ...
0:00