只靠文字製作影片的時代結束了?Google 祭出的王牌「Gemini Omni」

描繪素描本上的畫作、麥克風的聲音與打字機的文字被吸入一個巨大的攝影鏡頭中,如魔法般轉化為栩栩如生的動態影片插圖。
AI Summary

Google 正式發表了次世代多模態 AI 模型「Gemini Omni」,能隨意混合文字、圖像、聲音及現有影片來創作新影片,並支援如對話般自然地進行修改。

請閉上眼睛,想像一個非常有趣的畫面。你拿起智慧型手機,隨手拍了一張在地板上滾動的玩具車照片。接著,你對著麥克風親自錄下「轟隆~嘎吱!」的引擎聲與急煞車聲。最後,你在聊天視窗輸入:「讓這輛玩具車在巨大的沙漠中央,穿過沙塵暴疾速奔馳,做成一段像電影般的場景。」

令人驚訝的是,你現在並不是坐在耗資數十億韓元的影視特效工作室裡,而只是舒服地躺在家裡的床上。過去,要結合照片、聲音和創意來製作一段完美的影片,需要數十小時的辛勤工作和高度的專業知識。但現在,你只需要將這些材料丟給 AI。僅僅幾分鐘,一段如同大片場景般的高畫質影片就完成了。

這個魔幻般的故事並非遙遠未來的想像。這正是幾天前 Google 在「Google I/O 2026」主題演講中正式發表的次世代生成式媒體 AI 模型 —— 「Gemini Omni」 所開啟的新現實 [1]。Google 透過這項技術飛躍,正在將過去少數專家才能享有的影像創作權力,轉移到我們所有普通人的手中。

為什麼這很重要? (Why It Matters)

近幾年,我們即時見證了 AI 突飛猛進的過程。透過提問來撰寫報告或畫出想要的圖像,如今已成了相當熟悉的日常。然而,「影片 (Video)」領域一直被視為 AI 業界最難攻克的巨大壁壘。

此前出現的大多數影片 AI 工具都只專注於「文字轉影片 (Text-to-Video)」。Google 去年推出的「Veo 3」也是透過分析使用者輸入的句子來製作影片 [2]。問題在於,要單純透過「文字」完美解釋人類複雜的想像力是非常困難的。腦海中浮現的構圖或微妙氛圍,若只用文字描述,結果往往與原意大相徑庭。

如果把這種情況比作烹飪,以往的 AI 影片製作就像必須寫出「嚴格且苛刻的食譜」。必須寫出完美的提示詞(指令),例如「加入 3.5 克鹽、5 克糖,以攝氏 180 度精確烘烤 15 分鐘」,才能勉強做出像樣的料理。只要寫錯一個詞,就可能做出鹹得要命的奇怪食物。

Gemini Omni 不同。這款 AI 更像是一位「眼光銳利的天才主廚」。你只需把冰箱剩下的食材(現有影片)、素描本上的塗鴉(圖像)和哼唱的旋律(聲音)丟到廚房桌上,說聲「把它們混合在一起做點好吃的」就結束了。因為 Gemini Omni 能同時接收文字、聲音、照片、實際影片等任何類型的輸入值,並據此創作出令人驚嘆的影片 [3]。

這種轉變不僅僅是增加了一個新奇的工具。這意味著普通人即使沒有複雜的編輯軟體,也能創作出專家等級的媒體內容。同時,這也是 Google 在與 ChatGPT 的 OpenAI 或 Anthropic 等強勁對手的戰爭中,奪取媒體創作主導權的強力宣戰 [1]。

深入淺出 (The Explainer)

Google 究竟是如何施展這種驚人魔法的?這次發表的「Gemini Omni」並非單一功能,而是 Google 未來將推出的巨大 AI 媒體模型「系列 (Family)」的名稱。而作為該系列首發登場的模型正是 「OmniFlash」 [4]。

OmniFlash 是業界所謂的 多模態 (Multimodal) 技術的最終進化型。簡單來說,就是「不挑食地同時理解並處理多種數據(文字、聲音、圖片等)的技術」。它繼承了 Google 原有影片模型 Veo 強大的視覺能力,並更進一步具備了自由調配各種材料的能力 [3]。

最令人驚艷的能力莫過於 「對話式編輯 (Conversational editing)」。除了製作影片,連修改已完成影片的過程也被帶入了我們的日常對話中 [5]。

回想一下過去的影片編輯。若要更改色調或刪除背景中的物體,必須開啟沉重的專業軟體,在複雜的時間軸(影片的時間軸)上辛苦操作。但與 Gemini Omni 的協作,就像與一位「坐在我身邊、握著滑鼠、親切專業的剪輯師」喝著咖啡聊天。

假設你邊看畫面邊說:

  • 使用者:「嗯,天氣太陰暗了。能把背景全部換成夕陽西下的紅色晚霞嗎?」
  • OmniFlash:(僅需幾秒鐘便將天空染成紅色)
  • 使用者:「喔,太棒了!不過左邊角落經過的那輛藍色車子有點破壞氣氛,能把那個刪掉嗎?」

你只需要用日常語言對話即可。Gemini Omni 能準確聽懂語境,並如魔法般修改影片的對應部分 [5]。複雜的數學計算和像素調整由 AI 自行處理,使用者只需像拜託朋友一樣開口就行了。

專家分析,這種轉變歸功於 Google 內部巨大的結構重組。過去,影片由「Veo」、圖像由「Nano Banana」、文字由「Gemini」等部門分開處理,技術呈現碎片化。就像一家公司裡互不說話的專家們各自躲在房間裡工作。但 Google 做出戰略決策,將所有技術整合進一個巨大的系統中 [6]。這將原本各自獨立的眼、耳、口,連接成了一個天才的大腦。

現狀 (Where We Stand)

雖然 Google 準備好要驚艷世界,但在這場盛大的發表背後,也有一個相當尷尬的幕後故事。Google 原本想為了活動當天的「驚喜秀」對這項技術嚴格保密,但就在活動開始一週前,資訊卻意外外洩了 [7]。

這並非因為駭客攻擊或間諜竊密。而是因為在全球數十億人手機中安裝的「Gemini」應用程式更新檔案中,UI(使用者介面)代碼不小心留下了 Omni 模型的痕跡 [8]。敏銳的開發者在剖析應用程式內部代碼時,早在正式發表前就發現了「Omni」這個名字及其運作方式 [9]。這就像魔術師還沒上台,劇本就先穿幫了一樣。

然而,儘管發生了這樣的插曲,大眾的期待感反而更高,現場反應也極其熱烈。Google 在這次舞台上除了 Gemini Omni,還傾巢而出地展示了展現壓倒性實力落差的各項更新。

首先,推出了大幅提升搜尋引擎與 Workspace 全體速度的 「Gemini 3.5 Flash」 [10]。此外,還將進化的 AI 功能細緻地整合進 Google 文件 (Docs) 和 YouTube 等核心服務內部 [11]。

特別引人注目的是個人化 AI 助手 「Gemini Spark」 的登場 [1]。如果說過去的 AI 只是回答問題的販賣機,現在它則進化成了「始終保持覺察的主動助手」,能在你下達指令前就掌握你的行程、處理業務並提供當日計畫建議 [12, 13]。

未來展望 (What’s Next)

Gemini Omni 的出現不僅僅是發明了一個便利的工具,更預告了整個媒體內容市場的地殼變動。原本因為昂貴設備和長期訓練等高門檻而受壓抑的普通人的想像力,終於得到了徹底的釋放。不久之後,我們將見證一個前所未見、充滿原創影片大量湧現的時代。

Google 的步伐並未停歇。Google 透過這次主題演講充滿自信地宣布,將在下個月推出比目前公開功能性能更精湛的最強大腦 —— 「Gemini 3.5 Pro」 模型 [2]。

正如相機、電話與網路合而為一成為智慧型手機,進而改變了我們的日常生活;文字、聲音、照片與影片在「Gemini Omni」這個容器中融合的現象,也將永遠改變我們消費與創作媒體的方式。

現在,創作者唯一需要的才能不再是複雜的軟體操作技術,而是純粹的想像力 ——「該如何透過對話勾勒出我腦海中的世界」。在 Gemini Omni 開啟的這個新時代,你將與 AI 展開怎樣的第一次對話呢?

AI’s Take

Gemini Omni 的真正價值在於隱藏了技術複雜的運算過程,將人與人之間平凡的對話方式提升為創作工具。過去為了將想像力轉化為現實,必須重新學習「技術」這門語言;但現在,僅靠我們最熟悉的「語言」就已足夠。將想像力轉化為現實的障礙終於徹底崩塌。

參考資料

  1. Google Unveils Gemini Omni and Spark Agent at I/O 2026 to …
  2. Google launches Gemini Spark, a personal AI agent, and more …
  3. Google’s newest Gemini Omni model can turn real videos into …
  4. Gemini Omni is a new family of AI models meant to ‘create …
  5. Introducing Gemini Omni - The Keyword
  6. Gemini Omni Leak: Google’s AI Video Strategy Just Changed
  7. Gemini Omni video model intelligence summary: 8 key signals …
  8. Gemini Omni 完全分析:Google 的 AI 影片模型,於 I/O 2026 亮相…
  9. GitHub - geminiomni/geminiomni · GitHub
  10. Google introduces Gemini Omni, Gemini 3.5 Flash, AI-powered …
  11. Google I/O 2026: Gemini 3.5 Flash, Gemini Omni and Docs … - MSN
  12. Google turns Gemini into a proactive AI agent with Spark …
  13. gemini 3.5: How are Gemini 3.5 Flash and Gemini Omni changing …

FACT-CHECK SUMMARY

  • Claims checked: 24
  • Claims verified: 24
  • Verdict: PASS
測試你的理解
Q1. 下列何者是 Google 全新發表的生成式媒體 AI 模型系列的正式名稱?
  • Gemini Spark
  • Gemini Omni
  • Gemini 3.5 Flash
Google 發表了次世代 AI 媒體模型系列「Gemini Omni」,可接收多種輸入值來生成影片並自然地進行編輯。
Q2. 在 Gemini Omni 推出前,Google 原有的基於文字生成影片的 AI 影片模型名稱為何?
  • Veo
  • Nano Banana
  • OmniFlash
Gemini Omni 是在 Google 原有的文字生成影片模型「Veo」的基礎上進一步擴展與強化而成的。
Q3. 在 Google I/O 2026 正式發表前,Gemini Omni 的存在是如何被世人預先知曉的?
  • 競爭對手的駭客攻擊
  • Google 內部員工的爆料訪談
  • Gemini 智慧型手機應用程式內部的 UI 字串外洩
在活動舉行前一週,安裝在手機上的 Google Gemini 應用程式內部使用者介面 (UI) 字串外洩了 Omni 模型的蹤跡,使得相關功能提前曝光。