Google 正式發表了次世代多模態 AI 模型「Gemini Omni」,能隨意混合文字、圖像、聲音及現有影片來創作新影片,並支援如對話般自然地進行修改。
請閉上眼睛,想像一個非常有趣的畫面。你拿起智慧型手機,隨手拍了一張在地板上滾動的玩具車照片。接著,你對著麥克風親自錄下「轟隆~嘎吱!」的引擎聲與急煞車聲。最後,你在聊天視窗輸入:「讓這輛玩具車在巨大的沙漠中央,穿過沙塵暴疾速奔馳,做成一段像電影般的場景。」
令人驚訝的是,你現在並不是坐在耗資數十億韓元的影視特效工作室裡,而只是舒服地躺在家裡的床上。過去,要結合照片、聲音和創意來製作一段完美的影片,需要數十小時的辛勤工作和高度的專業知識。但現在,你只需要將這些材料丟給 AI。僅僅幾分鐘,一段如同大片場景般的高畫質影片就完成了。
這個魔幻般的故事並非遙遠未來的想像。這正是幾天前 Google 在「Google I/O 2026」主題演講中正式發表的次世代生成式媒體 AI 模型 —— 「Gemini Omni」 所開啟的新現實 [1]。Google 透過這項技術飛躍,正在將過去少數專家才能享有的影像創作權力,轉移到我們所有普通人的手中。
為什麼這很重要? (Why It Matters)
近幾年,我們即時見證了 AI 突飛猛進的過程。透過提問來撰寫報告或畫出想要的圖像,如今已成了相當熟悉的日常。然而,「影片 (Video)」領域一直被視為 AI 業界最難攻克的巨大壁壘。
此前出現的大多數影片 AI 工具都只專注於「文字轉影片 (Text-to-Video)」。Google 去年推出的「Veo 3」也是透過分析使用者輸入的句子來製作影片 [2]。問題在於,要單純透過「文字」完美解釋人類複雜的想像力是非常困難的。腦海中浮現的構圖或微妙氛圍,若只用文字描述,結果往往與原意大相徑庭。
如果把這種情況比作烹飪,以往的 AI 影片製作就像必須寫出「嚴格且苛刻的食譜」。必須寫出完美的提示詞(指令),例如「加入 3.5 克鹽、5 克糖,以攝氏 180 度精確烘烤 15 分鐘」,才能勉強做出像樣的料理。只要寫錯一個詞,就可能做出鹹得要命的奇怪食物。
但 Gemini Omni 不同。這款 AI 更像是一位「眼光銳利的天才主廚」。你只需把冰箱剩下的食材(現有影片)、素描本上的塗鴉(圖像)和哼唱的旋律(聲音)丟到廚房桌上,說聲「把它們混合在一起做點好吃的」就結束了。因為 Gemini Omni 能同時接收文字、聲音、照片、實際影片等任何類型的輸入值,並據此創作出令人驚嘆的影片 [3]。
這種轉變不僅僅是增加了一個新奇的工具。這意味著普通人即使沒有複雜的編輯軟體,也能創作出專家等級的媒體內容。同時,這也是 Google 在與 ChatGPT 的 OpenAI 或 Anthropic 等強勁對手的戰爭中,奪取媒體創作主導權的強力宣戰 [1]。
深入淺出 (The Explainer)
Google 究竟是如何施展這種驚人魔法的?這次發表的「Gemini Omni」並非單一功能,而是 Google 未來將推出的巨大 AI 媒體模型「系列 (Family)」的名稱。而作為該系列首發登場的模型正是 「OmniFlash」 [4]。
OmniFlash 是業界所謂的 多模態 (Multimodal) 技術的最終進化型。簡單來說,就是「不挑食地同時理解並處理多種數據(文字、聲音、圖片等)的技術」。它繼承了 Google 原有影片模型 Veo 強大的視覺能力,並更進一步具備了自由調配各種材料的能力 [3]。
最令人驚艷的能力莫過於 「對話式編輯 (Conversational editing)」。除了製作影片,連修改已完成影片的過程也被帶入了我們的日常對話中 [5]。
回想一下過去的影片編輯。若要更改色調或刪除背景中的物體,必須開啟沉重的專業軟體,在複雜的時間軸(影片的時間軸)上辛苦操作。但與 Gemini Omni 的協作,就像與一位「坐在我身邊、握著滑鼠、親切專業的剪輯師」喝著咖啡聊天。
假設你邊看畫面邊說:
- 使用者:「嗯,天氣太陰暗了。能把背景全部換成夕陽西下的紅色晚霞嗎?」
- OmniFlash:(僅需幾秒鐘便將天空染成紅色)
- 使用者:「喔,太棒了!不過左邊角落經過的那輛藍色車子有點破壞氣氛,能把那個刪掉嗎?」
你只需要用日常語言對話即可。Gemini Omni 能準確聽懂語境,並如魔法般修改影片的對應部分 [5]。複雜的數學計算和像素調整由 AI 自行處理,使用者只需像拜託朋友一樣開口就行了。
專家分析,這種轉變歸功於 Google 內部巨大的結構重組。過去,影片由「Veo」、圖像由「Nano Banana」、文字由「Gemini」等部門分開處理,技術呈現碎片化。就像一家公司裡互不說話的專家們各自躲在房間裡工作。但 Google 做出戰略決策,將所有技術整合進一個巨大的系統中 [6]。這將原本各自獨立的眼、耳、口,連接成了一個天才的大腦。
現狀 (Where We Stand)
雖然 Google 準備好要驚艷世界,但在這場盛大的發表背後,也有一個相當尷尬的幕後故事。Google 原本想為了活動當天的「驚喜秀」對這項技術嚴格保密,但就在活動開始一週前,資訊卻意外外洩了 [7]。
這並非因為駭客攻擊或間諜竊密。而是因為在全球數十億人手機中安裝的「Gemini」應用程式更新檔案中,UI(使用者介面)代碼不小心留下了 Omni 模型的痕跡 [8]。敏銳的開發者在剖析應用程式內部代碼時,早在正式發表前就發現了「Omni」這個名字及其運作方式 [9]。這就像魔術師還沒上台,劇本就先穿幫了一樣。
然而,儘管發生了這樣的插曲,大眾的期待感反而更高,現場反應也極其熱烈。Google 在這次舞台上除了 Gemini Omni,還傾巢而出地展示了展現壓倒性實力落差的各項更新。
首先,推出了大幅提升搜尋引擎與 Workspace 全體速度的 「Gemini 3.5 Flash」 [10]。此外,還將進化的 AI 功能細緻地整合進 Google 文件 (Docs) 和 YouTube 等核心服務內部 [11]。
特別引人注目的是個人化 AI 助手 「Gemini Spark」 的登場 [1]。如果說過去的 AI 只是回答問題的販賣機,現在它則進化成了「始終保持覺察的主動助手」,能在你下達指令前就掌握你的行程、處理業務並提供當日計畫建議 [12, 13]。
未來展望 (What’s Next)
Gemini Omni 的出現不僅僅是發明了一個便利的工具,更預告了整個媒體內容市場的地殼變動。原本因為昂貴設備和長期訓練等高門檻而受壓抑的普通人的想像力,終於得到了徹底的釋放。不久之後,我們將見證一個前所未見、充滿原創影片大量湧現的時代。
Google 的步伐並未停歇。Google 透過這次主題演講充滿自信地宣布,將在下個月推出比目前公開功能性能更精湛的最強大腦 —— 「Gemini 3.5 Pro」 模型 [2]。
正如相機、電話與網路合而為一成為智慧型手機,進而改變了我們的日常生活;文字、聲音、照片與影片在「Gemini Omni」這個容器中融合的現象,也將永遠改變我們消費與創作媒體的方式。
現在,創作者唯一需要的才能不再是複雜的軟體操作技術,而是純粹的想像力 ——「該如何透過對話勾勒出我腦海中的世界」。在 Gemini Omni 開啟的這個新時代,你將與 AI 展開怎樣的第一次對話呢?
AI’s Take
Gemini Omni 的真正價值在於隱藏了技術複雜的運算過程,將人與人之間平凡的對話方式提升為創作工具。過去為了將想像力轉化為現實,必須重新學習「技術」這門語言;但現在,僅靠我們最熟悉的「語言」就已足夠。將想像力轉化為現實的障礙終於徹底崩塌。
參考資料
- Google Unveils Gemini Omni and Spark Agent at I/O 2026 to …
- Google launches Gemini Spark, a personal AI agent, and more …
- Google’s newest Gemini Omni model can turn real videos into …
- Gemini Omni is a new family of AI models meant to ‘create …
- Introducing Gemini Omni - The Keyword
- Gemini Omni Leak: Google’s AI Video Strategy Just Changed
- Gemini Omni video model intelligence summary: 8 key signals …
- Gemini Omni 完全分析:Google 的 AI 影片模型,於 I/O 2026 亮相…
- GitHub - geminiomni/geminiomni · GitHub
- Google introduces Gemini Omni, Gemini 3.5 Flash, AI-powered …
- Google I/O 2026: Gemini 3.5 Flash, Gemini Omni and Docs … - MSN
- Google turns Gemini into a proactive AI agent with Spark …
- gemini 3.5: How are Gemini 3.5 Flash and Gemini Omni changing …
FACT-CHECK SUMMARY
- Claims checked: 24
- Claims verified: 24
- Verdict: PASS
- Gemini Spark
- Gemini Omni
- Gemini 3.5 Flash
- Veo
- Nano Banana
- OmniFlash
- 競爭對手的駭客攻擊
- Google 內部員工的爆料訪談
- Gemini 智慧型手機應用程式內部的 UI 字串外洩