只靠文字製作影片的時代結束了？Google 祭出的王牌「Gemini Omni」

AI Summary

Google 正式發表了次世代多模態 AI 模型「Gemini Omni」，能隨意混合文字、圖像、聲音及現有影片來創作新影片，並支援如對話般自然地進行修改。

請閉上眼睛，想像一個非常有趣的畫面。你拿起智慧型手機，隨手拍了一張在地板上滾動的玩具車照片。接著，你對著麥克風親自錄下「轟隆～嘎吱！」的引擎聲與急煞車聲。最後，你在聊天視窗輸入：「讓這輛玩具車在巨大的沙漠中央，穿過沙塵暴疾速奔馳，做成一段像電影般的場景。」

令人驚訝的是，你現在並不是坐在耗資數十億韓元的影視特效工作室裡，而只是舒服地躺在家裡的床上。過去，要結合照片、聲音和創意來製作一段完美的影片，需要數十小時的辛勤工作和高度的專業知識。但現在，你只需要將這些材料丟給 AI。僅僅幾分鐘，一段如同大片場景般的高畫質影片就完成了。

這個魔幻般的故事並非遙遠未來的想像。這正是幾天前 Google 在「Google I/O 2026」主題演講中正式發表的次世代生成式媒體 AI 模型 —— 「Gemini Omni」 所開啟的新現實 [1]。Google 透過這項技術飛躍，正在將過去少數專家才能享有的影像創作權力，轉移到我們所有普通人的手中。

為什麼這很重要？ (Why It Matters)

近幾年，我們即時見證了 AI 突飛猛進的過程。透過提問來撰寫報告或畫出想要的圖像，如今已成了相當熟悉的日常。然而，「影片 (Video)」領域一直被視為 AI 業界最難攻克的巨大壁壘。

此前出現的大多數影片 AI 工具都只專注於「文字轉影片 (Text-to-Video)」。Google 去年推出的「Veo 3」也是透過分析使用者輸入的句子來製作影片 [2]。問題在於，要單純透過「文字」完美解釋人類複雜的想像力是非常困難的。腦海中浮現的構圖或微妙氛圍，若只用文字描述，結果往往與原意大相徑庭。

如果把這種情況比作烹飪，以往的 AI 影片製作就像必須寫出「嚴格且苛刻的食譜」。必須寫出完美的提示詞（指令），例如「加入 3.5 克鹽、5 克糖，以攝氏 180 度精確烘烤 15 分鐘」，才能勉強做出像樣的料理。只要寫錯一個詞，就可能做出鹹得要命的奇怪食物。

但 Gemini Omni 不同。這款 AI 更像是一位「眼光銳利的天才主廚」。你只需把冰箱剩下的食材（現有影片）、素描本上的塗鴉（圖像）和哼唱的旋律（聲音）丟到廚房桌上，說聲「把它們混合在一起做點好吃的」就結束了。因為 Gemini Omni 能同時接收文字、聲音、照片、實際影片等任何類型的輸入值，並據此創作出令人驚嘆的影片 [3]。

這種轉變不僅僅是增加了一個新奇的工具。這意味著普通人即使沒有複雜的編輯軟體，也能創作出專家等級的媒體內容。同時，這也是 Google 在與 ChatGPT 的 OpenAI 或 Anthropic 等強勁對手的戰爭中，奪取媒體創作主導權的強力宣戰 [1]。

深入淺出 (The Explainer)

Google 究竟是如何施展這種驚人魔法的？這次發表的「Gemini Omni」並非單一功能，而是 Google 未來將推出的巨大 AI 媒體模型「系列 (Family)」的名稱。而作為該系列首發登場的模型正是 「OmniFlash」 [4]。

OmniFlash 是業界所謂的 多模態 (Multimodal) 技術的最終進化型。簡單來說，就是「不挑食地同時理解並處理多種數據（文字、聲音、圖片等）的技術」。它繼承了 Google 原有影片模型 Veo 強大的視覺能力，並更進一步具備了自由調配各種材料的能力 [3]。

最令人驚艷的能力莫過於 「對話式編輯 (Conversational editing)」。除了製作影片，連修改已完成影片的過程也被帶入了我們的日常對話中 [5]。

回想一下過去的影片編輯。若要更改色調或刪除背景中的物體，必須開啟沉重的專業軟體，在複雜的時間軸（影片的時間軸）上辛苦操作。但與 Gemini Omni 的協作，就像與一位「坐在我身邊、握著滑鼠、親切專業的剪輯師」喝著咖啡聊天。

假設你邊看畫面邊說：

使用者：「嗯，天氣太陰暗了。能把背景全部換成夕陽西下的紅色晚霞嗎？」
OmniFlash：（僅需幾秒鐘便將天空染成紅色）
使用者：「喔，太棒了！不過左邊角落經過的那輛藍色車子有點破壞氣氛，能把那個刪掉嗎？」

你只需要用日常語言對話即可。Gemini Omni 能準確聽懂語境，並如魔法般修改影片的對應部分 [5]。複雜的數學計算和像素調整由 AI 自行處理，使用者只需像拜託朋友一樣開口就行了。

專家分析，這種轉變歸功於 Google 內部巨大的結構重組。過去，影片由「Veo」、圖像由「Nano Banana」、文字由「Gemini」等部門分開處理，技術呈現碎片化。就像一家公司裡互不說話的專家們各自躲在房間裡工作。但 Google 做出戰略決策，將所有技術整合進一個巨大的系統中 [6]。這將原本各自獨立的眼、耳、口，連接成了一個天才的大腦。

現狀 (Where We Stand)

雖然 Google 準備好要驚艷世界，但在這場盛大的發表背後，也有一個相當尷尬的幕後故事。Google 原本想為了活動當天的「驚喜秀」對這項技術嚴格保密，但就在活動開始一週前，資訊卻意外外洩了 [7]。

這並非因為駭客攻擊或間諜竊密。而是因為在全球數十億人手機中安裝的「Gemini」應用程式更新檔案中，UI（使用者介面）代碼不小心留下了 Omni 模型的痕跡 [8]。敏銳的開發者在剖析應用程式內部代碼時，早在正式發表前就發現了「Omni」這個名字及其運作方式 [9]。這就像魔術師還沒上台，劇本就先穿幫了一樣。

然而，儘管發生了這樣的插曲，大眾的期待感反而更高，現場反應也極其熱烈。Google 在這次舞台上除了 Gemini Omni，還傾巢而出地展示了展現壓倒性實力落差的各項更新。

首先，推出了大幅提升搜尋引擎與 Workspace 全體速度的 「Gemini 3.5 Flash」 [10]。此外，還將進化的 AI 功能細緻地整合進 Google 文件 (Docs) 和 YouTube 等核心服務內部 [11]。

特別引人注目的是個人化 AI 助手 「Gemini Spark」 的登場 [1]。如果說過去的 AI 只是回答問題的販賣機，現在它則進化成了「始終保持覺察的主動助手」，能在你下達指令前就掌握你的行程、處理業務並提供當日計畫建議 [12, 13]。

未來展望 (What’s Next)

Gemini Omni 的出現不僅僅是發明了一個便利的工具，更預告了整個媒體內容市場的地殼變動。原本因為昂貴設備和長期訓練等高門檻而受壓抑的普通人的想像力，終於得到了徹底的釋放。不久之後，我們將見證一個前所未見、充滿原創影片大量湧現的時代。

Google 的步伐並未停歇。Google 透過這次主題演講充滿自信地宣布，將在下個月推出比目前公開功能性能更精湛的最強大腦 —— 「Gemini 3.5 Pro」 模型 [2]。

正如相機、電話與網路合而為一成為智慧型手機，進而改變了我們的日常生活；文字、聲音、照片與影片在「Gemini Omni」這個容器中融合的現象，也將永遠改變我們消費與創作媒體的方式。

現在，創作者唯一需要的才能不再是複雜的軟體操作技術，而是純粹的想像力 ——「該如何透過對話勾勒出我腦海中的世界」。在 Gemini Omni 開啟的這個新時代，你將與 AI 展開怎樣的第一次對話呢？

AI’s Take

Gemini Omni 的真正價值在於隱藏了技術複雜的運算過程，將人與人之間平凡的對話方式提升為創作工具。過去為了將想像力轉化為現實，必須重新學習「技術」這門語言；但現在，僅靠我們最熟悉的「語言」就已足夠。將想像力轉化為現實的障礙終於徹底崩塌。

參考資料

FACT-CHECK SUMMARY

Claims checked: 24
Claims verified: 24
Verdict: PASS

Share this article:

測試你的理解

Q1. 下列何者是 Google 全新發表的生成式媒體 AI 模型系列的正式名稱？

Gemini Spark
Gemini Omni
Gemini 3.5 Flash

Google 發表了次世代 AI 媒體模型系列「Gemini Omni」，可接收多種輸入值來生成影片並自然地進行編輯。

Q2. 在 Gemini Omni 推出前，Google 原有的基於文字生成影片的 AI 影片模型名稱為何？

Veo
Nano Banana
OmniFlash

Gemini Omni 是在 Google 原有的文字生成影片模型「Veo」的基礎上進一步擴展與強化而成的。

Q3. 在 Google I/O 2026 正式發表前，Gemini Omni 的存在是如何被世人預先知曉的？

競爭對手的駭客攻擊
Google 內部員工的爆料訪談
Gemini 智慧型手機應用程式內部的 UI 字串外洩

在活動舉行前一週，安裝在手機上的 Google Gemini 應用程式內部使用者介面 (UI) 字串外洩了 Omni 模型的蹤跡，使得相關功能提前曝光。