只需 3 張照片即可生成「同一主角」的影片?Google Veo 3.1 展現的魔法

想像一下,你有一張最心愛的愛犬照片,以及一張去年度假時拍的寧靜森林背景照。你將這兩張照片交給人工智慧 (AI),並下達指令:「幫我製作一段狗狗在這片森林裡興奮奔跑的 TikTok 影片。」不久後,一段就像是用真實相機拍攝、自然流暢的直式影片便出現在你的智慧型手機螢幕上。

如果說以前的 AI 影片技術比較接近「不知道會抽中什麼的樂透」,那麼現在正進入「精確放入所需食材並調整結果」的「客製化料理」領域。Google DeepMind 全新推出的影片生成模型 Veo 3.1 正引領著這場革新。

根據 Veo 3.1 Ingredients to Video:全新影片生成模型更新 的報導,該模型旨在提供比以往版本更高的一致性、創意以及製作者的掌控力。在 YouTube 推出可能真的有效的 AI 影片功能 中,Google DeepMind 的首席產品經理 Ricky Wong 強調,這次更新「與先前版本相比,展現了更卓越的一致性、創意與掌控力」,為 AI 影片製作樹立了新標準。

這為什麼很重要? (Why It Matters)

過去使用 AI 製作影片時,最困擾創作者的問題就是 「一致性 (Consistency)」。影片進行過程中,角色或背景應該保持不變,但現實往往並非如此。

例如,前一秒主角的帽子還是褐色的,下一秒卻突然變成紅色;或者可愛狗狗的臉部形狀出現微妙且詭異的扭曲。專家稱之為「身份漂移 (Identity drift,對象身份不一致的現象)」,這對於想要製作電影或廣告等高品質影片的人來說,是致命的缺陷。[Veo 3.1 Ingredients to Video 一致性角色 AI 影片](https://www.vo3ai.com/veo3-ingredients)

Veo 3.1 正面突破了這個問題。只要創作者提供想要的角色、物體或場景照片作為「參考圖像 (Reference Image)」,AI 就會以此為基礎固定影片的每一幀。Veo 3.1 Ingredients to Video:在 AI 影片中使用參考圖像

此外,為了反映近期 YouTube Shorts 或 TikTok 等直式內容的主流趨勢,Veo 3.1 支援「原生直式模式 (9:16 比例)」輸出。Google 的 Veo 現在能將人像照片轉換為直式 AI 影片 核心重點在於,這不僅是單純將橫式影片上下裁剪,而是從一開始就以最適合直式螢幕的構圖來繪製影片。

輕鬆理解:「從食材到影片」 (The Explainer)

這次更新的核心功能,是有著誘人名稱的 「Ingredients to Video (將食材轉化為影片)」。就像廚師挑選新鮮食材製作佳餚一樣,使用者可以預先指定影片中使用的視覺元素。

舉個例子,如果你只對廚師 (AI) 說「幫我做一份好吃的義大利麵」,廚師可能會隨意給你紅醬或青醬麵。但如果你親手遞交食材說「請用這款有機麵條、這罐特製醬料和這塊起司幫我做」,結果就會精確地呈現出你想像中的味道。

Veo 3.1 使用的就是這種「提供食材」的方式:

  1. 提供參考圖像:使用者最多可以提供 3 張主角角色或特定背景的照片給 AI。介紹 Veo 3.1 以及 Gemini API 中的全新創意功能
  2. 落下視覺之錨 (Anchor):提供的照片在影片生成的過程中起到了「錨」的作用,確保燈光、色調及主角長相保持不變。Veo 3.1 Ingredients to Video:在 AI 影片中使用參考圖像
  3. 和諧合成:如果你放入了芭蕾舞者、廣闊原野和馬戲團帳篷的照片,Veo 3.1 就會像變魔術般將這些材料融合,完成一段芭蕾舞者在馬戲團帳篷下的原野中優雅起舞的影片。從食材到影片:使用 Veo 3.1。內容是流動的。

在這個過程中,AI 不僅僅是遵循我們寫下的簡短描述 (Prompt,提示詞),還會根據從圖像中讀取的資訊,實現更加豐富且生動的動態效果。Google Veo 3.1 以 4K 解析度製作直式影片

現狀:目前能做到什麼? (Where We Stand)

Veo 3.1 不僅僅是實驗室裡的玩具,它已經逐漸滲透到我們身邊的 Google 服務中。

Google 自 2025 年 10 月首次公開以來,持續根據實際應用中的回饋,加強音訊品質與細膩的編輯控制功能。Google Veo 3.1 以 4K 解析度製作直式影片

未來將如何發展? (What’s Next)

Veo 3.1 是一個里程碑,標誌著 AI 影片製作正從「偶然的產物」邁向「精確設計」的領域。Google Veo 3.1 以 Ingredients-to-Video 技術推進 AI 影片

特別是對於個人創作者而言,這將是一個巨大的機會。因為只要有一張屬於自己獨特的角色照片,就能在世界任何地方製作出數十部具有一致性的系列影片。這意味著行銷成本將大幅降低,且每個人都能構建屬於自己的電影世界觀。[Veo 3.1 Ingredients to Video 一致性角色 AI 影片](https://www.vo3ai.com/veo3-ingredients)

雖然目前仍以 8 秒左右的短片為主,但隨著影片拼接與自然轉場技術的進步,不久的將來,我們將能日常性地看到完全由 AI 製作的短篇電影或電視廣告。Veo 3.1:包含範例的完整指南 - DataCamp

AI 的視角 (AI’s Take)

MindTickleBytes 的 AI 記者對 Veo 3.1 比起「技術炫耀」更專注於「使用者意圖」這一點表示讚賞。即使沒有複雜的影片編輯技術或價值數千萬元的設備,只需幾張照片,就能將腦海中的世界化為現實。現在,工具的限制已消失,唯一的差別將取決於你的想像力能延伸到何處。

參考資料

  1. Veo 3.1 Ingredients to Video:全新影片生成模型更新
  2. 介紹 Veo 3.1 以及 Gemini API 中的全新創意功能
  3. [Veo 3.1 終極提示指南 Google Cloud 網誌](https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1)
  4. 從食材到影片:使用 Veo 3.1。內容是流動的。
  5. Veo 3.1:包含範例的完整指南 - DataCamp
  6. Veo 3.1:Google 先進的 AI 影片生成器
  7. 在 Veo 3.1 中使用 "Ingredients to Video" 從圖片創建剪輯…
  8. [Veo 3 Google AI Studio](https://aistudio.google.com/models/veo-3)
  9. Veo 3.1 Ingredients to Video:在 AI 影片中使用參考圖像
  10. [Veo 3.1 Ingredients to Video 一致性角色 AI 影片](https://www.vo3ai.com/veo3-ingredients)
  11. Google 新聞 - Google Veo 3.1 更新承諾更真實的 AI…
  12. YouTube 推出可能真的有效的 AI 影片功能
  13. Google Veo 3.1 以 4K 解析度製作直式影片
  14. Google 的 Veo 現在能將人像照片轉換為直式 AI 影片
  15. 新聞 — Google DeepMind
  16. Google Veo 3.1 以 Ingredients-to-Video 技術推進 AI 影片