只需 3 张照片即可生成“相同主角”视频？谷歌 Veo 3.1 展现的魔法

想象一下，你有一张最心爱的宠物狗照片，以及一张去年度假时拍摄的宁静森林背景照。你把这两张照片交给人工智能（AI），并下达指令：“帮我做一个我家狗狗在森林里欢快奔跑的 TikTok 视频。”片刻之后，一段如同用真实摄像机拍摄般自然的竖屏视频便出现在你的智能手机屏幕上。

如果说以前的 AI 视频技术更接近于“不知道会出什么结果的彩票”，那么现在它正在进入“精准投放素材并控制结果”的“定制料理”领域。谷歌 DeepMind（Google DeepMind）新推出的视频生成模型 Veo 3.1 正引领着这一变革。

根据 Veo 3.1 Ingredients to Video：新的视频生成模型更新的介绍，该模型旨在提供比以往版本更高的一致性、创造力和创作者控制力。在 YouTube 发布了可能真的有用的 AI 视频功能中，谷歌 DeepMind 的首席产品经理 Ricky Wong 强调，这次更新“提供了比以前版本更出色的一致性、创造力和控制力”，为 AI 视频制作树立了新标准。

为什么这很重要？ (Why It Matters)

在此之前，利用 AI 制作视频时最困扰创作者的问题就是“一致性（Consistency）”。视频在播放过程中，角色或背景应该保持不变，但现实情况并非总是如此。

例如，主角的帽子在 1 秒前还是棕色的，下一秒就突然变成了红色；或者可爱狗狗的面部形状会变得有些诡异。专家称之为“身份漂移（Identity drift，对象身份不一致的现象）”，对于想要制作电影或广告等高质量视频的人来说，这是一个致命的缺陷。[Veo 3.1 Ingredients to Video

一致的角色 AI 视频](https://www.vo3ai.com/veo3-ingredients)

Veo 3.1 直接解决了这个问题。创作者只需提供所需的角色、物体或场景照片作为“参考图像（Reference Image）”，AI 就会以此为基础固定视频的每一帧。Veo 3.1 Ingredients to Video：在 AI 视频中使用参考图像

此外，顺应最近 YouTube Shorts 或 TikTok 等竖屏内容的主流趋势，它还支持“原生竖屏模式（9:16 比例）”输出。谷歌 Veo 现在可以将人像照片转换为垂直 AI 视频这不仅仅是简单地对横屏视频进行上下剪裁，核心在于从一开始就以最适合竖屏画面的构图来绘制视频。

轻松理解：“从素材到视频” (The Explainer)

此次更新的核心功能是一个听起来很有食欲的名字：“Ingredients to Video（将素材转化为视频）”。就像厨师挑选新鲜食材制作精品料理一样，用户可以预先确定视频中使用的视觉元素。

打个比方？如果你只对厨师（AI）说“给我做一份好吃的意面”，厨师可能会根据自己的心意给你番茄意面或奶油意面。但如果你直接把食材递给他，并说“用这些有机面条、这款特制酱料和这种奶酪给我做”，结果会怎样？成品肯定会完全符合你想象中的味道。

Veo 3.1 使用的就是这种“提供素材”的方式：

提供参考图像：用户最多可以给 AI 提供 3 张主角角色或特定背景的照片。介绍 Veo 3.1 以及 Gemini API 中的新创意功能
放下视觉“锚点（Anchor）”：提供的照片就像一个“锚”，确保在视频制作过程中，光影、色调和主角的外貌保持不变。Veo 3.1 Ingredients to Video：在 AI 视频中使用参考图像
和谐合成：如果你放入了芭蕾舞者的照片、广阔田野的照片和马戏团帐篷的照片，Veo 3.1 就会像变魔术一样将这些素材融合，完成一段芭蕾舞者在马戏团帐篷下的田野里优雅起舞的视频。使用 Veo 3.1 将素材转化为视频。内容是流动的。

在这个过程中，AI 超越了我们编写的简短描述词（Prompt，提示词），基于从图像中读取的信息，实现更加丰富且充满生动感的动作。谷歌 Veo 3.1 创建具有 4K 分辨率的竖屏视频

现状：可以做什么？ (Where We Stand)

Veo 3.1 不仅仅是实验室里的玩具，它已经融入到我们身边的谷歌服务中。

电影级画质：生成的视频可以从 1080p 超分辨率（Upscaling，提高分辨率使画质更清晰的技术）到 4K 分辨率。Veo 3.1 Ingredients to Video：新的视频生成模型更新
自由编辑：除了制作新视频外，延长现有视频（Extend）或指定起始和结束场景并自然填充中间内容的功能也变得更强大了。介绍 Veo 3.1 以及 Gemini API 中的新创意功能
商务应用：在谷歌的协作工具“Google Vids”中也可以使用此功能。只需选择 3 张图片，就能快速制作出 8 秒长的宣传视频，让演示资料更具吸引力。使用 Veo 3.1 的 "Ingredients to Video" 从图像创建剪辑…
开发者支持：目前，全球创作者正通过 Gemini API 和 Google AI Studio 直接测试该模型。介绍 Veo 3.1 以及 Gemini API 中的新创意功能

自 2025 年 10 月首次公开以来，谷歌根据实际应用中的反馈，不断增强音频质量和精细的编辑控制功能。谷歌 Veo 3.1 创建具有 4K 分辨率的竖屏视频

未来会怎样？ (What’s Next)

Veo 3.1 是一个里程碑，标志着 AI 视频制作正在从“偶然的产物”跨越到“精巧的设计”领域。谷歌 Veo 3.1 通过“素材到视频”技术推动 AI 视频发展

特别是对于个人创作者来说，这将是一个巨大的机会。因为只要有一张属于自己的独特角色照片，就可以在世界任何地方创作出数十部风格一致的系列视频。这意味着营销成本将大幅降低，任何人都可以构建属于自己的电影世界观。[Veo 3.1 Ingredients to Video

一致的角色 AI 视频](https://www.vo3ai.com/veo3-ingredients)

当然，目前虽然仍以 8 秒左右的短片段为主，但随着视频拼接和自然转换技术的加入，不久之后我们将能在日常生活中看到完全由 AI 制作的正式短片或电视广告。Veo 3.1：带有示例的完整指南 - DataCamp

AI 的视角 (AI’s Take)

MindTickleBytes 的 AI 记者对 Veo 3.1 更多地关注“用户意图”而非单纯“技术炫耀”表示赞赏。即使没有复杂的视频编辑技术或昂贵的专业设备，只需几张照片就能将脑海中的世界变为现实。现在，工具的局限性已经消失。唯一的差异点将取决于你的想象力能触及多远。

参考资料

Veo 3.1 Ingredients to Video：新的视频生成模型更新
介绍 Veo 3.1 以及 Gemini API 中的新创意功能

[Veo 3.1 终极提示指南

Google Cloud 博客](https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1)

使用 Veo 3.1 将素材转化为视频。内容是流动的。
Veo 3.1：带有示例的完整指南 - DataCamp
Veo 3.1：谷歌先进的 AI 视频生成器
使用 Veo 3.1 的 "Ingredients to Video" 从图像创建剪辑…
[Veo 3 Google AI Studio](https://aistudio.google.com/models/veo-3)
Veo 3.1 Ingredients to Video：在 AI 视频中使用参考图像
[Veo 3.1 Ingredients to Video 一致的角色 AI 视频](https://www.vo3ai.com/veo3-ingredients)
Google News - 谷歌 Veo 3.1 更新承诺更真实的 AI…
YouTube 发布了可能真的有用的 AI 视频功能
谷歌 Veo 3.1 创建具有 4K 分辨率的竖屏视频
谷歌 Veo 现在可以将人像照片转换为垂直 AI 视频
新闻 — Google DeepMind
谷歌 Veo 3.1 通过“素材到视频”技术推动 AI 视频发展

Share this article: