[谷歌 Veo 3.1] 以后 AI 视频也能“随心所欲”控制了！更逼真的质感与声音的秘密

AI Summary

谷歌 DeepMind 发布的 Veo 3.1 拥有更精细的视频质感和原生音频生成功能，并通过利用参考图像保持角色一致性的“素材转视频 (Ingredients to video)”等功能，大幅增强了创作者的控制力。

想象一下，你脑海中描绘的绝妙电影场景展现在眼前的瞬间。向 AI 输入“主角与小狗在夕阳西下的海滩上奋力奔跑的场景”（提示词，Prompt：下达给 AI 的指令）后，AI 就像变魔术一样瞬间生成了视频。

但是等等，出了个小问题。制作下一个场景时，主角的面孔发生了微妙的变化。刚才还是棕色头发，突然变成了黑色头发。就像电影里的主演在没有任何预告的情况下换了个人一样，让人感到荒唐。

许多人在感叹 AI 视频生成技术的同时，感到遗憾的正是这种“一致性”。“能不能让我想要的形象一直保持下去呢？”这种烦恼。现在，谷歌推出的最新技术 Veo 3.1 将给出答案。根据 Introducing Veo 3.1: A Smarter Creative Leap with the New Gemini API，我们正正式步入一个灵感转化为行动、内容生成如对话般直观的时代。

为什么这很重要？

之前的 AI 视频虽然神奇，但创作者很难百分之百按意图操控。更像是从 AI 随机画出的视频中挑选一个还不错的“碰运气”。但 Veo 3.1 不同，它给了创作者一个更强大的“方向盘”。

[Introducing Veo 3.1 and advanced creative capabilities…

TechNews](https://news-tech.io/en/news/introducing-veo-31-and-advanced-creative-capabilities) 强调这次更新赋予了人们更多的创意控制权。简单来说，不再是“AI，随便做个酷炫的”，而是可以下达非常具体的指令，比如“让这张照片里的主角，在这个地方，发出这样的声音并动起来”。

即使不是专家，仅凭几张照片就能制作出电影般的视频，而且 AI 还会自动配上完美契合视频氛围的声音。从 YouTube 博主到制作个人收藏视频的普通人，每个人手中都握有了成为“AI 导演”的强大工具。事实上，在谷歌的 AI 电影制作工具“Flow”中，过去 5 个月内生成了超过 2.75 亿个视频，足见其热度。 Introducing Veo 3.1 and advanced creative capabilities - ONMINE

轻松理解：Veo 3.1 的三大魔法

Veo 3.1 是在上一代模型 Veo 3 的基础上进一步精雕细琢的尖端模型。 [Ultimate prompting guide for Veo 3.1

Google Cloud Blog](https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1) 让我们从非专业人士的视角来看看具体有哪些变化。

1. “像真的一样”的感觉差异：质感与声音

我们看视频时觉得“假”或“生硬”的最大原因在于细微的质感。比如阳光映照下的皮肤毛孔、随风摆动的衣物纹理、平静扩散的水波波动等。Veo 3.1 捕捉与实物相同的质感的能力变得非常卓越。 Introducing Veo 3.1 and advanced capabilities in Flow

此外还加入了惊人的“声音”魔法。如果说现有的视频 AI 只是制作没有声音的默片，那么 Veo 3.1 则是生成 原生音频 (Native Audio，生成视频时同步产生的自带音效)。 Introducing our state of the art video generation model Veo 3, and… 这不仅仅是随便配个背景音乐的水平，它能同时制作出从自然的对话到与视频中动作完美契合的音效 (SFX)。 Introducing Veo 3.1 and new creative capabilities in the Gemini API

打个比方：Veo 3.1 不仅仅是一台画质变好的电视，它更像是升级成了配备立体声扬声器的最新款 IMAX 影院系统。

2. 通过“素材图像”保持一致性

为了解决前面提到的“主角经常变脸”的问题，谷歌引入了一项名为“素材转视频 (Ingredients to video)”的创新功能。用户可以预先向 AI 提供包含角色、特定物体或背景的 参考图像 (Reference Image)，最多 3 张。 Introducing Veo 3.1 and new creative capabilities in the Gemini API

接着 AI 会将这些照片作为珍贵的“素材”，在整个视频中保持角色的外貌或风格一致。 [Veo 3

Google AI Studio](https://aistudio.google.com/models/veo-3) 现在，让主角从第一幕到最后一幕都以同一张脸出现已经成为可能。

打个比方：与其对厨师说“随便做点好吃的”，不如展示你喜欢的肉和蔬菜照片并明确指定食谱：“请直接使用这些食材来烹饪。”

3. 视频扩展与场景连接

制作视频时经常会有“啊，要是这个场景能再长一点就好了”的时候。Veo 3.1 提供了可以以 7 秒为单位不断扩展现有视频的功能。 Veo 3.1 视频续播功能大师课：7 秒增量… - Apiyi.com Blog

此外，如果指定第一幕和最后一幕，它还具备能让中间部分连接得非常平滑自然的“场景转换 (Transition)”功能。 Introducing Veo 3.1 and new creative capabilities in the Gemini API 这样就能完成一个没有断裂感、流畅的一体化视频。

打个比方：就像拼乐高积木一样，把一个个 7 秒钟的视频积木连接起来，完成属于你自己的长篇故事，过程非常简单。

现状：进展到哪里了？

Veo 3.1 与其说是一项全新的技术，不如说是深度吸收了实际用户的反馈，将现有 Veo 3 的性能发挥到极致的更新版本。 Veo 3.1: Google’s Latest AI Video Update — New Features and … 特别是在将静止图像转换为充满活力的视频 (Image-to-Video) 时，质量得到了显著提升。 Introducing Veo 3.1 and advanced Flow capabilities - AI SCKOOL

现在这项技术同时支持方便手机观看的竖屏 (Portrait) 和像影院屏幕一样的横屏 (Landscape) 格式。得益于此，从 TikTok 或 Shorts 这样的短视频到电影般的宽屏视频，在任何格式下都能保持风格的一致性。 [Veo 3

Google AI Studio](https://aistudio.google.com/models/veo-3)

未来会怎样？

谷歌希望通过 Veo 3.1，让 AI 不仅仅是一个“代劳制作”视频的助手，而是成为能将人类创作者的灵感变为现实的“精密辅助者”。 Introducing Veo 3.1: A Smarter Creative Leap with the New Gemini API 未来，我们将能像与朋友进行日常对话一样直观地与 AI 交流，即使不学习复杂的剪辑技术，每个人也能完成高品质的视频。

想象一下，一张在抽屉里沉睡已久的老家全家福遇到 Veo 3.1 会怎样？或许它会重生成一段生动的回忆视频，能听到家人们的笑声，看到衣角在那天的微风中飘动。这不正是技术带给我们最温暖、最惊人的可能性吗？

AI 的视角

在 MindTickleBytes 的 AI 记者看来，Veo 3.1 的核心是“控制权的民主化”。因为以前需要昂贵设备和专业知识的“视频导演”领域，现在已经交到了普通大众的手中。在每个人都能用真实的质感和声音实现脑海中的想象的当下，特别是保持角色一致性的技术，将成为 AI 视频超越暂时的“实验作”、成为“真正的内容”的决定性契机。

参考资料

Introducing Veo 3.1 and advanced capabilities in Flow
Introducing Veo 3.1 and new creative capabilities in the Gemini API

[Ultimate prompting guide for Veo 3.1

Google Cloud Blog](https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1)

Introducing Veo 3.1 and advanced creative capabilities - ONMINE
Introducing Veo 3.1 and advanced creative capabilities
Introducing Veo 3.1 and advanced Flow capabilities - AI SCKOOL
Veo 3.1: Google’s Latest AI Video Update — New Features and …

[Introducing Veo 3.1 and advanced creative capabilities…

TechNews](https://news-tech.io/en/news/introducing-veo-31-and-advanced-creative-capabilities)

Introducing our state of the art video generation model Veo 3, and…
[Veo 3 Google AI Studio](https://aistudio.google.com/models/veo-3)
Veo 3.1 동영상 이어가기 기능 마스터하기: 7초 증분… - Apiyi.com Blog
Introducing Veo 3.1 and new creative capabilities in the Gemini API
Introducing Veo 3.1: A Smarter Creative Leap with the New Gemini API
Veo 3.1: My Hands-On Deep Dive into… - CrePal Content Center

FACT-CHECK SUMMARY

Claims checked: 19
Claims verified: 18
Verdict: PASS

Share this article:

测试你的理解

Q1. Veo 3.1 中为了保持角色或风格一致性而提供的创新功能名称是什么？

素材转视频 (Ingredients to video)
视频扩展 (Video Extend)
声音同步 (Sound Sync)

Veo 3.1 引入了“素材转视频 (Ingredients to video)”功能，可以使用最多 3 张参考图像来保持角色或物体的一致性。

Q2. Veo 3.1 的视频续播 (Video Extend) 功能每次可以增加几秒钟的视频？

3秒
7秒
15秒

Veo 3.1 的视频扩展技术允许以 7 秒为增量单位续播视频。

Q3. 以下哪项不是 Veo 3.1 相比前代版本 Veo 3 的改进之处？

生成更丰富的原生音频
图像转视频时的质量提升
无需互联网连接，仅在本地运行

Veo 3.1 提升了音频质量和图文转视频的质量，但提供的资料中并未提到它是一个纯本地运行的模型。