我拍的照片能变成电影?谷歌发布全新 AI 视频工具 'Veo 3.1'

形象化展示 AI 生成的高画质视频在屏幕上展开,以及创作者进行操控的手势图像
AI Summary

谷歌发布了具有更真实画质和精细编辑功能的 AI 视频模型 'Veo 3.1',开启了人人都能将想象力转化为高画质视频的时代。

请想象一下。 你的手机相册里躺着一张可爱的狗狗照片。你把它交给 AI 并说道:“让我的狗狗穿上帅气的宇航服,在月球上蹦蹦跳跳地跑来跑去。”

片刻之后,一段如同好莱坞科幻电影场景般生动的高画质视频呈现在你眼前。狗狗的每一根毛发都在无重力状态下轻柔飘动,每当它的爪子踏上粗糙的月球表面,传来的“沙沙”声都与画面完美融合。这不再仅仅是让图片动起来,而是诞生了一个声音与质感并存的“世界”。

这不再是科幻电影中的桥段。这是谷歌 DeepMind (Google DeepMind) 最近发布的最新 AI 视频生成模型 ‘Veo 3.1’ 将为我们的日常生活带来的改变。在 Flow 中介绍 Veo 3.1 及其高级功能

为什么这很重要?

到目前为止,用 AI 制作视频就像是“全凭运气的抓娃娃游戏”。输入“制作一段精美的森林视频”,虽然能得到相当不错的成果,但很难维持你脑海中构思的精确树木形状或特定角色的感觉。AI 往往因为无法 100% 读懂你的心意而给出风马牛不相及的视频。

Veo 3.1 不同。该模型提供了一个“精密控制器”,让创作者可以直接调节每一个细微之处。介绍我们最先进的视频生成模型 Veo 3 及其……

这之所以重要,是因为创作的门槛正彻底消失。现在,无需学习专业的视频编辑技术,也不必配备价值千万韩元的昂贵设备,只要你有“创意”,就能随心所欲地制作高画质视频。谷歌将其称为超越单纯工具的“智能创意副驾驶 (Creative co-pilot)”。这意味着在创作过程中,AI 将成为人类的助手,共同翱翔。Veo 3.1:通往增强创意可能性的大门

通俗易懂:Veo 3.1 的三大魔法

让我们通过三个核心功能,详细了解 Veo 3.1 比以前的版本聪明了多少,以及它如何帮助我们的创作活动。

1. 像挑选烹饪食材一样制作视频:‘视频素材输入’

如果说以前的 AI 是一个只看食谱(说明文字)就做菜的厨师,那么 Veo 3.1 的“视频素材输入 (Ingredients to Video)”功能就像是直接把新鲜食材交到厨师手中。在 Flow 中介绍 Veo 3.1 及其高级功能

你现在可以向 AI 提供最多 3 张参考图片。我们可以打个这样的比方:

  • 图片 1 (主角):我自己画的独特角色草图
  • 图片 2 (背景):我在旅游胜地拍摄的宁静森林照片
  • 图片 3 (氛围):我喜欢的带有温暖阳光的水彩画风格图片

只要提供这三种“材料”,AI 就能在准确保持角色外貌和背景氛围的同时生成视频。谷歌新闻 - 谷歌推出 Veo 3.1,一款 AI 视频生成工具…… “让我创作的角色在我拍的照片里尽情玩耍”这一请求终于得到了完美的实现。谷歌在 Flow 中发布 Veo 3.1 和新的音频控制功能

2. 询问“接下来发生了什么?”的乐趣:‘续写’功能

以前 AI 视频最大的缺点是长度太短。仅展示几秒钟就结束了,令人深感遗憾。“续写 (Extend)”功能解决了这一痛点。在 Gemini API 中介绍 Veo 3.1 和新的创意功能 这就像孩子在睡前问“妈妈,接下来主角怎么样了?”,然后父母继续讲故事一样。

Veo 3.1 可以以 7 秒为单位不断延长现有视频。通过重复这一过程,将总长度制作成 1 分钟以上的长视频已成为可能。掌握 Veo 3.1 视频续写功能:7 秒增量…… - Apiyi.com 博客 谷歌发布 Veo 3.1 并升级 Flow 的高级功能 此外,如果你指定了视频的起始场景和结束场景,AI 还可以自然地填充其中间部分,提供“场景转换 (Transition)”功能,从而实现更流畅的故事构建。在 Gemini API 中介绍 Veo 3.1 和新的创意功能

3. 为视频注入灵魂的声音:‘原生音频’

当电影从无声时代跨入有声时代时,人们受到了巨大的冲击。因为加入声音后,视频仿佛获得了真正的“生命”。Veo 3.1 不仅制作视频,还能生成与该场景完美契合的声音。这被称为“原生音频 (Native audio)”介绍我们最先进的视频生成模型 Veo 3 及其……

这不仅仅是添加背景音乐。AI 能制作出与视频中人物口型同步的对话声、踩在雪地上发出的“咯吱”声、树叶在风中摇曳的声音等与画面情境完美同步的音效。在 Gemini API 中介绍 Veo 3.1 和新的创意功能 视觉上的真实感加上听觉上的沉浸感,使视频的完成度得到了飞跃式的提升。谷歌在 Flow 中发布 Veo 3.1 和新的音频控制功能

现状:发展到什么程度了?

Veo 3.1 是在谷歌 DeepMind 原有模型 Veo 3 的基础上进一步提升性能的最尖端模型。[Veo 3.1 终极提示词指南 谷歌云博客](https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1) 它提升的不只是画质,理解并执行用户输入的指令(提示词)的能力也变得更加精细。在 Flow 中介绍 Veo 3.1 及其高级功能 简单来说,它变成了一个“非常听得懂话的 AI”。

目前,用户可以通过谷歌的创作工具 ‘Flow’ 体验 Veo 3.1,同时它也通过面向专家的 ‘Gemini API’ 进行了发布。谷歌发布 Veo 3.1 并升级 Flow 的高级功能 特别是在付费预览版中,用户可以根据情况选择高画质的“Veo 3.1”或生成速度更快的“Veo 3.1 Fast”模型。在 Gemini API 中介绍 Veo 3.1 和新的创意功能

当然,目前还不是万物皆完美的阶段。关于它在实际办公场景中的效率如何,以及对制作短视频 (Short-form) 内容能提供多大实际帮助,仍有许多专家在进行测试和分析。Veo 3.1 评测:能力、局限与真实场景应用

会发生什么改变?未来的图景

Veo 3.1 的出现将从根本上改变我们消费内容的方式,以及“生产”内容的方式。以前为了制作一个视频,必须经过策划、拍摄、灯光、剪辑、录音等许多复杂的步骤,但现在我们可以像和 AI “对话”一样制作出作品。介绍 Veo 3.1:借助全新 Gemini API 实现更智能的创意飞跃

未来,我们可以期待以下令人惊喜的变化:

  1. 专属个人电影:将以我家孩子为主角的绘本制作成动画,或者根据我自己写的一段短文瞬间制作出专属短片。
  2. 人人都是广告制作者:经营小购物中心的店主无需投入巨额费用,也能亲手制作宣传自己产品的精美广告视频。
  3. 生动的教育现场:通过 AI 视频,可以像亲临现场一样生动地学习只能在书本上看到的复杂科学原理或历史事件。

谷歌 DeepMind 梦想通过 Veo 3.1 打造一个灵感即刻变为现实、内容生成如同日常对话般直观的世界。介绍 Veo 3.1:借助全新 Gemini API 实现更智能的创意飞跃 如果你手中握有这个魔术般的工具,你最想制作什么样的视频呢?


AI 视角

MindTickleBytes AI 记者的评论: Veo 3.1 是一个标志性的模型,它展示了 AI 已经超越了单纯描绘事物的“生成器”,进化成了深度理解人类创意意图的“协作伙伴”。特别是使用图片作为材料的功能以及长视频续写功能,从中可以看出谷歌正努力将创作的主导权重新交还给人类的想象力。技术门槛已经不复存在,现在我们需要做的,只是回答“要讲一个什么样的故事”这个问题。


参考资料

  1. 在 Flow 中介绍 Veo 3.1 及其高级功能
  2. 在 Gemini API 中介绍 Veo 3.1 和新的创意功能
  3. [Veo 3.1 终极提示词指南 谷歌云博客](https://cloud.google.com/blog/products/ai-machine-learning/ultimate-prompting-guide-for-veo-3-1)
  4. 介绍 Veo 3.1 和先进的创意功能
  5. Veo 3.1:谷歌最新的 AI 视频更新 — 新功能与……
  6. Veo 3.1 评测:能力、局限与真实场景应用
  7. 在 Gemini API 中介绍 Veo 3.1 和新的创意功能(付费预览版)
  8. Veo 3.1:通往增强创意可能性的大门
  9. 掌握 Veo 3.1 视频续写功能:7 秒增量…… - Apiyi.com 博客
  10. 介绍我们最先进的视频生成模型 Veo 3 及其……
  11. 谷歌新闻 - 谷歌推出 Veo 3.1,一款 AI 视频生成工具……
  12. 在 Gemini API 中介绍 Veo 3.1 和新的创意功能 (TechNews)
  13. 谷歌发布 Veo 3.1 并升级 Flow 的高级功能
  14. 谷歌在 Flow 中发布 Veo 3.1 和新的音频控制功能
  15. 介绍 Veo 3.1:借助全新 Gemini API 实现更智能的创意飞跃

事实核查摘要

  • 核查项:21
  • 已验证项:21
  • 结论:通过 (PASS)
测试你的理解
Q1. 在 Veo 3.1 中,使用多张参考图片来指定角色或风格的功能名称是什么?
  • 视频扩展 (Video Extend)
  • 视频素材输入 (Ingredients to Video)
  • 原生音频 (Native Audio)
‘视频素材输入 (Ingredients to Video)’是一项使用最多 3 张图片作为‘素材’,来精细控制视频风格和角色的功能。
Q2. 通过 Veo 3.1 的‘续写 (Extend)’功能,一次可以延长多长的视频?
  • 3 秒为单位
  • 7 秒为单位
  • 15 秒为单位
Veo 3.1 提供了可以以 7 秒为单位不断延长现有视频的功能。
Q3. 与之前的版本 Veo 3 相比,以下哪项不是 Veo 3.1 改进的核心要点?
  • 视听质量提升
  • 提示词遵循能力增强
  • 新增单纯的文本摘要功能
Veo 3.1 大幅提升了视听质量和遵循用户指令(提示词)的能力,但文本摘要并非其主要目的。