想象力化身8秒电影?谷歌 Gemini 全新‘视频生成’功能全攻略

在谷歌 Gemini 界面中通过文本提示词生成的 8 秒动态电影级视频示例图
AI Summary

现在只需在谷歌 Gemini 中输入一行文字,即可生成 8 秒的高画质电影级视频。让我们一起走进开启 AI 视频新时代的 Veo 2。

试想一下这样的场景:你想要向别人描述昨晚梦见的‘穿梭在霓虹闪烁的未来城市中的飞行汽车’。放在以前,你可能需要花几个月时间学习复杂的图形工具,或者花费高昂的费用请专家代劳。但现在,你只需在谷歌 Gemini 的聊天框中输入一句话:“请制作一段电影风格的视频,展示一辆飞行汽车穿梭在霓虹闪烁的未来城市中。”短短几秒钟,你脑海中的想象就会化作生动的影像,呈现在你眼前。

谷歌最近宣布在其付费订阅服务“Gemini Advanced”和实验性创作工具“Whisk”中搭载了次世代视频生成模型 Veo 2[Source 1] [Source 5] 现在,我们正处于一个无需复杂摄影设备,仅凭文字或图片就能迅速创作出专业级短视频的时代。

为什么这很重要?视频创作的‘门槛’正在消失

直到现在,与 AI 对话来写作或画画已经变得司空见惯。但‘视频’完全是另一个维度的挑战。视频需要每秒快速切换数十张静止图像来产生动态效果。这意味着 AI 不仅要学会画画,还要完美计算时间的流动和物体的运动。

Veo 2 的出现不仅仅是增加了一个‘新功能’,它更意味着视频创作的民主化。现在,即使是完全没有视频编辑经验的普通人,也能瞬间将创意视觉化。[Source 2] 专家戴夫·康斯汀(Dave Constine)强调,这款工具对于社交媒体博主或品牌运营者来说,“不是遥不可及的未来技术,而是现在就能投入工作的实用工具”。[Source 2]

打个比方,以前拍一部电影需要庞大的工作室和无数工作人员,而现在,你手中的智能手机就能完成这一切。

轻松理解:Veo 2 是如何制作视频的?

如果把视频生成 AI Veo 2 比作我们身边的人物,那它就是一位‘阅片无数的天才动画师’

例如,当你下达“夕阳下的海滩上,小狗欢快奔跑”的指令时,Veo 2 并不是简单地拼接几张相似的照片。通过海量数据的学习,这个 AI 已经掌握了‘夕阳余晖会以什么角度散射’、‘小狗奔跑时腿部肌肉如何收缩’以及‘海浪拍打的节奏是怎样的’。[Source 11]

这就好比一位顶级厨师听到“麻辣意面”的订单,脑海中会立刻浮现食材的搭配和烹饪过程。Veo 2 也是如此,它根据你的文字(菜谱),将物理定律和视觉风格进行精密组合,最终呈现出这段时长 8 秒的生动影像。

特别有趣的功能是 ‘Whisk Animate’[Source 10] 这项技术能为静止的照片注入灵魂。如果你把旅行时拍的美景照片上传到 Whisk,AI 就能让照片里的树木随风摇曳,或是让云朵缓缓流动,将其变成充满活力的视频。让承载回忆的照片像变魔术一样幻化为视频。[Source 15] [Source 16]

现状:我们现在就能体验的功能

以下是目前在谷歌 Gemini 中可以使用的 Veo 2 主要特点:

  1. 8秒的魔法:单次生成的视频长度为 8 秒[Source 1] [Source 3] 虽然这只是深呼吸一次的时间,但对于 Instagram Reels 或 TikTok 这样的短视频内容来说,足以留下深刻印象。
  2. 清晰的高画质:提供 720p 分辨率(HD 级画质)的 MP4 文件[Source 3] 画面比例为电视和 YouTube 常用的 16:9 横屏模式(Widescreen),方便在各种平台使用。[Source 6]
  3. 导演般的运镜控制:不仅能画出‘什么’,你还可以指定相机的运动(如推焦、拉焦等)或电影感的色调。[Source 11] 你能体验到像导演一样给摄影师下达详细指令的感觉。
  4. 负责任的创作:为了防止 AI 生成的视频被用于虚假新闻等恶意用途,谷歌采用了不可见的数字水印技术 SynthID[Source 11] 虽然肉眼看不见,但在技术层面上可以识别出视频是由 AI 制作的,从而提高了透明度。

使用方法非常简单。如果你是 Gemini Advanced 订阅用户,只需在模型选择菜单中选择 ‘Veo 2’ 即可。[Source 1] 目前该功能正陆续向全球用户推送,请立即查看![Source 14]

未来展望:从 8 秒到完整电影的跨越

虽然目前只是 8 秒的短片段,但考虑到技术的进步速度,不久的将来,我们或许能直接生成想看的电影片段,或者实时制作高度个性化的定制广告。通过这次 Veo 2 的集成,谷歌宣布正式进入跨越文字、照片、声音并能自由驾驭‘视频’的真实 多模态(Multimodal,同时理解和处理多种形式信息的技术) AI 时代。[Source 11]

当然,目前仍有改进空间。比如每月的生成数量有限,处理极其复杂的物理定律(如倒水等)时偶尔会显得不自然。[Source 6] 不过,谷歌正在不断改进用户体验,例如在达到生成上限前发送通知等。

AI 视角(MindTickleBytes AI 记者点评)

视频生成 AI 的发展将从根本上改变我们记录和表达世界的方式。如果说过去是通过相机镜头捕捉世界的‘拍摄’时代,那么现在我们正在迈向通过文字描绘脑中构思的‘组合’时代。技术固然重要,但我更期待拥有了这款强大工具后,人类的创造力能延伸到何种高度。今天,你想要用这 8 秒钟的魔法创造出什么样的特别瞬间呢?

参考资料

  1. Try generating video in Gemini, powered by Veo 2
  2. Generate Videos in Gemini and Whisk with Veo 2
  3. Google Launches Video Generation Veo 2 in Gemini
  4. You can now generate AI videos in Google Gemini and Whisk
  5. Generate videos in Gemini and Whisk with Veo 2 - The Story Thailand
  6. Google News - Gemini Overview
  7. Gemini video generation rolls out with Veo 2 and Whisk
  8. Gemini gets Veo 2 and Whisk Animate for AI video creation
  9. Google Integrates Veo 2 Video Generator into Gemini Advanced Platform
  10. Google Gemini launches video generator: How to make AI clips using Veo 2
  11. Google’s Veo 2 video generating model comes to Gemini
  12. Google Rolls Out AI-Powered Video Generation for Gemini
  13. Google Gemini Advanced Now Lets You Generate 8-Second Video Clips
  14. How to create cinematic AI videos in Gemini with Veo 2 and Whisk
  15. Google rolls out its AI video generator to Gemini Advanced

事实核查摘要

  • 已核查项: 20
  • 已验证项: 19
  • 结论: 通过
测试你的理解
Q1. 谷歌 Gemini 和 Whisk 最新推出的视频生成模型名称是什么?
  • Gemini Video
  • Veo 2
  • Whisk Animate
谷歌已将最新的视频生成模型 Veo 2 集成到 Gemini Advanced 和 Whisk 中。
Q2. 通过 Veo 2 生成的视频最大长度是多少秒?
  • 5秒
  • 8秒
  • 15秒
Veo 2 目前可以生成 8 秒长的视频片段。
Q3. 为了识别 AI 生成的视频,谷歌采用了哪种水印技术?
  • AI-Sign
  • DigitalStamp
  • SynthID
谷歌使用 SynthID 水印技术来识别 AI 生成的内容。
想象力化身8秒电影?谷歌 Gemini 全新‘视频生成...
0:00