如果脑海中的想象在8秒内变成电影?谷歌 'Veo 2' 开启的魔法世界

视觉化展示在谷歌 Gemini 界面中通过文本提示词生成绚丽且写实视频过程的图像
AI Summary

谷歌高性能视频 AI 'Veo 2' 已集成至 Gemini Advanced,现在任何人都可以仅凭几行文字或一张照片,亲自创作出长达 8 秒的电影级高清视频。

想象一下。 昨晚梦中见到的“身穿宇航服在火星上跳嘻哈舞的猫”,或者是只在小说中读到的“泛着金色波浪的神秘紫色大海”风景,如果能在短短几秒钟内像真实的电影场景一样生动呈现,那会是怎样的体验?不久前还需要专业视频剪辑师使用高性能设备工作数日的事情,现在只需在您的智能手机或电脑上输入几行文字即可实现。

据悉,谷歌已将其最强大的视频生成人工智能模型 ‘Veo 2’ 正式引入用户常用的对话型 AI Gemini 以及创意实验空间 Whisk [Source 11][Source 16]。这意味着人工智能已经跨越了写作和绘图的阶段,进入了创造生动“世界”的新纪元。

为什么这很重要?

我们现在生活在一个“视频时代”。事实上,视频内容已经占据了目前互联网流量的 65% 以上 [Source 3]。然而,亲自制作视频仍然是一个困难且复杂的领域。因为这需要学习复杂的编辑工具使用方法,配备拍摄设备,有时甚至需要投入巨额费用寻求专家的帮助。

Veo 2 的出现是从根本上改变创作工具本身的事件。简单来说,这意味着即使没有“技术”,只要有“创意”,任何人都可以成为创作者。无论是没有专业设备的学生,还是想要宣传自家店铺的小企业主,亦或是创意十足的普通人,都能立即将自己的想法实现为高清视频。这在制作教学材料、策划广告营销或预构电影概念等生活的各个领域,都具有彻底改变视觉沟通方式的潜力。

轻松理解:Veo 2 如何施展魔法?

如果用一句话来定义 Veo 2,那就是 “能完美听懂我话的数字电影导演”。当你输入文本提示词(Prompt,给 AI 的指令)或提供一张图片时,AI 就会以此为基础生成一段约 8 秒钟 的高清视频 [Source 2][Source 14]

1. 学习了现实世界规则的 AI(理解物理学)

Veo 2 优于现有模型的地方在于,它对现实世界的 物理定律和人物动作 有着非常深刻的理解 [Source 1][Source 7]

比喻来说,这就像画家彻底研究了解剖学,从而能更真实地描绘出人的肌肉和骨骼运动。AI 通过海量数据学习了人在行走或跑步时关节如何弯曲才自然,以及水流动时光线如何反射。得益于此,生成的人物不会显得不自然地扭动,而是能创作出具有“电影级写实感(Cinematic Realism)”的流畅视频 [Source 5]

2. 将图转为文,再将文转为视频(提示词转换技术)

Veo 2 包含一项名为 “提示词转换(Prompt Transmutation)” 的有趣技术 [Source 9]

当你上传一张照片时,AI 首先会将这张照片转换为非常详细的“文本描述”。然后,再根据该文本描述重新制作视频。

  • 比喻来说: 就像目击者看到罪犯的素描后,通过电话向警察详细描述其体貌特征,警察听完描述后在脑海中想象罪犯的动作。通过这一过程,AI 能够捕捉到用户想要的风格和场景中的细微差异,并将其融入视频中。

3. 为照片注入呼吸的 ‘WhiskAnimate’

在谷歌实验室的实验性平台 Whisk 中,可以使用将图像转换为视频的 “WhiskAnimate” 功能 [Source 2][Source 18]。如果你上传一张心爱的宠物狗照片或自己画的角色图,并下令“让它在海滩上开心地奔跑”,那么那张静态图像就会变成一段生动的 8 秒短片。

可以在哪里以及如何使用?

如果您想立即体验这项如魔法般的技术,可以通过以下两种路径:

  • Gemini Advanced: 如果您是 Google One AI Premium 订阅者,可以在 Gemini 应用界面的模型下拉菜单中选择 Veo 2 [Source 8][Source 16]。在这里输入诸如“制作一段以夕阳为背景在海岸公路上行驶的老式汽车视频”之类的文本即可。
  • Whisk: 在谷歌的实验性创作平台 Whisk 中也可以见到 Veo 2。在这里,你不仅可以输入文本,还可以结合图像和文本,产出更具创意和精细的成果 [Source 11][Source 17]

生成的视频通常以 720p 分辨率(高清视频标准)的 MP4 文件形式提供,在某些环境下最高可支持 4K 分辨率,画质非常清晰 [Source 8][Source 18][Source 19]。此外,为了防止假新闻等滥用行为,所有视频中都嵌入了肉眼不可见但可通过特殊设备识别的 “SynthID(用于识别 AI 生成物的水印)”,增强了安全性和责任感 [Source 18]

展望未来:我们的日常生活将如何改变?

目前 Veo 2 制作的视频长度约为 8 秒,每天可生成的次数也可能受到限制 [Source 11][Source 18]。但技术的发展速度远超我们的想象。谷歌已经为开发者准备了 Veo 3.1 模型,该模型可以以一张图片为起始画面连接视频,进一步提升性能 [Source 10]

在不久的将来,我们在 YouTube Shorts 或 TikTok 上看到的许多视频,可能不再是人拿着摄像机拍摄的,而是与 AI 对话产生的成果。“视频剪辑只有专家才能做”的常识正在被打破,每个人都能将脑海中的风景与世界分享的“个人电影导演”时代正正式开启。


AI 记者的视角 (MindTickleBytes AI)

Veo 2 不仅仅是一项技术成就,它更像是无限放大人类创造力的“智能画笔”。8 秒的时间虽然看起来很短,但其中蕴含的物理定律的精密度和视觉完成度,证明了 AI 对人类现实世界的理解深度。

特别令人印象深刻的是“创作的大众化”与“负责任的技术”之间的平衡。在让任何人都能制作电影级视频的同时,谷歌通过 SynthID 等技术努力降低虚假内容的风险,这一点非常令人鼓舞。未来,这 8 秒的魔法将如何延续到 8 分钟、80 分钟的感动,人类又将谱写出怎样的新故事呢?我们正见证着那伟大想象的第一幕。


参考资料

  1. Generate videos in Gemini and Whisk with Veo 2
  2. Generate videos in Gemini and Whisk with Veo 2 - YouTube
  3. How to use Google Gemini Veo 2 Video Generator - Kapwing
  4. How to Create Videos in Gemini Using Veo 2: Step-by-Step Guide
  5. Generate Gemini and Whisk videos with Veo 2 - AI SCKOOL
  6. How to Create Cinematic AI Videos in Gemini with VEO 2 and WHISK: Step-by-Step Guide
  7. Generate videos in Gemini and Whisk with Veo 2 - ONMINE
  8. [Generate videos in Gemini and Whisk with Veo 2 Komo AI Research](https://komo.ai/share/1tppcby3AfOmW3zTwpkE)
  9. [Generate videos in Gemini and Whisk with Veo 2 Hacker News](https://news.ycombinator.com/item?id=43695592)
  10. [Generate videos with Veo 3.1 in Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/video)
  11. [Google’s Veo 2 video generating model comes to Gemini TechCrunch](https://techcrunch.com/2025/04/15/googles-veo-2-video-generator-comes-to-gemini/)
  12. Attempt producing video in Gemini, powered by Veo 2 – blog.aimactgrow.com
  13. Google Rolls Out AI-Powered Video Generation for Gemini Advanced and Whisk
  14. How to create cinematic AI videos in Gemini with Veo 2 and Whisk: Step-by-Step Guide
  15. Gemini app rolling out Veo 2 video generation for Advanced users
  16. Google introduces Veo 2 for video generation in Gemini and Whisk
  17. [Google Unveils Veo 2: The Future of AI Video Creation AI News](https://opentools.ai/news/google-unveils-veo-2-the-future-of-ai-video-creation)
  18. Google’s New Veo 2 AI Video Generation rolls out to Gemini and Whisk platforms
测试你的理解
Q1. 在谷歌 Gemini Advanced 中,通过 Veo 2 生成的视频标准长度是多少?
  • 3秒
  • 8秒
  • 30秒
Veo 2 目前在 Gemini Advanced 和 Whisk 中生成的标准 MP4 视频剪辑时长约为 8 秒。
Q2. 在 Whisk 平台中,将图像转换为视频的功能名称是什么?
  • WhiskAnimate
  • WhiskMove
  • WhiskLive
使用 Whisk 的 'WhiskAnimate' 功能,可以根据上传的图像制作出充满活力的 8 秒动画视频。
Q3. 为了识别 AI 生成的视频并加强安全性, Veo 2 视频中包含的技术是什么?
  • 数字签名
  • SynthID 水印
  • AI 复选标记
为了负责任地使用 AI,谷歌在所有由 Veo 2 生成的视频中应用了 SynthID 水印,以便识别 AI 生成的内容。