只能用文字生成视频的时代结束了？谷歌亮出王牌 'Gemini Omni'

AI Summary

谷歌重磅发布了下一代多模态 AI 模型 'Gemini Omni'，它可以将文本、图像、声音和现有视频随意混合生成新视频，并像对话一样进行修改。

闭上眼睛，想象一个非常有趣的场景。你拿起智能手机，随手拍下一张地板上滚动的玩具汽车的照片。然后，你对着麦克风，亲口录下“轰隆隆～吱！”的引擎声和急刹车声。最后，你在聊天窗口中输入这样一句话：“把这辆玩具汽车做成在巨大的沙漠腹地中穿透沙尘暴疾驰的电影级画面。”

令人惊讶的是，此时你并非坐在耗资数十亿韩元（数千万人民币）的好莱坞 CG 工作室里，而是舒舒服服地躺在自己家里的床上。在过去，想要将照片、声音和创意结合在一起制作出一段完美的视频，需要耗费数十小时的繁重工作以及高度的专业知识。但现在，你只需要把所有这些素材扔给 AI 即可。短短几分钟内，一段堪比好莱坞大片场景的高清视频就能一气呵成。

这个充满魔力的故事并非遥远未来的想象。就在几天前，谷歌（Google）在“Google I/O 2026”的主题演讲中正式发布了下一代生成式媒体 AI 模型——“Gemini Omni”，正是它开启了这一全新的现实 [1]。谷歌通过这一技术飞跃，将过去只有少数专业人士才能享受的视频创作特权，交到了我们每一个普通人的手中。

这为什么很重要？ (Why It Matters)

近年来，我们实时见证了 AI 令人惊叹的发展过程。提问写报告或是生成想要的画作，如今已成为相当熟悉的日常。然而，“视频（Video）”领域在 AI 业界一直被认为是极难征服的巨大壁垒。

此前出现的大多数视频 AI 工具，焦点都仅仅停留在“文本生成视频（Text-to-Video）”上。谷歌去年推出的“Veo 3”同样是采用分析用户输入的句子来生成视频的方式 [2]。问题在于，仅仅通过“文字”来完美描述人类复杂的想象力实在是太难了。试图只用文字去解释脑海中盘旋的构图或微妙的氛围，往往导致最终的成品与自己真正想要的相去甚远。

让我们把这种情况比作烹饪吧？现有的 AI 视频制作就像是你必须一字不差地写下“严格且苛刻的食谱”。只有写出类似于“加入 3.5 克盐、5 克糖，在 180 摄氏度下准确烘烤 15 分钟”这样完美的提示词（指令），才能端出一盘勉强能吃的菜。只要写错一个词，可能就会跑出一盘放了一大堆盐的怪异食物。

但是，Gemini Omni 截然不同。与其说这个 AI 是食谱，不如说它更像是一位“眼光独到的天才大厨”。你只需把冰箱里剩下的食材（现有视频）、素描本上的涂鸦（图像）以及哼唱的曲调（声音）随手放在厨房操作台上，说一句“把这些混在一起，给我做点好吃的”，一切就大功告成了。因为 Gemini Omni 可以同时接收文字、声音、照片、实际视频等任何形式的输入值，并以此为基础创作出令人惊艳的视频 [3]。

这种变化已不仅仅是增加了一个新奇的工具。这意味着普通人无需复杂的剪辑软件，也能创作出专业水准的媒体内容。同时，对于谷歌而言，这也是一份强有力的宣战书——要在与 ChatGPT 背后的 OpenAI 或 Anthropic 等强大对手的较量中，夺取媒体创作的主导权 [1]。

轻松理解 (The Explainer)

谷歌究竟是如何施展这种惊人魔法的呢？此次发布的“Gemini Omni”并不是单一功能，而是谷歌未来将要推出的庞大 AI 媒体模型“产品系列（Family）”的总称。而作为该系列首发阵容登场的模型，正是 “OmniFlash” [4]。

OmniFlash 是业界所说的多模态（Multimodal）技术的最终进化形态。通俗地说，就是“不挑食，能够同时理解和处理多种类型数据（文字、声音、图像等）的技术”。它不仅继承了谷歌现有视频模型 Veo 扎实的视觉能力，更是远超于此，具备了自由混合各种素材的本领 [3]。

最令人起鸡皮疙瘩的能力当属“对话式编辑（Conversational editing）”。它超越了视频生成，将修改已完成视频的过程也拉入到了我们的日常对话中 [5]。

回想一下过去的视频剪辑。哪怕只是改个色调，或者擦除背景里的某个物体，你都必须打开笨重的专业软件，在复杂的时间线（视频时间轴）上奋力操作。但与 Gemini Omni 一起工作，就像是和一位“坐在你身旁、握着鼠标的亲切专业剪辑师”边喝咖啡边聊天一样轻松。

假设你看着屏幕说了这样一段话：

用户： “嗯，天气看起来太阴沉了。能把背景全换成晚霞染红的傍晚天空吗？”
OmniFlash： （仅用几秒钟便将天空染红）
用户： “哦，太棒了！不过左上角那辆路过的蓝色汽车有点破坏氛围。把那个擦除掉。”

你只需用日常语言与它交谈即可。Gemini Omni 能够准确理解语境，并如施魔法般修改视频中的对应部分 [5]。那些复杂的数学计算和像素调整统统由 AI 代劳，用户只需像拜托朋友一样动动嘴皮子就行了。

专家分析指出，这种变化得益于谷歌内部巨大的结构重组。在过去，视频归“Veo”，图像归“Nano Banana”，文本归“Gemini”，各部门各自为战，技术呈现碎片化。这就好比同一家公司里互不交流的专家们各自躲在房间里闭门造车。然而，谷歌做出了战略性决断，将所有这些技术整合到了一个庞大的系统中 [6]。原本各自为政的眼睛、耳朵和嘴巴，现在全被连接进了一颗天才般的大脑中。

现状 (Where We Stand)

虽说谷歌已经做好了惊艳世界的准备，但在这一盛大发布的背后，也隐藏着一段颇为尴尬的幕后故事。谷歌原本打算将这项技术作为活动当天的“惊喜大礼”而严格保密，结果在活动开始前一周，消息竟被不可思议地泄露了 [7]。

并非有人发动了黑客攻击或间谍窃取机密。而是安装在全球用户智能手机上的“Gemini”应用在更新文件中，其 UI（用户界面）代码里不小心遗留了 Omni 模型的痕迹 [8]。动作敏捷的开发者们在拆解应用内部代码时，在官方发布之前就已经发现了“Omni”这个名字及其运行方式 [9]。这简直就像魔术师还没登台，剧本就被翻了个底朝天。

然而，尽管出现了这样的小插曲，人们的期待值反而变得更高，现场的反响也极为热烈。在此次舞台上，除了 Gemini Omni，谷歌还抛出了一系列展现绝对实力差距的重磅更新。

首先，谷歌引入了大幅提升搜索引擎和 Workspace 整体速度的 “Gemini 3.5 Flash” [10]。此外，还在 Google 文档（Docs）和 YouTube 等核心服务内部密集地整合了进化的 AI 功能 [11]。

尤其引人瞩目的是定制化 AI 助手 “Gemini Spark” 的登场 [1]。如果说过去的 AI 是一台只会回答问题的自动售货机，那么现在它正在进化为一位“始终保持清醒的主动型助手”——在你下达指令之前，就能主动了解你的日程安排、处理工作并为你的一天计划提供建议 [12, 13]。

未来走向 (What’s Next)

Gemini Omni 的出现，早已超越了单纯发明一款便利工具的范畴，它预示着整个媒体内容市场将迎来地壳变动般的巨变。由于昂贵的设备和漫长训练周期筑起的高墙而被压抑的普通人的想象力，终于得以摆脱束缚。不久的将来，我们将见证一个独创性视频层出不穷、令人难以想象的时代的到来。

谷歌的步伐并未停止。谷歌在此次主题演讲中自信地宣布，将在下个月推出性能比现有公开功能更为精密的顶级大脑——“Gemini 3.5 Pro”模型 [2]。

就像相机、电话和互联网融为一体的智能手机改变了我们的日常生活一样，文字、声音、照片和视频在“Gemini Omni”这个大熔炉中交汇融合的现象，将永久性地改变我们消费和创作媒体的方式。

现在，创作者所需的唯一才华不再是操作复杂软件的技术，而是“如何用对话将脑海中的世界表达出来”的纯粹的想象力。在 Gemini Omni 开启的这个新时代，你打算与 AI 进行怎样的一场初次对话呢？

AI 观点

Gemini Omni 的真正价值在于，它隐藏了技术中复杂的运算过程，将人与人之间普通的对话方式升格为了创作工具。过去，为了将想象力转化为现实，我们必须去学习技术这门新“语言”；但如今，仅仅使用我们最熟悉的“日常用语”就足够了。把想象力转化为现实的壁垒终于被彻底打破了。

参考资料

事实核查总结

已核查声明：24
已验证声明：24
结论：通过

Share this article:

测试你的理解

Q1. 以下哪项是谷歌最新发布的生成式媒体 AI 模型产品系列的官方名称？

Gemini Spark
Gemini Omni
Gemini 3.5 Flash

谷歌发布了下一代 AI 媒体模型产品系列 'Gemini Omni'，它能接收多种输入值来生成视频，并进行自然流畅的编辑。

Q2. 在 Gemini Omni 问世之前，谷歌现有的基于文本生成视频的 AI 视频模型叫什么名字？

Veo
Nano Banana
OmniFlash

Gemini Omni 是在谷歌现有的基于文本的视频生成模型 'Veo' 的基础上，进一步扩展和升级其能力而打造的。

Q3. 在 Google I/O 2026 官方发布之前，Gemini Omni 的存在是如何被外界提前知晓的？

竞争公司的黑客攻击
谷歌内部员工的爆料采访
Gemini 智能手机应用内部的 UI 字符串泄露

在活动开始前一周，安装在智能手机上的谷歌 Gemini 应用内部的用户界面 (UI) 字符串中泄露了 Omni 模型的痕迹，导致其功能被提前曝光。