读懂人心的智能助手来了？谷歌宣布开启‘全能 AI 助手’时代

AI Summary

谷歌宣布通过 Gemini 2.5 Pro 构建能够理解用户情境并主动采取行动的‘全能 AI 助手’，旨在开启通用人工智能 (AGI) 时代。

如果出现了一个照顾你日常生活的‘真助手’会怎样？

想象一下，你正在计划下周的家庭旅行。如果是以前，你可能需要翻遍机票网站、对比住宿、逐一寻找美食清单并整理到 Excel 中。在信息的海洋中，仅仅是挑选出自己想要的内容就要花费好几个小时。但现在，如果只需对 AI 说一句话会怎样？“帮我根据我们家人的喜好制定一个四天三夜的济州岛旅行计划，并帮我预订合适的住宿。”

这不仅仅是遥远未来的科幻电影情节。谷歌在近期举办的“Google I/O 2025”开发者大会上，向全球展示了能够为用户自主制定并执行计划的“全能 AI 助手 (Universal AI Assistant)”愿景 Google I/O 2025：作为全能 AI 助手的 Gemini。谷歌描绘的这一新未来，不再仅仅是回答问题的聊天机器人，而是成为真正帮助我们生活的“强力私人助手”。

为什么这很重要？

到目前为止，我们使用的 AI 大多停留在“问一答一”的被动水平。就像在搜索框输入关键词就会显示结果一样，只有我们先行动， AI 才会反应。但谷歌推进的全能 AI 助手旨在成为“个性化 (Personal)”、“主动化 (Proactive)”且“功能强大 (Powerful)”的工具谷歌正在将 Gemini 转变为全能 AI 助手。

打个比方，如果说之前的 AI 是必须询问主人后才行动的“新手助理”，那么未来的 AI 将成为在主人开口前就主动提醒“主人，今天好像要下雨，我已经把下午的会议地点改到了室内”的“老练首席秘书”。谷歌将此视为通往通用人工智能 (AGI，具有与人类同等或更高智能的 AI) 道路上的重要里程碑谷歌正在将 Gemini 转变为全能 AI 助手。

轻松理解：AI 的新大脑与‘世界模型’

使谷歌这一宏伟愿景成为可能的是两个核心要素：名为 Gemini 2.5 Pro 的新“大脑”，以及理解世界的地图——“世界模型 (World Model)”。

1. 眼耳合一的‘原生多模态’

Gemini 2.5 Pro 从诞生之初就采用了“原生多模态 (Natively Multimodal)”设计谷歌正通过将 Gemini 打造为世界模型来构建全能 AI 助手。

这里的“多模态”是指同时理解文本、图像、语音等多种形式信息的能力。简单来说，如果之前的 AI 是必须经过翻译机才能沟通的“博学外国人”，那么原生多模态 AI 就像是出生起就能看、能听、能说的能力在一个大脑中完美整合的“母语使用者”。得益于此，AI 可以通过摄像头看到客厅凌乱的状况，并立即通过语音回答：“沙发下面有你丢失的车钥匙。” 谷歌正通过将 Gemini 打造为世界模型来构建全能 AI 助手。

2. 进行生活演练的‘世界模型’

Google DeepMind 首席执行官戴米斯·哈萨比斯 (Demis Hassabis) 解释说，Gemini 正在从单纯的语言模型进化为“世界模型” 我们构建全能 AI 助手的愿景 - 香港大学专业进修学院 AI 枢纽。

“世界模型”简单来说就是“理解世界运作方式的虚拟模拟器”。就像熟练的飞行员在驾驶真实飞机前，通过“飞行模拟器”预演无数危险情况一样。当 AI 能够理解并模拟现实世界的物理规律和因果关系时，它就能代替用户制定“订购这件商品需要 3 天配送，所以会在旅行前一天的后天送达”等复杂计划，甚至预判可能发生的问题随着一系列新模型功能的推出，谷歌概述了构建全能 AI 助手的计划。

现状：来到我们身边的原型

为了实现这一愿景，谷歌正在进行具体的研发项目。有些模型已经走出实验室，准备好应用到我们的日常生活中。

Project Astra: 作为全能 AI 助手的原型（试制品），展示了其执行日常复杂任务的能力 Project Astra，谷歌全能 AI 助手的愿景正逐渐清晰。特别是最近，它已经发展到可以访问用户的个人信息进行契合语境的对话，或者在主人询问前根据情况主动搭话的水平 Project Astra 2025：谷歌的全能 AI 助手现在…。
Project Mariner: 这是一项基于 Web 浏览器，探索 AI 如何与用户交互并辅助多任务处理的研究谷歌构建全能 AI 助手的愿景。你可以想象当我们一边网购或阅读论文一边工作时，AI 在浏览器窗口旁实时比价或总结核心内容的形式。

谷歌在过去 10 年间引领了 Transformer（现代 AI 的基础核心技术）架构，并开发了像 AlphaGo 那样能够自主学习和计划的系统，凭借积累的底蕴为这个“智能体”时代做好了准备我们构建全能 AI 助手的愿景 – ONMINE。

未来会怎样？

谷歌的目标很明确：通过完美理解用户的数据、服务以及当前所处的情境 (Context)，打造一个能够实际执行任务的“行动派助手” Google I/O 2025：谷歌的目标是全能 AI 助手。

当然，随着高性能 AI 助手深入我们的生活，关于个人信息保护和伦理问题的担忧也不绝于耳。对此，谷歌表示正在针对先进 AI 助手的安全性及伦理准则并行开展大规模研究项目，并采取谨慎的态度 Google I/O 2025：作为全能 AI 助手的 Gemini。

现在，我们正在告别单纯输入搜索词的时代，步入一个与能够理解我并为我主动行动的 AI 共存的时代。谷歌的“全能助手”究竟会让我们的日常生活变得多么便利和丰富，让我们怀着激动的心情拭目以待这场变革的开始。

AI 视角

谷歌将 Gemini 命名为“世界模型”，有力地表达了其不仅要玩转语言游戏，更要深度理解物理世界规律和人类意图的决心。Project Astra 和 Project Mariner 所展示的未来，将成为我们不再将 AI 视为简单的“工具”，而是将其视为共同解决生活复杂性的“伙伴”的关键契机。当技术越能读懂人类的情境，我们就能获得更多的时间去关注更有价值的事情。

参考资料

Google I/O 2025: Gemini as a universal AI assistant

[Our vision for building a universal AI assistant

Xavier Anguera](https://www.linkedin.com/posts/xanguera_our-vision-for-building-a-universal-ai-assistant-activity-7330651225115308032-h32j)

Google is Making Gemini a Universal and Action-Driven AI Assistant
Google’s vision for building a universal AI assistant
Our vision for building a universal AI assistant - HKU SPACE AI Hub
Google’s Bold Vision for Building a Universal AI Assistant …
Project Astra, Google’s vision for a universal AI assistant is pulling into focus
Our vision for building a universal AI assistant – ONMINE
With a flurry of new model features, Google outlines plan to build universal AI assistant
Google I/O 2025: Google aims for a universal AI assistant
Google is turning Gemini into a universal AI assistant
Project Astra 2025: Google’s universal AI assistant is now …

Share this article:

测试你的理解

Q1. 谷歌追求的‘全能 AI 助手’的核心模型是什么？

Gemini 1.0
Gemini 2.5 Pro
AlphaGo

谷歌的全能 AI 助手基于具有原生多模态能力的 Gemini 2.5 Pro 模型运行。

Q2. 通过 Web 浏览器与用户交互并辅助多任务处理的研究原型名称是？

Project Astra
Project Gemini
Project Mariner

Project Mariner 是一个以浏览器为起点，探索人类与 AI 智能体之间交互未来的原型。

Q3. 谷歌试图通过 Gemini 构建的、能够模拟世界并制定计划的模型名称是？

世界模型
文本模型
语言模型

谷歌正致力于将 Gemini 进化为能够模拟世界物理特性并制定复杂计划的‘世界模型’。