读懂人心的智能助手来了?谷歌宣布开启‘全能 AI 助手’时代

融入用户日常生活、能够制定复杂计划并进行沟通的未来型 AI 助手形象
AI Summary

谷歌宣布通过 Gemini 2.5 Pro 构建能够理解用户情境并主动采取行动的‘全能 AI 助手’,旨在开启通用人工智能 (AGI) 时代。

如果出现了一个照顾你日常生活的‘真助手’会怎样?

想象一下,你正在计划下周的家庭旅行。如果是以前,你可能需要翻遍机票网站、对比住宿、逐一寻找美食清单并整理到 Excel 中。在信息的海洋中,仅仅是挑选出自己想要的内容就要花费好几个小时。但现在,如果只需对 AI 说一句话会怎样?“帮我根据我们家人的喜好制定一个四天三夜的济州岛旅行计划,并帮我预订合适的住宿。”

这不仅仅是遥远未来的科幻电影情节。谷歌在近期举办的“Google I/O 2025”开发者大会上,向全球展示了能够为用户自主制定并执行计划的“全能 AI 助手 (Universal AI Assistant)”愿景 Google I/O 2025:作为全能 AI 助手的 Gemini。谷歌描绘的这一新未来,不再仅仅是回答问题的聊天机器人,而是成为真正帮助我们生活的“强力私人助手”。

为什么这很重要?

到目前为止,我们使用的 AI 大多停留在“问一答一”的被动水平。就像在搜索框输入关键词就会显示结果一样,只有我们先行动, AI 才会反应。但谷歌推进的全能 AI 助手旨在成为“个性化 (Personal)”、“主动化 (Proactive)”且“功能强大 (Powerful)”的工具 谷歌正在将 Gemini 转变为全能 AI 助手

打个比方,如果说之前的 AI 是必须询问主人后才行动的“新手助理”,那么未来的 AI 将成为在主人开口前就主动提醒“主人,今天好像要下雨,我已经把下午的会议地点改到了室内”的“老练首席秘书”。谷歌将此视为通往通用人工智能 (AGI,具有与人类同等或更高智能的 AI) 道路上的重要里程碑 谷歌正在将 Gemini 转变为全能 AI 助手

轻松理解:AI 的新大脑与‘世界模型’

使谷歌这一宏伟愿景成为可能的是两个核心要素:名为 Gemini 2.5 Pro 的新“大脑”,以及理解世界的地图——“世界模型 (World Model)”

1. 眼耳合一的‘原生多模态’

Gemini 2.5 Pro 从诞生之初就采用了“原生多模态 (Natively Multimodal)”设计 谷歌正通过将 Gemini 打造为世界模型来构建全能 AI 助手

这里的“多模态”是指同时理解文本、图像、语音等多种形式信息的能力。简单来说,如果之前的 AI 是必须经过翻译机才能沟通的“博学外国人”,那么原生多模态 AI 就像是出生起就能看、能听、能说的能力在一个大脑中完美整合的“母语使用者”。得益于此,AI 可以通过摄像头看到客厅凌乱的状况,并立即通过语音回答:“沙发下面有你丢失的车钥匙。” 谷歌正通过将 Gemini 打造为世界模型来构建全能 AI 助手

2. 进行生活演练的‘世界模型’

Google DeepMind 首席执行官戴米斯·哈萨比斯 (Demis Hassabis) 解释说,Gemini 正在从单纯的语言模型进化为“世界模型” 我们构建全能 AI 助手的愿景 - 香港大学专业进修学院 AI 枢纽

“世界模型”简单来说就是“理解世界运作方式的虚拟模拟器”。就像熟练的飞行员在驾驶真实飞机前,通过“飞行模拟器”预演无数危险情况一样。当 AI 能够理解并模拟现实世界的物理规律和因果关系时,它就能代替用户制定“订购这件商品需要 3 天配送,所以会在旅行前一天的后天送达”等复杂计划,甚至预判可能发生的问题 随着一系列新模型功能的推出,谷歌概述了构建全能 AI 助手的计划

现状:来到我们身边的原型

为了实现这一愿景,谷歌正在进行具体的研发项目。有些模型已经走出实验室,准备好应用到我们的日常生活中。

谷歌在过去 10 年间引领了 Transformer(现代 AI 的基础核心技术)架构,并开发了像 AlphaGo 那样能够自主学习和计划的系统,凭借积累的底蕴为这个“智能体”时代做好了准备 我们构建全能 AI 助手的愿景 – ONMINE

未来会怎样?

谷歌的目标很明确:通过完美理解用户的数据、服务以及当前所处的情境 (Context),打造一个能够实际执行任务的“行动派助手” Google I/O 2025:谷歌的目标是全能 AI 助手

当然,随着高性能 AI 助手深入我们的生活,关于个人信息保护和伦理问题的担忧也不绝于耳。对此,谷歌表示正在针对先进 AI 助手的安全性及伦理准则并行开展大规模研究项目,并采取谨慎的态度 Google I/O 2025:作为全能 AI 助手的 Gemini

现在,我们正在告别单纯输入搜索词的时代,步入一个与能够理解我并为我主动行动的 AI 共存的时代。谷歌的“全能助手”究竟会让我们的日常生活变得多么便利和丰富,让我们怀着激动的心情拭目以待这场变革的开始。

AI 视角

谷歌将 Gemini 命名为“世界模型”,有力地表达了其不仅要玩转语言游戏,更要深度理解物理世界规律和人类意图的决心。Project Astra 和 Project Mariner 所展示的未来,将成为我们不再将 AI 视为简单的“工具”,而是将其视为共同解决生活复杂性的“伙伴”的关键契机。当技术越能读懂人类的情境,我们就能获得更多的时间去关注更有价值的事情。

参考资料

  1. Google I/O 2025: Gemini as a universal AI assistant
  2. [Our vision for building a universal AI assistant Xavier Anguera](https://www.linkedin.com/posts/xanguera_our-vision-for-building-a-universal-ai-assistant-activity-7330651225115308032-h32j)
  3. Google is Making Gemini a Universal and Action-Driven AI Assistant
  4. Google’s vision for building a universal AI assistant
  5. Our vision for building a universal AI assistant - HKU SPACE AI Hub
  6. Google’s Bold Vision for Building a Universal AI Assistant …
  7. Project Astra, Google’s vision for a universal AI assistant is pulling into focus
  8. Our vision for building a universal AI assistant – ONMINE
  9. With a flurry of new model features, Google outlines plan to build universal AI assistant
  10. Google I/O 2025: Google aims for a universal AI assistant
  11. Google is turning Gemini into a universal AI assistant
  12. Project Astra 2025: Google’s universal AI assistant is now …
测试你的理解
Q1. 谷歌追求的‘全能 AI 助手’的核心模型是什么?
  • Gemini 1.0
  • Gemini 2.5 Pro
  • AlphaGo
谷歌的全能 AI 助手基于具有原生多模态能力的 Gemini 2.5 Pro 模型运行。
Q2. 通过 Web 浏览器与用户交互并辅助多任务处理的研究原型名称是?
  • Project Astra
  • Project Gemini
  • Project Mariner
Project Mariner 是一个以浏览器为起点,探索人类与 AI 智能体之间交互未来的原型。
Q3. 谷歌试图通过 Gemini 构建的、能够模拟世界并制定计划的模型名称是?
  • 世界模型
  • 文本模型
  • 语言模型
谷歌正致力于将 Gemini 进化为能够模拟世界物理特性并制定复杂计划的‘世界模型’。