Google 宣佈將透過 Gemini 2.5 Pro 構建能理解用戶情境並預先行動的「萬能 AI 助手」,以此開啟通用人工智慧 (AGI) 時代。
如果出現一個能打理日常生活的「真正助手」會怎樣?
想像一下,您正在計劃下週的家庭旅行。換作以前,您可能需要翻遍機票網站、比較住宿,並一一搜尋美食清單後整理到 Excel 表中。在資訊的海洋中挑選出自己真正想要的內容,往往就要花上好幾個小時。但現在,如果只要對 AI 說一句話會如何?「幫我根據我們全家的喜好規劃一個四天三夜的濟州島旅行計劃,並完成合適的住宿預訂。」
這不僅僅是遙遠未來的科幻電影情節。Google 在近期舉辦的「Google I/O 2025」大會上,向全球公開了能為用戶自主制定並執行計劃的 「萬能 AI 助手 (Universal AI Assistant)」 願景 Google I/O 2025:Gemini 作為萬能 AI 助手。Google 所描繪的這幅全新未來,不僅僅是回答問題的聊天機器人,而是成為真正能協助我們生活的「強大個人助理」。
為什麼這很重要?
到目前為止,我們使用的 AI 大多停留在「問答式」的被動水準。就像在搜尋框輸入關鍵字就會顯示結果一樣,必須由我們先行動作,AI 才會做出反應。但 Google 推動的萬能 AI 助手則旨在成為具備 「個人化 (Personal)」、「主動性 (Proactive)」且「強大 (Powerful)」 的工具 Google 正在將 Gemini 轉變為萬能 AI 助手。
打個比方,如果說目前的 AI 是必須詢問主人後才行動的「新手助手」,那麼未來的 AI 就是會在主人開口前先提醒:「主人,今天看起來會下雨,我已經將下午的會議地點更改到室內了」的「資深首席秘書」。Google 將其視為通往通用人工智慧 (AGI,具備與人類對等或更高智慧的 AI) 道路上的重要里程碑 Google 正在將 Gemini 轉變為萬能 AI 助手。
輕鬆理解:AI 的新大腦與「世界模型」
讓 Google 這項宏大願景成為可能的是兩個核心要素:名為 Gemini 2.5 Pro 的新「大腦」,以及作為理解世界地圖的 「世界模型 (World Model)」。
1. 眼睛與耳朵合而為一的「原生多模態」
Gemini 2.5 Pro 從誕生之初就採用了 「原生多模態 (Natively Multimodal)」 設計 Google 正透過讓 Gemini 成為世界模型來構建萬能且行動導向的 AI 助手。
這裡的「多模態」是指同時理解文本、圖像、語音等多種形式資訊的能力。簡單來說,如果現有的 AI 是必須經過翻譯機才能溝通的「博學外國人」,那麼原生多模態 AI 就像是從出生起,用眼看、用耳聽、用口說的能力就在一個大腦中完美整合的「母語使用者」。得益於此,AI 透過相機看到客廳雜亂的情況時,可以立即用語音回答:「在那邊沙發底下有您丟失的車鑰匙」 Google 正透過讓 Gemini 成為世界模型來構建萬能且行動導向的 AI 助手。
2. 進行生活模擬演練的「世界模型」
Google DeepMind 的執行長 Demis Hassabis 解釋說,Gemini 正在從單純的語言模型進化為 「世界模型」 我們構建萬能 AI 助手的願景 - HKU SPACE AI Hub。
「世界模型」簡單來說就是 「理解世界運轉方式的虛擬模擬器」。這就像熟練的飛行員在實際駕駛飛機之前,會透過「飛行模擬器」預先練習無數種危險情況一樣。當 AI 能夠理解並模擬現實世界的物理定律和因果關係時,它就能代替用戶制定複雜的計劃,例如:「訂購這個商品需要 3 天運送,那麼在旅行前一天的後天就會送達」,甚至能預測可能發生的問題 隨著一系列新模型功能的推出,Google 概述了構建萬能 AI 助手的計劃。
現狀:走進我們身邊的原型產品
為了實現這一願景,Google 正在進行具體的研究專案。有些模型已經走出實驗室,準備應用於我們的日常生活。
- Project Astra:萬能 AI 助手的原型,展示了執行日常複雜任務的能力 Project Astra,Google 對萬能 AI 助手的願景正變得清晰。特別是最近,它已發展到能訪問用戶個人資訊以進行符合情境的對話,或在主人詢問前根據情況主動交談的水準 Project Astra 2025:Google 的萬能 AI 助手現在是…。
- Project Mariner:這是一項基於網頁瀏覽器,探索 AI 如何與用戶互動並協助多工處理的研究 Google 構建萬能 AI 助手的願景。您可以想像當我們在網購或閱讀論文辦公時,AI 在瀏覽器視窗旁即時比價或摘要核心內容的形式。
Google 憑藉過去 10 年在 Transformer(現代 AI 的基礎核心技術)架構上的領先地位,以及開發像 AlphaGo 這樣具備自主學習和計劃能力的系統所累積的實力,一直在為這個「智慧體」時代做準備 我們構建萬能 AI 助手的願景 – ONMINE。
未來會如何發展?
Google 的目標非常明確:透過完美理解用戶數據、服務以及當前所處的情境 (Context),打造一個真正能執行任務的「行動助手」 Google I/O 2025:Google 致力於打造萬能 AI 助手。
當然,隨著高效能 AI 助手深入我們的生活,人們也對個人隱私保護和倫理問題表示擔憂。對此,Google 表示正針對尖端 AI 助手的安全性和倫理準則同步進行大規模研究專案,並謹慎行事 Google I/O 2025:Gemini 作為萬能 AI 助手。
現在,我們正在告別單純輸入搜尋詞的時代,邁入一個與能理解我並為我自主行動的 AI 共存的時代。Google 的「萬能助手」究竟能讓我們的日常生活變得多麼便利和豐富,讓我們懷著激動的心情拭目以待。
AI 的視角
Google 將 Gemini 命名為「世界模型」,展現了其要超越單純的文字遊戲,深度理解物理世界定律和人類意圖的強烈意志。Project Astra 和 Project Mariner 所展示的未來,將成為我們不再將 AI 視為單純的「工具」,而是將其視為共同解決生活複雜性的「夥伴」的決定性契機。隨著技術越能讀懂人類的情境,我們將獲得更多時間專注於更有價值的事情。
參考資料
- Google I/O 2025:Gemini 作為萬능 AI 助手
-
[我們構建萬能 AI 助手的願景 Xavier Anguera](https://www.linkedin.com/posts/xanguera_our-vision-for-building-a-universal-ai-assistant-activity-7330651225115308032-h32j) - Google 正透過讓 Gemini 成為世界模型來構建萬能且行動導向的 AI 助手
- Google 構建萬能 AI 助手的願景
- 我們構建萬能 AI 助手的願景 - HKU SPACE AI Hub
- Google 透過 Gemini 構建萬能 AI 助手的宏大願景…
- Project Astra,Google 對萬能 AI 助手的願景正變得清晰
- 我們構建萬能 AI 助手的願景 – ONMINE
- 隨著一系列新模型功能的推出,Google 概述了構建萬能 AI 助手的計劃
- Google I/O 2025:Google 致力於打造萬能 AI 助手
- Google 正在將 Gemini 轉變為萬能 AI 助手
- Project Astra 2025:Google 的萬能 AI 助手現在是…
- Gemini 1.0
- Gemini 2.5 Pro
- AlphaGo
- Project Astra
- Project Gemini
- Project Mariner
- 世界模型
- 文本模型
- 語言模型