如果機器人能聽懂我的話並摺衣服?Google Gemini Robotics 將帶來的未來

機械手臂在複雜環境中精確處理物體並與人類互動的未來感影像
AI Summary

基於 Google 最新 AI Gemini 2.0 的「Gemini Robotics」是一款智慧模型,旨在幫助機器人理解人類語言並在現實世界中執行複雜任務。

想像一下。在疲憊地工作一天下班後的傍晚,一打開玄關門看到客廳地板上散落的襪子和衣物,你不禁深深嘆了一口氣。這時,你對站在角落的家用機器人隨口說了一句:「幫我把那些衣服整理乾淨。」機器人一聽到你的命令,便用攝影機掃視客廳,準確地分辨哪些衣服需要清洗,哪些衣服該放進抽屜。接著,它像人類一樣輕柔地拿起衣服,開始細心地摺疊整齊。

這不再是好萊塢科幻電影中的想像。這是 Google DeepMind 最近發布的創新技術——「Gemini Robotics」為我們展現的現實場景。Gemini Robotics brings AI into the physical world

到目前為止,人工智慧 (AI) 主要僅停留在電腦螢幕或智慧型手機畫面中。它是回答疑問、繪製精美圖畫或撰寫複雜程式碼的「聰明秘書」。但現在,AI 終於獲得了名為「機器人」的物理身體,正大步跨入我們腳踏實地的現實世界。今天,我們將深入探討基於 Google 最新模型 Gemini 2.0 誕生的機器人專用智慧——Gemini Robotics。Gemini Robotics: Bringing AI into the Physical World

為什麼這對我們的生活很重要?

直到現在,我們所見到的機器人大多是根據「預設規則」機械性運作的存在。汽車工廠的機械手臂按照輸入的坐標重複數千次相同的動作,家中的掃地機器人遇到障礙物時也只是忙於碰撞閃避。然而,我們生活的現實世界並非如此簡單。地板上物品的位置每天都在變化,人類的命令也往往很模糊,例如「幫我收拾一下那個」。

Gemini Robotics 讓世界驚艷的原因在於其壓倒性的「通用能力 (General-purpose ability)」Gemini Robotics, Bringing AI to the Physical World 這項技術賦予了機器人超越單純執行命令的被動機器角色,使其能夠即時理解周圍環境、自行判斷並像與人交談一樣進行溝通。

打個比方, 如果說到目前為止的機器人是只能按照樂譜演奏的音樂盒,那麼搭載 Gemini Robotics 的機器人就像是一位能根據觀眾反應進行即興演奏的熟練爵士樂手。Google DeepMind 對此評價道:「這是為了在現實世界中實現與人類智慧相當的通用人工智慧 (AGI) 而邁出的決定性一步。」DeepMind launches Gemini Robotics 1.5 to advance AI agents in the …

輕鬆理解:Gemini Robotics 的兩個核心引擎

Gemini Robotics 主要由兩個核心模型組成。如果比喻成我們的身體,可以分為「判斷情況的大腦」和「實際活動手腳的肌肉」。Gemini Robotics Brings AI Into The Physical World

1. 思考的大腦:Gemini Robotics-ER (Enhanced Reasoning)

這裡的「ER」是「增強推理 (Enhanced Reasoning)」的縮寫。Gemini Robotics-ER 1.6 | Gemini API | Google AI for Developers 該模型負責機器人的高層級智慧

  • 視覺理解:分析透過機器人之眼——攝影機傳入的場景。例如判斷「這是絲綢襯衫,得小心處理」來辨識物體材質。
  • 空間推理:三維地掌握物體間的距離以及機器人自身的位置。
  • 建立複雜計畫:聽到「幫我沖杯咖啡」的簡短命令後,會自行設計一系列複雜步驟,如尋找杯子、操作咖啡機、加入糖等。
  • 利用外部工具:特別是最新版本 ER 1.5,如果在執行任務時遇到未知資訊,會自行透過 Google 搜尋 (Google Search) 尋找解決方案。例如,遇到從未見過的洗衣機型號時,可以上網搜尋使用方法來洗衣服。Google DeepMind unveils its first "thinking" robotics AI

2. 活動的肌肉:Gemini Robotics (VLA 模型)

VLA 是視覺 (Vision)-語言 (Language)-行動 (Action) 的首字母縮寫。Gemini Robotics Brings AI Into The Physical World 該模型負責將 AI 的判斷翻譯成實際的機器人物理動作

簡單來說,如果現有的 AI 僅停留在輸出「請拿起襯衫」這句話,VLA 模型則會產出具體的「行動數據」,如「將機械手臂向右伸展 15 度,保持 2 牛頓 (N) 的手指壓力並抓取」。也就是說,這是填補思考與行動之間差距的核心技術。Gemini Robotics Brings AI Into The Physical World

3. 夢幻團隊合作:雙代理系統 (Dual Agentic System)

這兩個模型透過稱為「雙代理系統 (Dual Agentic System)」的結構展現出完美的默契。How the Gemini Robotics family translates foundational intelligence …

當擔任指揮家角色的 ER 模型指示「好了,現在把那個紅色杯子拿去餐桌」時,擔任執行者角色的 VLA 模型會接收該指示並實際伸出手臂移動杯子。透過將「思考」與「執行」分離,機器人即使在過程中遇到預料之外的情況,也能不慌不忙地完成任務。Gemini Robotics 1.5 brings AI agents into the physical world

現狀進化:即使沒有網路也能即時反應

最近,Google 發布了更進一步進化的「Gemini Robotics On-Device (裝置端)」Google rolls out new Gemini model that can run on robots locally

過去,強大的 AI 必須依靠巨大超級電腦伺服器的幫助,需要將資訊傳送到伺服器再接收回來的過程。然而,裝置端模型直接在機器人搭載的電腦晶片中處理所有事務。Google DeepMind Announces Robotics Foundation Model Gemini … - InfoQ

這為什麼重要?打個比方, 這就像是每次提問時不再需要打電話給圖書館等待回答,而是腦海中已經裝了一部百科全書。

  • 即時反應:在 0.1 秒至關重要的物理環境中,機器人能毫不遲疑地做出反應。
  • 離線運作:即使在網路訊號無法到達的倉庫深處或室外,機器人也能智慧地活動。

我們將迎來的未來風景

Gemini Robotics 並不僅僅是實驗室的玩具。它已經以 API(應用程式介面)的形式向眾多開發者和合作夥伴開放,正投入到實際的產業現場中。DeepMind launches Gemini Robotics 1.5 to advance AI agents in the …

在不久的將來,我們將看到家務助理機器人自行學習家中的結構來協助清潔,而在物流倉庫中,則能看到智慧機器人從數萬件物品中挑選出易碎的玻璃製品並小心搬運。Gemini Robotics 1.5: The Dawn of Truly Adaptive Physical AI Agents 即使人類不逐一編寫「從 A 點移動到 B 點」的程式碼,機器人也能自行觀察情況並判斷「啊,這件行李很重,得用兩隻手搬」的時代即將開啟。Google DeepMind Unveils Gemini Robotics: AI-Powered Robots for the …

當然,距離完美的商用化仍面臨技術挑戰。但 Gemini Robotics 展示的可能性是明確的。人工智慧走出螢幕,與我們共同生活呼吸的時代,正比想像中更快地來到我們身邊。

AI 的觀點

Gemini Robotics 是一個象徵性事件,標誌著人工智慧跨出了名為「數位沙盒」的保護區,踏入了名為現實的崎嶇操場。這就像是一個原本只透過文字和圖像數據學習世界的孩子,開始實際觸碰、碰撞物體來學習世界。透過機器人身體直接學習物理定律的 AI,將以與我們迄今為止所經歷的完全不同層次的速度進化,並從根本上改變我們的日常生活。

參考資料

  1. Gemini Robotics brings AI into the physical world
  2. Gemini Robotics: Bringing AI into the Physical World
  3. Gemini Robotics: Bringing AI into the Physical World - ADS
  4. Gemini Robotics Brings AI Into The Physical World
  5. [Gemini Robotics-ER 1.6 Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/robotics-overview)
  6. Gemini Robotics, Bringing AI to the Physical World
  7. How the Gemini Robotics family translates foundational intelligence …
  8. DeepMind launches Gemini Robotics 1.5 to advance AI agents in the …
  9. Google DeepMind Unveils Gemini Robotics: AI-Powered Robots for the …
  10. Gemini Robotics 1.5 brings AI agents into the physical world
  11. Google rolls out new Gemini model that can run on robots locally
  12. Google DeepMind unveils its first "thinking" robotics AI
  13. Google DeepMind Announces Robotics Foundation Model Gemini … - InfoQ
  14. Gemini Robotics 1.5: The Dawn of Truly Adaptive Physical AI Agents

FACT-CHECK SUMMARY

  • Claims checked: 15
  • Claims verified: 15
  • Verdict: PASS
測試你的理解
Q1. 在 Gemini Robotics 模型中,為了直接控制機器人動作而加入「物理行動」輸出的是哪個模型?
  • Gemini Robotics (VLA)
  • Gemini Robotics-ER
  • Gemini Robotics 裝置端
Gemini Robotics (VLA) 模型在現有的視覺與語言處理能力基礎上,增加了讓機器人直接移動的「物理行動 (Physical actions)」功能。
Q2. 即使沒有網路連接,也能在機器人硬體上直接本地執行的模型名稱為何?
  • Gemini Robotics-ER 1.5
  • Gemini Robotics 裝置端
  • Gemini 2.0
Gemini Robotics On-Device (裝置端) 旨在不連接網路的情況下,於機器人內部本地執行任務。
Q3. 在 Gemini Robotics 的系統架構中,將「高層級計畫」與「低層級執行」分離的架構名稱為何?
  • 單一代理系統
  • 三重代理系統
  • 雙代理系統 (Dual Agentic System)
Gemini Robotics 使用將計畫(智慧)與執行(動作)角色分離的「雙代理系統 (Dual Agentic System)」架構。