即使斷網也能「得心應手」自主運行的機器人？Google 全新「裝置端」AI 將帶來的變革

AI Summary

無需網路連接即可在機器人內部直接運行的人工智慧「Gemini Robotics On-Device」正式亮相，預示著更快速、更敏捷的機器人即將到來。

想像一下。 在一家因停電而斷網的工廠內，或是通訊訊號完全無法接收的深層地下設施中，機器人必須執行緊急救援任務。到目前為止，大多數機器人的「大腦」人工智慧（AI）都位於遙遠的巨大電腦（雲端）中，因此一旦網路中斷，機器人就會變成一堆無法運行的「廢鐵」。這就像是大腦在台北、身體在高雄，而兩者之間的電話線被切斷了一樣。

但現在，機器人即使沒有網路這條「生命線」，也能自主觀察、判斷並行動的時代即將開啟。這都要歸功於 Google DeepMind 發布的新型 AI 模型：「Gemini Robotics On-Device」。Gemini Robotics On-Device 為本地機器人設備帶來 AI

為什麼這很重要？

當我們用智慧型手機呼叫 AI 助理時，有時會遇到回覆延遲的情況吧？這是因為我的聲音必須透過網路傳送到遙遠的伺服器，處理後再帶著答案傳回來。這在專業術語中稱為延遲（Latency）。

在日常對話中，1 到 2 秒的延遲可能不是大問題，但對於正在搬運重物或進行精密組裝的機器人來說，1 秒的延遲就可能導致嚴重的事故。「Gemini Robotics On-Device」 利用機器人機身內部的圖形處理單元（本地 GPU）直接運行 AI。Google 發表「Gemini Robotics On-Device」… - GIGAZINE

打個比方，如果以前的機器人是每次都要打電話問「媽媽，這個要放哪裡？」的小孩，那麼現在它已經變成了具備自主判斷能力的「獨立成年人」。如此一來，即使在網路連接不穩定或完全沒有網路的地方，機器人也能持續運作；最重要的是，它能做出即時反應，實現更敏捷、更安全的動作。DeepMind 的 Gemini Robotics On-Device 為本地機器人帶來先進 AI

輕鬆理解：機器人的「眼、口、手」合而為一

要理解這項技術，必須知道一個核心概念：VLA（Vision-Language-Action，視覺-語言-行動） 模型。PDF Gemini Robotics On-Device 模型卡

簡單來說，這就像是一位經驗豐富的廚師，其「眼睛」、「大腦」與「雙手」完美連結的系統。

視覺（Vision）： 機器人透過眼睛（攝影機）即時識別眼前的材料與工具。
語言（Language）： 精準理解人類「把蘋果削好皮後放進盤子裡」這種自然的命令。
行動（Action）： 配合命令即時執行移動手臂、拿起蘋果並使用刀具的精密動作。

以往這些過程不是各自運作，就是必須依賴雲端的協助，但 Gemini Robotics On-Device 在機器人內部一次性處理所有過程。Gemini Robotics On-Device：賦予機器人 AI 自主性… - KingyAI 藉此，機器人能展現出像人類一樣的「靈巧性（Dexterity，機器人細膩處理物體的能力）」，並能快速適應初次接觸的任務。Gemini Robotics On-Device 為本地機器人設備帶來 AI

這與我們不需要每次都打電話問父母「蘋果怎麼削？」，而是直接利用腦中的知識動手操作是同樣的原理。

現狀：輕巧但強大的機器人大腦

Gemini Robotics On-Device 是基於 Google 的 「Gemma」 模型開發的。Gemma 是專為在設備內部輕快運行而設計的 AI 模型，而這次的機器人版本則是針對機器人控制進行了優化。PDF Gemini Robotics On-Device 模型卡

該模型的主要特點總結如下：

無需網路即可運作： 採用完全不需要雲端連接的「無雲（Cloud-free）」方式。Google 推出可在本地機器人運行的全新 Gemini 模型
針對雙臂機器人優化： 特別擅長讓擁有像人類一樣雙臂的「雙臂機器人（bi-arm robots）」雙手協作執行複雜任務。Gemini Robotics On-Device 為本地機器人設備帶來 AI
通用性： 並非只有特定製造商的機器人才能使用，其設計靈活，可廣泛應用於各種類型的機器人與環境。Google 推出 Gemini Robotics On-Device AI 模型，可適應不同類型的機器人
執行複雜指令： 對於「拿起這個放進那個箱子，然後蓋上蓋子」之類的多步驟指令，其處理能力遠優於現有的其他裝置端模型。Gemini Robotics On-Device 在具挑戰性的分布外任務與複雜多步驟指令上，表現也優於其他裝置端替代方案。

目前，該模型僅先向 Google 信任的少數合作夥伴與測試者公開，正處於嚴格驗證實際場景性能的階段。PDF Gemini Robotics On-Device 模型卡

未來會如何發展？

專家認為這次發布將成為機器人產業的「遊戲規則改變者（Game Changer，扭轉結果或趨勢的重要事件）」。Gemini Robotics：Google 為本地機器人帶來 AI 因為它可以一次解決以往讓企業對引進機器人猶豫不決的高昂維護成本、通訊安全問題，以及慢得讓人心急的反應速度。

在不遠的將來，我們將更頻繁地看到在餐廳服務的機器人，能即時反應避開顧客的突發動作而不灑出食物；或是在收不到網路訊號的巨型倉庫角落，默默地整理庫存的聰明機器人。Google 推出 Gemini Robotics On-Device AI：機器人離線運作，智慧不減

Google DeepMind 的這次嘗試，將成為讓 AI 不再僅僅停留在螢幕上的文字或圖像，而是進化為在我們身處的物理空間中安全、敏捷行動的真正「夥伴」的重要一步。機器人不再只是「機器」，而成為能聽懂我們的話並做出明智行為的「智慧型助手」，那一天似乎已近在咫尺。

參考資料

Share this article:

測試你的理解

Q1. Gemini Robotics On-Device 最顯著的特點是什麼？

必須始終連接網路。
AI 直接在機器人設備內部運行。
必須由人類使用控制器操作。

顧名思義，「裝置端（On-Device）」模型無需網路或雲端連接，即可在機器人設備本身本地運行。

Q2. 該模型是以 Google 的哪一款裝置端 AI 模型為基礎設計的？

Gemma
PowerBot
Cloud

Gemini Robotics On-Device 是基於 Google 的裝置端模型 Gemma 所設計的。

Q3. Gemini Robotics On-Device 處理的 VLA（視覺-語言-行動）模型作用為何？

僅翻譯文本。
僅繪製圖案。
整合處理觀察（V）、理解（L）與行動（A）的過程。

VLA 模型是指理解視覺資訊（Vision）與語言（Language），並將其與機器人的具體行動（Action）相連結的架構。