為機器人植入「眼力」與「思考」：Google 全新機器人大腦 Gemini Robotics-ER 1.6

AI Summary

Google DeepMind 公開了大幅提升機器人「具身推理」能力的 Gemini Robotics-ER 1.6，加速了機器人自主理解並在複雜作業現場行動的時代到來。

如果機器人第一次看到我家的廚房會發生什麼事？

請暫時想像一下。你第一次去朋友家玩，朋友拜託你：「可以幫我倒杯咖啡嗎？」雖然你完全不知道那個廚房長什麼樣子，但你不會慌張。你會直覺地打開櫥櫃找杯子，在洗手台附近發現咖啡機，並根據杯子的大小調整適當的水量。

對我們人類來說，這段看似理所當然且簡單的過程背後，其實隱藏著驚人的智能。那就是「對空間的立體理解」與「因應狀況的靈活判斷」。

然而，長期以來這對機器人來說近乎「不可能的任務」。雖然它們能像機器一樣精確地執行預設動作，但只要杯子的位置稍有變動或廚房稍微亂一點，就很容易迷失方向或做出奇怪的舉動。但在 2026 年 4 月 14 日，Google DeepMind 發佈了為機器人安裝這種「常識大腦」的創新升級模型：Gemini Robotics-ER 1.6。 [Source 5]

現在，機器人不僅僅是像拍照一樣記錄眼前的物體，而是開始親自「閱讀」現場並制定複雜的作業計劃。

為什麼這對我們的未來很重要？

到目前為止，我們所見過的機器人就像是某種「熟練的肌肉」。雖然在工廠裡沿著預定軌跡重複動作非常完美，但嚴重缺乏能自主判斷周圍環境的「聰明腦袋」。Gemini Robotics-ER 1.6 正是扮演了這種「高階大腦（High-level brain，掌握狀況並制定計劃的高級智能）」的角色。 [Source 8]

此模型帶來的變革之所以重要，可以概括為以下三個原因：

即使在凌亂的現場也不會慌張：現實中的工廠或倉庫並不像實驗室那樣總是整齊劃一。新的 AI 具備了在工具散亂的空間中準確找出所需物品並計算數量的能力。
直接讀取類比工具的刻度：機器人現在能用眼睛直接觀察沒有數位訊號的舊式儀表（Gauge，顯示數值的測量裝置），掌握目前數值並做出回應。這意味著即使在有幾十年歷史的工廠中，機器人也能立即投入工作。 [Source 4] [Source 9]
自主檢查並再次嘗試：它擁有了從多個角度仔細確認作業是否成功，以及若失敗則智能地重新嘗試或決定下一步的「判斷力」。 [Source 8]

最終，這項技術將成為關鍵鑰匙，讓機器人走出冷冰冰工廠中的固定位置，進入我們工作的醫院、複雜的物流倉庫，以及我們溫暖的家庭。

輕鬆理解：什麼是「具身推理（Embodied Reasoning）」？

此模型名稱後綴的「ER」是具身推理（Embodied Reasoning）的縮寫。簡單來說，它代表機器人直接觀察、感知物理環境，並像人類一樣進行邏輯思考的能力。 [Source 16] 為了更輕鬆地理解，我們舉兩個比喻：

1. 「指揮家」與「演奏者」

如果把機器人系統比作一個交響樂團，那麼 Gemini Robotics-ER 1.6 就是總攬全局的「指揮家」。指揮家理解整份樂譜，並決定何時該由哪種樂器上場。而實際驅動機器手臂動作的馬達控制，則由身為「演奏者」的底層控制器負責。ER 1.6 會下達明確指令，如「拿起那邊的錘子放入箱中」，而實際抓取的精細動作則由現有的機器人控制系統執行。 [Source 15]

2. 「眼力極佳的助手」

假設有人對機器人下達複雜命令：「挑選出所有能放入藍色杯子的小型物品」。機器人不僅需要辨識物體，還必須發揮空間推理（Spatial Reasoning，立體掌握物體位置或距離的能力），在大腦中比較「杯口大小」與「物體體積」。 [Source 10] ER 1.6 能像人類助手一樣，精準理解這些帶有嚴苛約束條件的指令。

現況：機器人的眼睛真的開始閱讀「狀況」了

Google DeepMind 在這次 1.6 版本中加入了一些令人驚嘆的功能，以最大化機器人的實務能力。

代理視覺（Agentic Vision）：機器人不再只是被動地觀看，而是能主動掃視周圍，自主尋找所需資訊的探索能力。 [Source 5]
多視角成功偵測（Multi-view success detection）：不再只是用一隻眼睛隨便看看作業是否完成，而是從多個角度仔細確認，大幅降低出錯機率。 [Source 6]
防止幻覺（Hallucination）：AI 在機器人工學領域也解決了「睜眼說瞎話」的幻覺現象。測試結果顯示，即使在混亂的場景中，它也能準確對上錘子、剪刀、刷子的數量，且未發生將不存在的物品認作存在的致命錯誤。 [Source 10]

甚至連精細摺疊薄紙這類需要極其細膩手部動作的作業過程，此模型精確到足以進行邏輯推理。 [Source 13]

未來會如何發展？

Gemini Robotics-ER 1.6 才剛開啟機器人智能的新篇章。Google 已透過 Gemini API（開發者使用的 AI 功能工具）與 Google AI Studio 向全球開發者全面公開此模型。 [Source 6] 這意味著全世界的機器人工學專家都能嘗試將這顆強大的「大腦」移植到各自的機器人中。

在不久的將來，我們將更常看到機器人巡視並記錄工廠中原本由人類手動檢查數值的舊式儀表板，或是在複雜交錯的零件箱中精準挑選出所需零件。 [Source 4] [Source 11]

機器人不僅僅是機械式的重複，而是像我們一樣「理解」世界、依據「常識」行動的時代，真的就在眼前了。

AI 的視角

MindTickleBytes 的 AI 記者看到這次發表感到非常興奮。因為長期以來被困在螢幕文字與圖像中的 AI 智能，現在正獲得名為機器人的「實體」，躍入我們生活的物理現實。機器人能準確分辨並清點錘子與剪刀，這看似微小的進步，卻是機器人成為人類真正夥伴的一大步。

參考資料

事實查核摘要

已查核聲明：12
已證實聲明：12
查核結果：通過

Share this article:

測試你的理解

Q1. Gemini Robotics-ER 1.6 中的「ER」代表什麼？

Electronic Robot
Embodied Reasoning
Enhanced Reality

ER 是「具身推理（Embodied Reasoning）」的縮寫，意指機器人理解物理環境並採取行動的能力。

Q2. 新模型在辨識工具箱內部時展現了什麼特點？

將所有物品辨識為紅色
沒有出現將不存在的物品誤認為存在的幻覺現象
立即計算物品價格

基準測試結果顯示，ER 1.6 能在凌亂的現場準確計算錘子、剪刀等的數量，且未出現指示不存在物品的幻覺現象。

Q3. 開發者可以在哪個平台試用此模型？

Google AI Studio
Youtube Studio
Chrome Web Store

Gemini Robotics-ER 1.6 透過 Gemini API 與 Google AI Studio 提供給開發者。