走出螢幕的 AI？阿里巴巴如何教導機器人認識「世界」

AI Summary

阿里巴巴的千問機器人套件不再依賴單一龐大的系統，而是將角色劃分為尋路導航、物體操作與物理環境預測三個專業模型，這是一套協助機器人直接與現實世界互動的創新 AI 套件。

想像一下。一大早起床，對著智慧型手機或智慧音箱說：「能幫我準備一杯熱滴漏咖啡和塗好果醬的酥脆吐司當今天的早餐嗎？」如果是我們最近常見的 ChatGPT 等對話型人工智慧（AI），它大概會用流暢的文字回答：「好的，我這就把沖泡美味咖啡的比例和烤吐司的最佳溫度顯示在螢幕上。」雖然在螢幕裡它是世界上最聰明的秘書，但煮咖啡、烤麵包這些勞力活，最終還是得由我們自己動手。

但是，如果這個聰明的人工智慧能夠逃出智慧型手機螢幕的牢籠，進入擁有實際手腳的機械機器人體內呢？也就是說，如果我們能親眼看到人工智慧自己走到廚房，小心翼翼地拿起馬克杯而不弄碎它，按下咖啡機的電源按鈕，並倒出不會溢出的牛奶呢？

超越單純處理網路世界的文字或圖片，這種能夠在我們居住的物理現實世界中親自活動身體、與物體互動的人工智慧，在科技業界被稱為「具身智慧（Embodied Intelligence）」或「具身 AI（Embodied AI）」。簡單來說，可以稱之為「擁有身體的聰明大腦」。就在 2026 年 6 月 16 日，科技巨頭阿里巴巴（Alibaba）正式發表了一項極為重要的成果，將這種宛如科幻電影般的想像向前邁進了一大步 Qwen。

阿里巴巴向世界公開的這項新技術名為「千問機器人套件（Qwen-Robot Suite）」。這是阿里巴巴利用其持續培育的大型語言模型家族「千問（Qwen）」的能力，為了讓機器能夠正確認知並預測物理世界，所誕生的物理世界智慧基礎模型套件（Foundation Model Suite for Physical World Intelligence） Qwen-RobotSuite：物理世界智慧的基礎模型套件…。這項發表將成為讓僅停留在聊天機器人型態的智慧 AI 邁向物理世界機器人控制的關鍵分水嶺阿里巴巴推出千問機器人套件，讓 AI 從聊天機器人走向物理世界。

為什麼這很重要？ (Why It Matters)

一直以來，AI 產業的主要焦點都集中在能夠自然理解人類語言並代筆寫作的「聊天機器人（Chatbots）」型態。雖然它們能回答您的問題、總結艱澀的文件，甚至幫助寫程式，是非常優秀的秘書，但終究只是沒有實體的數位資料。媒體與專家分析指出，阿里巴巴這次推出千問機器人套件，釋放出了一個強烈的訊號，顯示 AI 產業的戰略重心正大幅從螢幕中的聊天機器人轉移至在物理硬體中採取行動的「具身 AI 代理」阿里巴巴推出千問機器人套件，標誌著從聊天機器人轉向具身 AI 代理的戰略樞紐…。

這項巨大的技術變革對身為一般大眾的我們來說，其日常意義遠比想像中深遠。這意味著以往只在電腦螢幕前打轉的 AI 技術，將逐漸以實體姿態走入我們的客廳、廚房，甚至是工廠或物流倉庫。打個比方，這就像是以前只在圖書館看書的書呆子學者，終於穿上工作服走入現場，親自拿起鐵鎚開始工作了。

這項技術之所以特別備受矚目，原因在於它的切入方式。過去的 AI 機器人研究，通常試圖建立一個「單一龐大系統（Monolithic system）」，讓機器人從頭到腳的所有狀況都由自己判斷處理。然而世界太過複雜，僅靠一個大腦幾乎不可能應付數十萬種的物理例外情況。阿里巴巴的千問機器人套件果斷放棄了這種過時的方法。它捨棄了單一系統，將系統巧妙地拆分為三個各自專責解決具身智慧所面臨核心問題的不同且互補的專業模型阿里巴巴推出千問機器人套件，標誌著從聊天機器人轉向具身 AI 代理的戰略樞紐…。

讓我們用日常生活來比喻說明。想像一下，您第一次在一家格局複雜的大型超市買東西。會有推著購物車在人群中穿梭、尋找目的地水果區的「腳步與視線」角色；也有在貨架上輕輕拿起軟熟桃子而不捏壞它的「細膩觸碰」角色。而且，如果感覺購物車裡的罐裝飲料快掉下來了，會本能地預料到掉在地上會爆開，而提前伸手接住的「狀況預測能力」。阿里巴巴同樣將實際機器人系統在工業現場發揮生產力時所需的過程，徹底劃分為空間探索層、精密操作層與環境預測層這三種結構，就像大型餐廳廚房裡嚴謹的分工一樣 [阿里巴巴的千問機器人套件瞄準物理 AI…

Awesome Agents](https://awesomeagents.ai/news/alibaba-qwen-robot-suite-embodied-ai/)。

輕鬆理解 (The Explainer)

我們來更深入但極為淺顯地拆解一下阿里巴巴這項新技術的運作原理。阿里巴巴已經成功運營了提供聊天機器人、影像及影片理解、文件處理、網路搜尋等廣泛功能的 Qwen Studio 物理世界智慧的基礎模型套件。這次發布的機器人套件，作為機器人耳目的基礎，同樣是建立在已經被證實具備強大視覺與語言理解能力的「Qwen2.5-VL」這個聰明的大型視覺-語言模型（Vision-Language Model）之上該套件的物理世界模型建構於 Qwen2.5-VL 之上。。

阿里巴巴以這個天才般的基礎大腦為基底，將機器人的人工智慧精巧地拆分成三個緊密相連的核心層阿里巴巴藉首套機器人 AI 模型套件放眼物理世界。這三個模型分別是 Qwen-RobotNav、Qwen-RobotManip 以及 Qwen-RobotWorld [阿里巴巴推出千問首套機器人 AI 模型

eWeek](https://www.eweek.com/news/alibaba-qwen-first-suite-ai-models-robots-apac/)。我們來逐一看看它們的真面目吧。

1. 步伐穩健的雙腳與導航之眼：「Qwen-RobotNav」

第一個專業部門是「千問-機器人導航（Qwen-RobotNav）」。正如模型名稱中包含了導航（Navigation）一詞，這是一個具備擴展性的視覺-語言探索專用模型阿里巴巴加大物理 AI 推廣力度，推出機器人 AI 模型…。它是一位尋路專家，專為讓機器在無人協助的情況下，自己以立體方式理解周遭的物理空間，並在不發生碰撞的情況下移動而設計阿里巴巴藉首套機器人 AI 模型套件放眼物理世界。

例如，當我們命令機器「把書房桌底下的垃圾桶清空」，這個模型會透過機器人的攝影機掌握走廊、房門、家具的位置，並在腦海中計算出靈活避開障礙物、安全抵達目的地的動線。它扮演著非常核心的角色，協助機器人完美理解該如何在現實的物理三維空間中四處走動 [PYMNTS

阿里巴巴推出機器人 AI 模型套件](https://www.pymnts.com/news/artificial-intelligence/2026/alibaba-debuts-suite-ai-models-robots/)。

2. 連易碎物品也能小心握持的雙手：「Qwen-RobotManip」

走到物品所在之處並不代表任務結束。機器人必須拿起或操作物體，才能真正完成工作。這時第二位英雄「千問-機器人操作（Qwen-RobotManip）」便會大顯身手。這個名稱帶有操作（Manipulation）涵義的模型，是專注於精確且細膩控制物體的通用視覺-語言-行動（Vision-Language-Action）模型阿里巴巴加大物理 AI 推廣力度，推出機器人 AI 模型…。

「視覺-語言-行動模型」這個詞聽起來有點艱澀嗎？簡單來說，這項技術能將「聆聽人類的話語（語言）」、「用攝影機辨識物體材質與形狀（視覺）」，以及「決定傳送多少電力給馬達來彎曲手指（行動）」這一連串過程，像一種流暢的反射神經般連接起來 [阿里巴巴的千問機器人套件瞄準物理 AI…

Awesome Agents](https://awesomeagents.ai/news/alibaba-qwen-robot-suite-embodied-ai/)。抓取生雞蛋和緊握重型鐵鎚時，手中使出的力量和角度必須截然不同。Qwen-RobotManip 學習了這些微小的手部感覺與力道控制，幫助機器人在面對初次見到的陌生事物時也能毫不慌張，熟練地處理物品而不造成損壞。

3. 憑直覺預測未來的心眼：「Qwen-RobotWorld」

最後第三個在技術上最令人驚豔且有趣的，是「千問-機器人世界（Qwen-RobotWorld）」。它超越了對文字或圖像的表面分析，是一個基於海量影片數據，深刻精通現實物理定律的特殊「世界模型（World Model）」阿里巴巴加大物理 AI 推廣力度，推出機器人 AI 模型…。

前面的超市比喻中已簡略說明過這個世界模型是什麼，我們再來舉個例子。如果看到玻璃馬克杯有一半懸掛在桌子邊緣搖搖欲墜，人類即使不計算重力加速度，也會本能地憑直覺產生「那個杯子1秒後就會掉到地上摔得粉碎」的情境想像。這是因為我們終其一生觀察世界，腦海中早已建立起對「物理定律的理解」。以前的機器人缺乏這種本能，往往要等到杯子掉下來摔破了才發現問題，但 Qwen-RobotWorld 透過廣泛學習影片數據，讓它能自主預測眼前的狀況在1秒後或5秒後會如何發展 [PYMNTS

阿里巴巴推出機器人 AI 模型套件](https://www.pymnts.com/news/artificial-intelligence/2026/alibaba-debuts-suite-ai-models-robots/)。可以說它擁有了在行動開始前，預先想像結果的「心眼」。

扮演現場總監角色的指揮家：「Qwen-RobotClaw」框架

即使準備了這三位優秀的專家模型，對於像「能幫我準備晚餐嗎？」這種耗時超過1小時的冗長複雜任務，仍然必須有一位能協調指揮他們的總管。為此，阿里巴巴也在內部共同開發並導入了一個名為「千問-機器人利爪（Qwen-RobotClaw）」的機器人代理框架（控制機器人的管理系統）阿里巴巴 (09988) 推出首款具身千問機器人系列大模型，確立了物理世界互動的閉環能力。。

就像我們大掃除時，不會忘記「先撿垃圾、接著吸地板、最後開窗通風」這一連串長長的順序一樣，Qwen-RobotClaw 會指揮機器人模型代理，在需要時靈活自如地取出並使用前面介紹的尋路（Nav）、操作（Manip）、預測（World）這三個工具。此外，在長達數十分鐘的長時間任務（long-horizon tasks）中，為了避免機器人迷失方向而納悶「我剛才在煮什麼菜？」，它會嚴密地維持並管理整體的上下文（Context）和過去的記憶。多虧了它，機器人得以脫胎換骨，成為能將日常生活中複雜多步驟任務完美執行到底的可靠幫手阿里巴巴 (09988) 推出首款具身千問機器人系列大模型，確立了物理世界互動的閉環能力。。

現狀 (Where We Stand)

那麼，這麼了不起的技術，難道只是深藏在阿里巴巴實驗室保險箱裡專屬的秘密武器嗎？令人驚訝的是，並非如此。千問機器人套件不是單一模型，而是三個獨立模型的聯合體，阿里巴巴做出了一個果斷的決定：透過大眾可以免費下載使用的 GitHub 開源儲存庫，發布了其中負責空間移動的 RobotNav 和負責手部操作的 RobotManip 兩個模型認識千問機器人套件：三個具身 AI 模型… - MarkTechPost。這為全世界無數的機器人研究者與開發者敞開了發展的大門，讓他們可以下載並直接整合到自己研究的機器上進行實驗。

然而，我們也有必要冷靜地檢視目前的局限性。具身 AI 機器人產業所面臨最大且最嚴重的障礙，正是「數據與外殼的碎片化」認識千問機器人套件：三個具身 AI 模型… - MarkTechPost。我們每天使用的智慧型手機，即使製造商或螢幕尺寸略有不同，但運作方式或應用程式生態系大同小異。反觀機器人，有的裝有兩個輪子、有的像狗一樣用四條腿走路、有的只是一支孤零零的機械手臂，硬體的外型多達數千種。而組裝工廠裡鎖螺絲的機器人和咖啡廳裡沖咖啡的機器人，所執行的工作種類也完全是南轅北轍。

目前，單一 AI 還無法達到完美無瑕地涵蓋世上所有種類的機器人軀體與多樣化任務這種夢想階段。但是，阿里巴巴這次公開模型，是一次非常重大的嘗試，試圖將散落在各自實驗室中形形色色的機器人硬體，用「Qwen」這個共同的視覺-語言人工智慧知識連結起來。從這一點來看，我們對現狀仍可抱持非常樂觀的期待。

未來發展？ (What’s Next)

阿里巴巴這項大膽的舉動，並非他們自己突如其來的突兀行為。國外主要科技媒體在評論阿里巴巴這次發布機器人模型套件時指出，這是整個全球 IT 業界為了搶佔「物理 AI（Physical AI）」或「具身智慧」領域的主導權，正大規模從單純隔著螢幕收發文字的對話為中心的模型開發中轉型，是一股巨大時代潮流的一部分 [阿里巴巴推出具身 AI 的千問機器人套件

Let’s Data Science](https://letsdatascience.com/news/alibaba-unveils-qwen-robot-suite-for-embodied-ai-d7c90c5a)。

特別是這種模組化的方法，預告了將與目前引領全球人工智慧市場的其他科技巨頭展開激烈的競爭。在理解視覺資訊並轉化為行動（Vision-Language-Action）的演算法領域中，將與 Google DeepMind 持續發布的機器人工程相關研究成果，以及 NVIDIA 投入巨資打造的物理基礎 AI 開發平台並駕齊驅，展開真正的較量 [阿里巴巴推出具身 AI 的千問機器人套件

Let’s Data Science](https://letsdatascience.com/news/alibaba-unveils-qwen-robot-suite-for-embodied-ai-d7c90c5a)。

在不久的將來，我們將會習以為常地目睹原本只存在於螢幕中的數位知識，大步跨入由鋼鐵與塑膠構成的物理現實世界中大顯身手的魔法般景象阿里巴巴推出千問機器人套件，讓 AI 從聊天機器人走向物理世界。以亞太市場為舞台首次亮相的阿里巴巴這套機器人專屬模型套件 [阿里巴巴推出千問首套機器人 AI 模型

eWeek](https://www.eweek.com/news/alibaba-qwen-first-suite-ai-models-robots-apac/)，未來將如何把從巨大工廠的生產線，到我們溫馨小巧的居家日常風景，改變成令人驚嘆的面貌，全世界充滿期待的目光正聚焦於此。

AI 觀點 (AI’s Take)

MindTickleBytes AI 記者觀點： 就像小孩子只盯著書本上「踢足球的方法」看，也無法在操場上真正把足球踢好一樣；無論 AI 技術多麼發達，只閱讀數十億篇網路文件文字，也無法完美體會真實世界裡冰冷金屬的觸感，或是物品掉落時的重量感。這次阿里巴巴的千問機器人套件，終於為 AI 這個靈魂裝上了能跨越空間的雙腳、能細膩握住易碎物品的雙手，以及能預測物理定律將創造出1秒後未來的心眼，這簡直是一件革命性的事件。

我們曾驚嘆於受困在螢幕中、對我們輸入的問題給出驚人聰明答覆的對話型聊天機器人知識，如今我們已經度過那個時期；現在，我們正迎來「具身人工智慧」的動態進化，它自主精通世界的物理定律，並與我們在我們呼吸的日常空間裡並肩行走。這不僅僅是單純的技術發展，更將成為人類與機器共享物理世界新時代的序幕。現在，我們該帶著充滿好奇而非恐懼、且謹慎的目光，來關注這項驚人變革的第一步了。

參考資料

Qwen
該套件的物理世界模型建構於 Qwen2.5-VL 之上。
[阿里巴巴的千問機器人套件瞄準物理 AI… Awesome Agents](https://awesomeagents.ai/news/alibaba-qwen-robot-suite-embodied-ai/)
阿里巴巴藉首套機器人 AI 模型套件放眼物理世界

[PYMNTS

阿里巴巴推出機器人 AI 模型套件](https://www.pymnts.com/news/artificial-intelligence/2026/alibaba-debuts-suite-ai-models-robots/)

阿里巴巴加大物理 AI 推廣力度，推出機器人 AI 模型…
Qwen-RobotSuite：物理世界智慧的基礎模型套件…
阿里巴巴推出千問機器人套件，標誌著從聊天機器人轉向具身 AI 代理的戰略樞紐…
認識千問機器人套件：三個具身 AI 模型… - MarkTechPost
阿里巴巴 (09988) 推出首款具身千問機器人系列大模型，確立了物理世界互動的閉環能力。
[阿里巴巴推出千問首套機器人 AI 模型 eWeek](https://www.eweek.com/news/alibaba-qwen-first-suite-ai-models-robots-apac/)
阿里巴巴推出千問機器人套件，讓 AI 從聊天機器人走向物理世界
物理世界智慧的基礎模型套件

[阿里巴巴推出具身 AI 的千問機器人套件

Let’s Data Science](https://letsdatascience.com/news/alibaba-unveils-qwen-robot-suite-for-embodied-ai-d7c90c5a)

Share this article:

測試你的理解

Q1. 在阿里巴巴的千問機器人套件中，負責讓機器人精細且流暢地操作物體的專屬模型名稱是什麼？

Qwen-RobotNav
Qwen-RobotManip
Qwen-RobotWorld

Qwen-RobotManip 是一個結合語言指示與視覺資訊，負責物體操作（Manipulation）的視覺-語言-行動模型。

Q2. 下列關於千問機器人套件（Qwen-Robot Suite）系統架構的敘述，何者正確？

由單一龐大的模型獨自處理機器人的所有任務。
徹底分工為尋路導航、精密操作與環境變化預測三個專業層。
目前仍處於研究階段，完全沒有大眾或開發者可以存取的開源模型。

該套件並非單一的單體系統，而是將角色劃分為三個不同且互補的專屬模型，以此解決現實世界的複雜問題。

Q3. 當機器人連續執行冗長且複雜的任務時，能確保不遺漏所需的記憶與整體流程（上下文）並加以管理，使工具能適材適所被使用的阿里巴巴內部框架名稱為何？

Qwen2.5-VL
Qwen-RobotClaw
Qwen Studio

Qwen-RobotClaw 能讓機器人代理（Agent）像使用工具般呼叫這些模型，同時有效地控制並管理長時間任務所需的記憶與上下文。