為什麼機器人團隊總是不斷地從頭打造一樣的「數據倉庫」?

數位插畫,描繪機器人工程師設計並構建複雜的數據系統
AI Summary

機器人技術發展迅速,但機器人團隊卻因必須從零開始構建數據管線等基礎設施,導致開發速度放緩。

想像一下,為了學習烹飪,你走進廚房,卻發現沒有賣菜刀、砧板或瓦斯爐的地方,廚師必須親自鍛造刀具、削切砧板。這樣一來,製作工具所花的時間將遠遠超過烹飪本身。目前機器人學界所處的困境便與此相似。機器人團隊正不斷地從零開始,打造機器人收集與處理數據所需的「基礎設施(管線工程)」。 Source 1 Source 6

這為何重要?

機器人已不再只是單純的機械,而是演進為結合人工智慧(AI)的「具身智慧(Embodied AI)」。然而,機器人為了具備智慧所必需的數據系統,目前尚未標準化。機器人團隊將寶貴的時間浪費在基礎設施建設上,這意味著他們在實驗創新技術或將產品推向市場的速度被拖慢了。 Source 8 我們渴望更快見到更聰明的機器人,但製造機器人的人們卻被困在製造廚具的工作中。

簡單理解:為什麼 Web 時代的工具行不通?

「數據堆疊(Data Stack)」是一種儲存並管理機器人所收集資訊的「數位倉庫」系統。過去我們使用的 Web 數據工具,主要針對網路上的點擊數或訂單資訊處理進行了優化。 Source 7 但機器人截然不同。

可以這樣比喻:如果 Web 數據是「文字」為主的資訊,那麼機器人數據就是「動態影像與物理感官」。Web 時代的工具如果是分類「信件」的辦公室,機器人所要求的系統則必須是能「實時同步數千台相機同時拍攝的高畫質影像,以及機器手臂感受到的壓力數據」的超高速電影製作室。 Source 7 現有的工具在捕捉機器人現場經歷的細微且龐大的物理數據 Fidelity(保真度,即數據與實際數據的相似程度)方面顯得捉襟見肘。 Source 4

此外,網路上的文字數據可以透過「抓取(Scraping)」來收集,但機器人數據不同。機器人必須親自與現實世界碰撞並互動,一點一滴地收集數據。 Source 9 因此,想要拿其他團隊製作好的數據來使用並不容易,最終只能不斷重複從零開始的辛苦工作。 Source 9

現況:全端開發的苦衷

由於這些困難,許多機器人團隊乾脆選擇了從頭到尾所有東西都自己做的「全端(Full-stack)」策略。 Source 2 由於負責智慧的大腦(AI 模型)與身體(物理機器人)正同步快速發展,團隊判斷不假手於人、親自控制兩者間的回饋過程,才是贏得競爭的方法。 Source 2

然而,正如前面所述,這產生了極高的人力與時間成本。數據管線、同步系統、日誌記錄方式等,團隊都在重複進行一樣的工作。 Source 5 雖然在企業 AI 領域,對於需要更佳架構與測量標準來整合管理數據的呼聲已很高, Source 4 但機器人領域目前甚至連機器人專屬的「共通數據集」都尚未建立,仍處於初期階段。 Source 9

未來展望

幸運的是,已出現了變革的跡象。近來許多企業與研究人員正努力創建新的通用基礎設施層,幫助機器人開發者專注於「真正的機器人智慧」,而非「基礎設施管線工程」。 Source 6 若他們能建立機器人數據的標準,並構建人人都能輕易取用的共用系統,機器人團隊終將從製作工具的枷鎖中解脫。 Source 1 Source 5

為了讓機器人更快變聰明,現在必須改善強迫機器人工程師成為「烹飪工具匠人」而非廚師的環境。未來機器人領域的數據堆疊將如何超越 Web 時代的方式,進化為機器人優化的樣貌,值得我們持續關注。

參考資料

  1. RoboticsTeamsAreRebuildingtheDataStackfromScratch
  2. More and more robotics teams are going full stack
  3. What I Learned About Robotics in 72 Hours
  4. Rebuilding the data stack for AI - MIT Technology Review
  5. [Ep 97 Why Robotics Keeps Rebuilding the Same Infrastructure](https://www.22astronauts.com/p/ep-97-why-robotics-keeps-rebuilding-036)
  6. Backing Neuracore: Reinventing Data Infrastructure for Robotics
  7. Rebuilding the Data Stack for AI: Web-Era Systems Can’t Keep Up
  8. How Neuracore solves robotics infrastructure woes
  9. [The data gap that’s holding back robotics IBM](https://www.ibm.com/think/news/the-data-gap-holding-back-robotics)
  10. Data Centers Are Expanding — Will Operators Turn to Robots for Management?
測試你的理解
Q1. 機器人團隊不斷從頭打造數據基礎設施的主要原因之一是什麼?
  • Web 時代的工具難以滿足機器人數據對高準確度與品質的需求
  • 現有工具太昂貴
  • 每個團隊都想要獨有的數據格式
Web 時代的數據工具在處理機器人數據所需的複雜性與物理互動數據時,存在許多不足。
Q2. 機器人數據與其他 AI 數據相比,最大的區別是什麼?
  • 數據量壓倒性地多
  • 只能透過物理互動獲取
  • 可以輕鬆地從網路上抓取
機器人(具身智慧,Embodied AI)無法透過網路數據抓取方式來實現通用化,必須透過與物理環境的互動來直接收集數據。
Q3. 許多機器人團隊選擇「全端(Full-stack)」方式的原因是什麼?
  • 團隊規模太小
  • 為了在智慧層與物理平台演進的過程中,直接掌控回饋循環
  • 為了節省基礎設施建置成本
由於智慧與物理平台正同步演進,直接掌控整個回饋循環成為獲得競爭優勢的方法。