为什么机器人团队总是不断重复造一样的“数据仓库”?

展现机器人工程师设计和构建复杂数据系统的数字插图
AI Summary

尽管机器人技术发展迅速,但机器人团队仍不得不从零开始重建数据流水线等基础架构,这严重拖慢了研发进度。

想象一下,你走进厨房学习烹饪,却发现买不到刀具、菜板和煤气灶,厨师必须亲自炼钢打刀、砍木做板。这样一来,做饭本身反而成了次要的,大部分时间都花在制造工具上了。目前的机器人学界正处于相似的困境。机器人团队不得不一次又一次地从零开始构建机器人收集和处理数据的“基础架构(管线工程)”。 Source 1 Source 6

为什么这很重要?

机器人已不再仅仅是单纯的机械,而是演变为与人工智能(AI)相结合的“具身智能(Embodied AI)”。然而,这些机器人获得智能所必需的数据系统尚未标准化。机器人团队在构建基础设施上投入大量宝贵时间,意味着他们进行技术创新实验或将产品推向市场的速度被拖慢了。 Source 8 我们渴望更快地见到更聪明的机器人,但制造它们的人却被困在“制造厨房工具”的琐事中。

通俗解释:为什么 Web 时代的工具行不通?

“数据栈(Data Stack)”是一种存储和管理机器人所收集信息的“数字仓库”系统。我们迄今为止所使用的 Web 数据工具,主要针对互联网上的点击流或订单信息处理进行了优化。 Source 7 但机器人情况迥异。

打个比方:如果 Web 数据是文字为主的信息,那么机器人数据就是“动态视频与物理感知”。Web 时代的工具如果是分类“信件”的办公室,那么机器人所需的系统就必须是“能够同步处理数千台摄像头实时拍摄的高清视频,以及机器人手臂所感知的压力数据”的超高速电影制片厂。 Source 7 现有工具难以承载机器人现场采集的细微且庞大的物理数据保真度(Fidelity)。 Source 4

此外,互联网的文字数据可以通过网站“抓取(Scraping)”来收集,但机器人数据不同。机器人必须亲自与现实世界碰撞、交互,一点一滴地收集数据。 Source 9 因此,借用其他团队的数据并不容易,最终导致重复劳动的苦差事不断循环。 Source 9

现状:全栈的艰辛

由于这些困难,许多机器人团队选择了从头到尾全权负责的“全栈(Full-stack)”策略。 Source 2 由于负责智能的大脑(AI 模型)和身体(物理机器人)正在同时迅速进化,他们判断:不借他人之手,直接控制两者之间的反馈过程,才是获胜之道。 Source 2

然而,正如前文所述,这会产生巨大的人力和时间成本。他们不得不反复投入精力处理相同的工作:数据管线、同步系统、日志记录方式等。 Source 5 在企业级 AI 领域,人们已对需要更优架构和统一测量标准的呼声很高, Source 4 但机器人领域尚处于甚至连“通用数据集”都未建立的初期阶段。 Source 9

未来展望

好在已有改变的迹象。最近,许多企业和研究人员正致力于创建新的通用基础设施层,旨在帮助机器人开发者摆脱“管线工程”,全身心投入到“提升机器人智能”的工作中。 Source 6 如果他们能确立机器人数据标准,并构建出人人都能轻松使用的公共系统,机器人团队终于可以摆脱制造工具的束缚。 Source 1 Source 5

想要让机器人更快变聪明,首先必须改善那种强迫机器人专家成为“厨具匠人”而非厨师的环境。未来机器人领域的数据栈将如何超越 Web 时代、进化为针对机器人优化的形态,值得拭目以待。

参考资料

  1. RoboticsTeamsAreRebuildingtheDataStackfromScratch
  2. More and more robotics teams are going full stack
  3. What I Learned About Robotics in 72 Hours
  4. Rebuilding the data stack for AI - MIT Technology Review
  5. [Ep 97 Why Robotics Keeps Rebuilding the Same Infrastructure](https://www.22astronauts.com/p/ep-97-why-robotics-keeps-rebuilding-036)
  6. Backing Neuracore: Reinventing Data Infrastructure for Robotics
  7. Rebuilding the Data Stack for AI: Web-Era Systems Can’t Keep Up
  8. How Neuracore solves robotics infrastructure woes
  9. [The data gap that’s holding back robotics IBM](https://www.ibm.com/think/news/the-data-gap-holding-back-robotics)
  10. Data Centers Are Expanding — Will Operators Turn to Robots for Management?
测试你的理解
Q1. 机器人团队从头构建数据基础设施的主要原因之一是什么?
  • Web 时代的工具难以满足机器人数据的高精度和高质量要求
  • 现有工具太贵
  • 所有团队都想要专有的数据格式
Web 时代的数据工具在处理机器人数据所需的复杂性和物理交互数据方面存在巨大缺陷。
Q2. 机器人数据区别于其他 AI 数据的最大特征是什么?
  • 数据量压倒性地多
  • 只能通过物理交互获得
  • 可以从互联网轻松抓取
机器人(具身智能)无法通过抓取互联网数据来泛化,必须通过与物理环境的交互直接收集数据。
Q3. 为什么许多机器人团队选择“全栈”方式?
  • 团队规模太小
  • 为了在智能层与物理平台协同进化的过程中直接控制反馈回路
  • 为了节省基础设施构建成本
由于智能与物理平台正在同步发展,直接控制整个反馈回路是获得竞争优势的方法。