로봇 팀들은 왜 똑같은 '데이터 저장고'를 매번 새로 만들고 있을까?

AI Summary

로봇 기술은 빠르게 발전하고 있지만, 로봇 팀들은 매번 데이터 파이프라인과 같은 기본 인프라를 밑바닥부터 다시 구축하느라 개발 속도가 늦어지고 있습니다.

상상해보세요. 요리를 배우기 위해 주방에 들어갔는데, 칼과 도마, 가스레인지를 파는 곳이 없어 요리사가 직접 칼을 제련하고 도마를 깎아야 한다면 어떨까요? 요리 자체보다 도구를 만드는 데 훨씬 더 많은 시간이 걸릴 것입니다. 현재 로봇 공학계가 처한 상황이 딱 이와 비슷합니다. 로봇을 만드는 팀들은 매번 로봇이 데이터를 수집하고 처리하는 ‘기초 인프라(배관 공사)’를 밑바닥부터 새로 만들고 있습니다. Source 1 Source 6

이게 왜 중요한가요?

로봇은 이제 단순한 기계가 아니라 인공지능(AI)과 결합한 ‘물리적 AI(Embodied AI)’로 진화하고 있습니다. 하지만 이런 로봇들이 지능을 갖추기 위해 꼭 필요한 데이터 시스템이 표준화되어 있지 않습니다. 로봇 팀들이 인프라 구축에 귀중한 시간을 쏟는다는 것은, 그만큼 혁신적인 기술을 실험하거나 시장에 제품을 내놓는 속도가 늦어진다는 것을 의미합니다. Source 8 우리는 더 똑똑한 로봇을 빨리 만나고 싶지만, 로봇을 만드는 사람들은 주방 도구 만드는 일에 매여 있는 셈입니다.

쉽게 이해하기: 왜 웹 시대의 도구로는 안 될까요?

‘데이터 스택(Data Stack)’이란 로봇이 수집한 정보를 저장하고 관리하는 일종의 ‘디지털 창고’ 시스템입니다. 지금까지 우리가 사용하던 웹 기반의 데이터 도구들은 인터넷에서 클릭 수나 주문 정보를 처리하는 데 최적화되어 있었습니다. Source 7 하지만 로봇은 다릅니다.

이렇게 비유해 볼까요? 웹 데이터가 ‘글자’ 위주의 정보라면, 로봇 데이터는 ‘움직이는 영상과 물리적 감각’입니다. 웹 시대의 도구가 ‘편지’를 분류하는 사무실이라면, 로봇이 요구하는 시스템은 ‘수천 대의 카메라가 동시에 찍는 고화질 영상과 로봇 팔이 느끼는 압력 데이터를 실시간으로 동기화’해야 하는 초고속 영화 제작소여야 합니다. Source 7 기존의 도구들은 로봇이 현장에서 겪는 미세하고 방대한 물리적 데이터의 Fidelity(충실도, 실제 데이터와 얼마나 비슷한지)를 담아내기에 역부족입니다. Source 4

게다가 인터넷의 글자 데이터는 웹사이트를 ‘긁어(Scraping)’ 모을 수 있지만, 로봇 데이터는 다릅니다. 로봇은 직접 현실 세계와 부딪히고 상호작용하며 데이터를 한 땀 한 땀 수집해야 합니다. Source 9 그러니 다른 팀이 만들어둔 데이터를 가져다 쓰는 것도 쉽지 않고, 결국 매번 처음부터 다시 만드는 고생을 반복하게 되는 것입니다. Source 9

현재 상황: 풀스택의 고충

이러한 어려움 때문에, 많은 로봇 팀들은 아예 처음부터 끝까지 모든 것을 직접 만드는 ‘풀스택(Full-stack)’ 전략을 선택하고 있습니다. Source 2 지능을 담당하는 뇌(AI 모델)와 몸체(물리적 로봇)가 동시에 빠르게 발전하고 있기 때문에, 이 둘 사이의 피드백 과정을 남의 손을 빌리지 않고 직접 제어하는 것이 경쟁에서 이기는 방법이라고 판단하기 때문입니다. Source 2

하지만 이는 앞서 말했듯 엄청난 인적·시간적 비용을 발생시킵니다. 데이터 파이프라인, 동기화 시스템, 로그 기록 방식 등 매번 똑같은 일을 하는 데 힘을 쏟고 있습니다. Source 5 이미 기업용 AI 분야에서는 데이터를 통합하고 관리하는 더 나은 아키텍처와 측정 기준이 필요하다는 목소리가 높지만, Source 4 로봇 분야는 아직 로봇만의 ‘공통 데이터 세트’조차 정립되지 않은 초기 단계입니다. Source 9

앞으로 어떻게 될까?

다행히 변화의 움직임은 있습니다. 최근 많은 기업과 연구진들이 로봇 개발자들이 ‘인프라 배관 공사’가 아니라 ‘진짜 로봇 지능’에만 집중할 수 있도록 돕는 새로운 공통 인프라 계층을 만들려 노력하고 있습니다. Source 6 이들이 로봇 데이터의 표준을 만들고, 누구나 쉽게 가져다 쓸 수 있는 공용 시스템을 구축하게 된다면, 로봇 팀들은 비로소 도구 제작의 굴레에서 벗어날 것입니다. Source 1 Source 5

로봇이 더 빨리 똑똑해지려면, 이제는 로봇 공학자들이 요리사가 아닌 ‘요리 도구 장인’이 되기를 강요하는 환경부터 개선해야 합니다. 앞으로 로봇 분야의 데이터 스택이 웹 시대의 방식을 넘어 로봇에게 최적화된 모습으로 어떻게 진화할지 지켜봐야 할 것입니다.

참고자료

RoboticsTeamsAreRebuildingtheDataStackfromScratch
More and more robotics teams are going full stack
What I Learned About Robotics in 72 Hours
Rebuilding the data stack for AI - MIT Technology Review
[Ep 97 Why Robotics Keeps Rebuilding the Same Infrastructure](https://www.22astronauts.com/p/ep-97-why-robotics-keeps-rebuilding-036)
Backing Neuracore: Reinventing Data Infrastructure for Robotics
Rebuilding the Data Stack for AI: Web-Era Systems Can’t Keep Up
How Neuracore solves robotics infrastructure woes
[The data gap that’s holding back robotics IBM](https://www.ibm.com/think/news/the-data-gap-holding-back-robotics)
Data Centers Are Expanding — Will Operators Turn to Robots for Management?

Share this article:

이 글을 얼마나 이해했나요?

Q1. 로봇 팀들이 데이터 인프라를 새로 구축하는 주된 이유 중 하나는 무엇인가요?

웹 시대의 도구들로는 로봇 데이터의 높은 정확도와 품질 요구사항을 충족하기 어렵기 때문
기존 도구가 너무 비싸서
모든 팀이 독자적인 데이터 형식을 원해서

웹 시대의 데이터 도구들은 로봇 데이터가 요구하는 복잡성과 물리적 상호작용 데이터를 처리하기에 부족함이 많습니다.

Q2. 로봇 데이터가 다른 AI 데이터와 구별되는 가장 큰 특징은 무엇인가요?

데이터 양이 압도적으로 많다
물리적 상호작용을 통해서만 얻을 수 있다
인터넷에서 쉽게 긁어올 수 있다

로봇(Embodied AI)은 인터넷 데이터를 긁어오는 방식으로는 일반화할 수 없으며, 물리적 환경과의 상호작용을 통해 데이터를 직접 수집해야 합니다.

Q3. 많은 로봇 팀이 '풀스택' 방식을 선택하는 이유는 무엇인가요?

팀의 규모가 너무 작아서
지능 계층과 물리적 플랫폼이 진화하는 과정에서 피드백 루프를 직접 통제하기 위해
인프라 구축 비용을 아끼기 위해

지능과 물리 플랫폼이 동시에 발전하고 있기 때문에, 전체 피드백 루프를 직접 통제하는 것이 경쟁 우위를 갖는 방법이 되기 때문입니다.