AI가 이제 '몸'을 가졌다고? 우리 집 로봇이 똑똑해지는 이유: 제미나이 로보틱스 1.5

AI Summary

구글의 제미나이 로보틱스 1.5는 AI에게 '추론하는 뇌'와 '움직이는 몸'을 부여하여, 로봇이 스스로 복잡한 계획을 세우고 도구를 사용하며 현실 세계의 문제를 해결할 수 있게 돕는 혁신적인 시스템입니다.

들어가는 글: 거실을 정리하는 로봇, 더 이상 꿈이 아닙니다

상상해보세요.

지친 몸을 이끌고 퇴근해 현관문을 열었을 때, 어질러진 거실 한복판에서 묵묵히 일하고 있는 로봇이 여러분을 반깁니다. 여러분은 로봇에게 복잡한 코드를 입력하거나 두꺼운 설명서를 쥐여줄 필요가 없습니다. 그저 친구에게 말하듯 가볍게 한마디만 건네면 됩니다. “바닥에 굴러다니는 것들 좀 정리해줄래? 필기구는 저기 통에 담고, 마커펜은 쟁반 위로 옮겨줘.”

이 짧고 일상적인 부탁을 들은 로봇은 주위를 쓱 훑어보더니, 망설임 없이 초록색 마커펜을 집어 나무 쟁반 위에 살포시 놓습니다. 이어서 파란색과 빨간색 펜을 찾아내 원통형 통 안에 차곡차곡 담기 시작하죠 [Source 14].

불과 몇 년 전의 로봇이라면 어땠을까요? 아마 ‘마커펜’과 ‘일반 펜’을 구분하지 못해 쩔쩔매거나, 물건을 집는 위치를 정확히 계산하지 못해 허공을 휘저었을지도 모릅니다. 하지만 이제 시대가 변했습니다. 구글 딥마인드(Google DeepMind)는 2025년 9월, 디지털 세상 속에만 갇혀 있던 똑똑한 AI를 우리가 발을 딛고 사는 물리적인 현실 세계로 끌어내기 위한 혁신적인 기술, 제미나이 로보틱스 1.5(Gemini Robotics 1.5)를 공개했습니다 [Source 5, Source 17].

이제 AI는 단순히 화면 속에서 멋진 문장을 만들어내는 수준을 넘어, 직접 물건을 집고, 도구를 다루며, 우리를 대신해 물리적인 문제를 해결하는 ‘진짜 몸’을 갖게 되었습니다 [Source 9, Source 15].

이게 왜 중요한가요? AI가 ‘디지털 감옥’을 탈출했습니다

우리가 지금까지 경험해온 챗GPT나 제미나이는 엄밀히 말하면 ‘디지털 세계의 전지전능한 비서’였습니다. 이메일을 순식간에 요약해주거나 복잡한 코딩 문제를 해결하는 데는 천재적이지만, 정작 우리 대신 산더미처럼 쌓인 설거지를 해주거나 방바닥의 양말을 주워주지는 못했습니다.

로봇 공학 분야에서 가장 어려운 숙제 중 하나가 바로 “복잡하고 여러 단계로 이루어진 작업을 인간처럼 유연하고 지능적으로 수행하는 것”이기 때문입니다 [Source 15]. 예를 들어 “방을 치워”라는 말에는 ‘물건을 식별하고, 분류하고, 손의 힘을 조절해 집어 올리고, 적절한 위치로 이동한다’라는 수많은 판단과 행동이 엉켜 있습니다.

제미나이 로보틱스 1.5의 등장이 중요한 이유는, AI가 단순히 정보를 처리하는 단계를 넘어 ‘상황을 판단(Reasoning)’하고 ‘직접 행동(Action)’하는 단계로 완전히 진입했음을 선언했기 때문입니다 [Source 17]. 구글 딥마인드는 이번 발표를 두고 “물리적 세계에서 범용 인공지능(AGI, 인간 수준의 지능을 가진 AI)을 실현하기 위한 가장 중요한 이정표 중 하나”라고 자신 있게 강조했습니다 [Source 13, Source 16].

쉽게 말해서, 이제 AI는 인터넷 세상의 지식뿐만 아니라 “물리적인 세상이 어떻게 돌아가는지(Physical Commonsense)”를 본능적으로 이해하기 시작했다는 뜻입니다 [Source 18].

쉽게 이해하기: 로봇의 ‘뇌’와 ‘몸’이 환상적인 팀워크를 이룰 때

제미나이 로보틱스 1.5 시스템은 크게 두 가지 전문 모델이 ‘2인 3각’ 경기처럼 긴밀하게 협력하며 작동합니다. 이를 우리 몸의 구조에 비유하면 더욱 명확해집니다.

1. 전략을 짜는 ‘브레인’: 제미나이 로보틱스-ER 1.5

여기서 ER은 ‘에이전트적 추론(Embodied Reasoning, 몸을 가진 추론)’의 약자입니다. 이 모델은 로봇의 ‘고지능 사령탑’ 역할을 수행합니다 [Source 4].

역할: 전체적인 작업의 청사진, 즉 다단계 계획을 설계합니다 [Source 15].
특징: 무조건 시키는 대로만 움직이는 것이 아니라, 공간의 구조를 파악하고 어떤 도구를 어떻게 활용할지 스스로 결정합니다 [Source 4]. “차 한 잔 타줘”라고 말하면, “먼저 컵을 찾고, 티백을 넣고, 물을 끓여서 붓는다”라는 복잡한 연결 동작을 스스로 추론해내는 것이죠 [Source 15].
비유: 마치 건물을 짓기 전에 전체 설계도를 그리고 효율적인 공사 순서를 배치하는 ‘유능한 건축가’와 같습니다.

2. 현장에서 움직이는 ‘팔다리’: 제미나이 로보틱스 1.5

이 모델은 VLA(Vision-Language-Action, 시각-언어-행동) 모델이라고 불리는 기술의 집약체입니다 [Source 2, Source 18].

역할: 뇌(ER 모델)가 전달한 추론 계획과 눈(카메라)으로 실시간 확인한 시각 정보를 합쳐, 로봇의 모터를 움직이는 구체적인 신호로 바꿉니다 [Source 2, Source 12].
특징: “오른쪽 로봇 팔을 15도 각도로 굽혀서, 작은 사과 한 알 정도의 무게인 3뉴턴(Newton)의 힘으로 물체를 집어라”와 같이 아주 미세한 근육 움직임을 제어합니다 [Source 12].
비유: 건축가의 설계도를 완벽하게 이해하고, 현장에서 직접 망치를 휘두르며 오차 없이 벽돌을 쌓아 올리는 ‘숙련된 일류 기술자’와 같습니다.

비유하자면, 요리책의 레시피를 머릿속으로 떠올리는 능력이 ER 모델이라면, 뜨거운 칼을 쥐고 양파를 일정한 굵기로 썰어내는 섬세한 손놀림이 VLA 모델인 셈입니다. 이 두 존재가 로봇 안에서 실시간으로 대화하며 협력하기 때문에, 로봇은 이전과는 비교할 수 없을 정도로 자연스럽고 영리하게 움직일 수 있습니다 [Source 12, Source 15].

현재 상황: 우리 로봇은 얼마나 똑똑해졌을까?

제미나이 로보틱스 1.5의 가장 놀라운 점은 단순한 반복 학습을 뛰어넘었다는 것입니다. 이 AI는 수많은 영상을 통해 세상의 인과관계(원인과 결과)를 스스로 파악하는 능력을 갖췄습니다 [Source 14].

과거의 로봇들은 바나나를 그릇에 담는 아주 단순한 동작 하나를 익히기 위해서도 수천 번, 수만 번의 반복 훈련(시행착오)이 필요했습니다 [Source 6]. 하지만 이번 모델은 인간처럼 상황을 “생각(Thinking)”하는 힘을 가졌기에, 한 번도 가본 적 없는 주방이나 처음 보는 물건 앞에서도 유연하게 대처할 수 있는 가능성을 열었습니다 [Source 5, Source 8].

현재 구글은 이 강력한 기술을 두 가지 방식으로 세상에 내놓았습니다:

로보틱스-ER 1.5 (뇌 모델): 구글 AI 스튜디오의 제미나이 API를 통해 모든 개발자에게 공개되었습니다. 누구나 이 ‘뇌’를 빌려 쓸 수 있게 된 것이죠 [Source 13, Source 16].
로보틱스 1.5 (몸 모델): 이 정교한 조절 기술은 현재 선별된 일부 파트너들에게 우선적으로 제공되어 실전 테스트를 거치고 있습니다 [Source 1, Source 13].

이는 이제 전 세계의 창의적인 개발자들이 구글의 최첨단 인공지능 뇌를 활용해, 각 가정과 산업 현장에 딱 맞는 ‘맞춤형 똑똑이 로봇’을 만들 수 있는 시대가 도래했음을 의미합니다 [Source 7].

앞으로 어떻게 될까? 우리 곁으로 성큼 다가올 ‘물리적 비서’

구글 딥마인드의 비전은 확고합니다. 특정한 공정만 반복하는 딱딱한 기계가 아니라, 어떤 환경에서도 스스로 판단하고 도구를 활용하며 인간을 돕는 ‘범용 로봇 에이전트’를 완성하는 것입니다 [Source 17, Source 18].

머지않은 미래에 우리는 다음과 같은 일상의 변화를 직접 마주하게 될 것입니다:

가정용 로봇의 대진화: 단순히 먼지만 흡입하는 로봇청소기를 넘어, 빨래 건조기에서 옷을 꺼내 예쁘게 개고, 다 쓴 그릇을 차곡차곡 식기세척기에 옮겨 담는 ‘진짜 가사 도우미’가 등장할 것입니다 [Source 2].
산업 현장의 혁명: 위험한 건설 현장이나 복잡한 물류 창고에서 로봇이 인간과 나란히 서서, 상황에 맞는 도구를 능숙하게 바꿔가며 협업하게 될 것입니다 [Source 9, Source 15].
디지털과 현실의 완벽한 결합: 스마트폰 속 AI 비서에게 “내 차 열쇠가 어디 있는지 도저히 모르겠어”라고 하소연하면, 집안 어딘가에 있는 로봇이 눈(카메라)으로 소파 밑까지 샅샅이 뒤져 열쇠를 찾아내고 그 위치를 사진으로 찍어 보내주는 세상이 올 것입니다 [Source 10].

물론 일부 전문가들은 구글이 말하는 ‘생각(Thinking)’이 인간의 영혼 있는 사고와는 다른, 거대 언어 모델 특유의 복잡한 연산 결과일 뿐이라고 지적하기도 합니다 [Source 5]. 하지만 AI가 차가운 모니터 화면을 뚫고 나와 우리 손에 닿는 따뜻한 물건들을 만지기 시작했다는 사실만으로도, 인류는 완전히 새로운 문명의 장을 열고 있습니다 [Source 7, Source 11].

AI의 시선: MindTickleBytes AI 기자의 한마디

제미나이 로보틱스 1.5의 등장은 AI에게 강력한 ‘실천력’이 생겼음을 뜻합니다. 그동안 AI가 “책만 많이 읽은 모범생”이었다면, 이제는 “운동장에서도 뛰어놀고 공구도 능숙하게 다루는 현장 전문가”로 거듭난 셈이죠.

인공지능이 물리적인 몸을 입고 우리 삶의 공간 속으로 깊숙이 들어오는 순간, 우리가 ‘노동’과 ‘일상’에 대해 가졌던 모든 상식은 다시 쓰여야 할 것입니다. 로봇과 함께 아침 식사를 준비하고 퇴근길 인사를 나누는 미래, 여러분은 맞이할 준비가 되셨나요?

참고자료

Gemini Robotics 1.5 brings AI agents into the physical world

[Google DeepMind’s AI agents for robots: Gemini Robotics…

LinkedIn](https://www.linkedin.com/posts/ashishbamania_having-a-personal-robot-in-your-home-might-activity-7377296015613394944-4xpl)

Building the Next Generation of Physical Agents with Gemini…
Gemini Robotics 1.5 Brings AI-Powered Physical
Google DeepMind unveils its first “thinking” robotics AI - Ars Technica
Gemini Robotics 1.5: Empowering robots to plan, reason, and utilize…
Gemini Robotics 1.5: The Dawn of Truly Adaptive Physical AI Agents

[Google DeepMind unveils Gemini Robotics 1.5, enabling…

LinkedIn](https://www.linkedin.com/posts/disruptai-labs_google-deepminds-new-ai-models-can-search-activity-7379567164401348609-0Ox0)

[Gemini Robotics 1.5 brings AI agents into the physical…

TechNews](https://news-tech.io/ko/news/gemini-robotics-15-brings-ai-agents-into-the-physical-world)

Gemini Robotics AI Agents Enter Physical Realm - Aitoolsbee
Google DeepMind’s Gemini 1.5 Brings AI Robots Closer to the Real…
Google’s Gemini Robotics Is Putting AI Into Physical Bodies…
DeepMind launches Gemini Robotics 1.5 to advance AI agents in the …
Building the Next Generation of Physical Agents with Gemini Robotics-ER …
Google Releases Gemini Robotics 1.5 brings AI agents into real-world
Gemini Robotics 1.5 enables agentic experiences, explains Google …
Google Unveils Gemini Robotics 1.5 to Bring AI Agents Into Real-World …
Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots with …

Share this article:

이 글을 얼마나 이해했나요?

Q1. 제미나이 로보틱스 1.5 시스템에서 로봇의 '뇌' 역할을 하며 복잡한 계획을 세우는 모델의 이름은 무엇인가요?

Gemini Robotics 1.5
Gemini Robotics-ER 1.5
Gemini API

Gemini Robotics-ER 1.5는 '에이전트적 추론(Embodied Reasoning)' 모델로, 물리적 환경에서 복잡한 활동을 조율하고 다단계 계획을 세우는 뇌 역할을 합니다.

Q2. 제미나이 로보틱스 1.5 모델이 시각 정보와 지시사항을 로봇의 실제 움직임(모터 명령)으로 바꾸는 기술을 무엇이라 부르나요?

VLA (Vision-Language-Action)
NLP (Natural Language Processing)
ER (Embodied Reasoning)

VLA는 시각 정보와 언어 지시를 로봇의 팔다리를 움직이는 구체적인 모터 명령으로 변환하는 모델입니다.

Q3. 구글 딥마인드는 이번 발표가 어떤 최종 목표를 해결하기 위한 중요한 이정표라고 언급했나요?

더 빠른 검색 엔진 개발
물리적 세계에서의 범용 인공지능(AGI) 실현
모바일 앱 인터페이스 개선

구글 딥마인드는 이번 출시가 '물리적 세계에서의 범용 인공지능(AGI)을 해결하기 위한 중요한 이정표'라고 강조했습니다.