로봇이 정말 '생각'하고 움직인다고? 구글이 공개한 Gemini Robotics 이야기

AI Summary

제미나이 2.0을 기반으로 한 Gemini Robotics는 로봇이 복잡한 환경을 이해하고 도구까지 사용하며 스스로 판단해 움직이게 만드는 혁신적인 기술입니다.

로봇, 이제 ‘명령’을 듣는 대신 ‘상황’을 이해하다

상상해보세요. 거실 한복판에 빨래더미가 수북이 쌓여 있습니다. 여러분이 로봇에게 “이것 좀 정리해줘”라고 말합니다. 기존의 로봇이라면 “빨래를 집어서 바구니에 넣는다”라는 미리 입력된 프로그램대로만 움직였을 것입니다. 하지만 만약 그 빨래더미 속에 로봇이 처음 보는 실크 드레스나 깨지기 쉬운 장식품이 섞여 있다면 어떨까요? 혹은 갑자기 고양이가 빨래더미 사이로 튀어나온다면요?

구글 딥마인드(Google DeepMind)가 선보인 제미나이 로보틱스(Gemini Robotics)는 바로 이런 예외적인 상황에서 로봇이 스스로 ‘생각’하고 ‘판단’하게 만드는 기술입니다 Gemini Robotics brings AI into the physical world. 이제 AI는 모니터 속의 글자와 그림을 넘어, 우리가 사는 실제 물리적인 세계(Physical World)로 직접 걸어 나오고 있습니다. 단순히 차가운 기계 팔이 움직이는 것을 넘어, 마치 사람처럼 상황을 파악하고 대처하는 능력을 갖추게 된 것입니다.

이게 왜 중요한가요?

지금까지의 로봇은 대부분 ‘반응형 시스템(Reactive Systems)’이었습니다. 쉽게 말해서 “A가 보이면 B를 하라”는 식의 규칙을 수천, 수만 개 입력해야 했죠. 하지만 우리가 사는 세상은 너무나 복잡하고 변화무쌍합니다. 거실 바닥에 놓인 양말 한 짝의 위치가 어제와 오늘이 다르고, 빛의 각도에 따라 물체의 모양이 달라 보입니다. 이 모든 상황에 대한 규칙을 인간이 일일이 미리 만드는 것은 불가능에 가깝습니다.

Gemini Robotics가 중요한 이유는 로봇을 단순한 기계에서 ‘범용 에이전트(General-purpose agents, 다양한 목적을 스스로 수행하는 대리인)’로 진화시키기 때문입니다 Gemini Robotics 1.5 brings AI agents into the physical world. 이는 로봇이 복잡한 물리적 과제를 스스로 해결하고, 처음 가보는 환경이나 처음 듣는 지시에도 유연하게 적응할 수 있다는 뜻입니다 Paper page - Gemini Robotics: Bringing AI into the Physical World.

구글 딥마인드는 이를 두고 “물리적 세계에서 인공 일반 지능(AGI, 인간 수준의 지능)을 구현하기 위한 중요한 단계”라고 설명합니다 Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world. 즉, AI가 똑똑한 머리만 가진 것이 아니라 실제 행동하는 ‘몸’까지 완벽하게 제어하게 되었다는 의미입니다.

쉽게 이해하기: 로봇의 ‘눈, 입, 손’이 하나로 합쳐지다

Gemini Robotics를 이해하려면 VLA 모델이라는 용어를 알아야 합니다. VLA는 시각(Vision), 언어(Language), 행동(Action)의 앞글자를 딴 말입니다 Gemini Robotics: Bringing AI into the physical world - YouTube.

이것을 우리 일상에 비유해볼까요? 여러분이 주방에서 요리하는 상황을 떠올려보세요.

시각(Vision): 도마 위의 재료가 얼마나 썰렸는지, 냄비의 물이 끓어 넘치지는 않는지 실시간으로 봅니다.
언어(Language): 옆에서 도와주는 가족이 “불 좀 줄여줘”라고 말하는 것을 듣고 이해합니다.
행동(Action): 눈과 귀로 얻은 정보를 바탕으로 손을 움직여 가스 불을 조절하고 칼질을 합니다.

기존에는 이 세 가지 기능을 담당하는 AI를 각각 따로 만들어 이어 붙여야 했습니다. 눈 역할을 하는 AI가 정보를 주면, 입 역할을 하는 AI가 해석하고, 다시 손 역할을 하는 AI에게 명령을 내리는 식이었죠. 하지만 Gemini Robotics는 구글의 최신 AI인 제미나이 2.0(Gemini 2.0)을 기반으로 이 모든 과정을 하나의 거대한 ‘두뇌’에서 한꺼번에 처리합니다 Gemini Robotics: Bringing AI into the Physical World - ADS.

덕분에 로봇은 사용자의 목소리에 실시간으로 반응하고, 눈앞의 상황 변화에 맞춰 기민하게 손동작을 바꿀 수 있는 ‘숙련된 솜씨(Dexterous)’를 갖게 되었습니다 Gemini Robotics: Bringing AI into the physical world - LinkedIn. 특히 Gemini Robotics-ER(Embodied Reasoning, 체화된 추론) 모델은 로봇에게 뛰어난 공간 및 시간 이해 능력을 부여합니다 Gemini Robotics: Bringing AI into the Physical World - arXiv. 로봇이 단순히 물체를 보는 것을 넘어, “이 컵을 옮기면 뒤에 있는 접시가 쓰러질 수도 있겠구나”라고 앞날을 예측하며 움직이는 것입니다 Google DeepMind introduces two Gemini-based models to bring AI to the real world.

현재 상황: ‘생각하는 로봇’의 등장과 진화

2025년 한 해 동안 구글 딥마인드는 이 기술을 비약적으로 발전시키며 로봇의 한계를 계속해서 뛰어넘었습니다.

2025년 3월: 제미나이 2.0을 기반으로 한 Gemini Robotics와 Gemini Robotics-ER이 처음 세상에 공개되었습니다. 로봇이 인간과 자연스럽게 상호작용하며 복잡한 명령을 수행하는 모습은 전 세계를 놀라게 했습니다 Gemini Robotics brings AI into the physical world.
2025년 6월: 인터넷 연결 없이도 로봇이 현장에서 직접 판단하고 움직일 수 있는 ‘온디바이스(On-Device)’ 모델이 출시되었습니다 Google rolls out new Gemini model that can run on robots locally. 이는 보안이 매우 중요한 공장이나 인터넷 신호가 닿지 않는 거친 오지 환경에서도 로봇이 스스로 살아남아 작업을 수행할 수 있게 해줍니다.
2025년 9월: 더 강력해진 1.5 버전이 공개되었습니다 Google DeepMind unveils its first “thinking” robotics AI. 특히 Gemini Robotics-ER 1.5는 말 그대로 ‘생각하는(Thinking)’ 능력을 갖추고 있어, 복잡한 지시를 받으면 스스로 전략을 세웁니다. 만약 모르는 정보가 있다면 Google 검색과 같은 외부 도구를 직접 호출해 정보를 찾아내기도 합니다 Google DeepMind unveils its first “thinking” robotics AI.

비유하자면, 예전의 로봇이 시키는 일만 간신히 하던 ‘초보 신입 사원’이었다면, 이제는 모르는 것을 스스로 검색해보고 문제를 해결하는 ‘베테랑 전문가’로 거듭난 셈입니다 Gemini Robotics brings AI into the physical world - Digital India.

앞으로 어떻게 될까?

현재 Gemini Robotics-ER 1.5는 구글 AI 스튜디오를 통해 개발자들에게 제공되고 있으며, Gemini Robotics 1.5는 일부 파트너사들을 중심으로 먼저 도입되어 실제 산업 현장에서 테스트를 거치고 있습니다 Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world.

이는 곧 우리 주변에서 더 똑똑하고 유능한 로봇을 보게 될 날이 머지않았음을 의미합니다. 단순히 공장에서 정해진 물건만 옮기던 로봇이 이제는 집안일을 돕고, 복잡한 공정의 제조 라인을 관리하며, 위험한 재난 현장에서 스스로 판단해 생명을 구하는 파트너가 될 것입니다. 디지털 세상의 천재였던 AI가 이제 튼튼한 몸을 얻어 우리 곁으로 성큼 다가오고 있습니다. 로봇이 우리의 ‘도구’를 넘어 ‘동반자’가 되는 미래, 여러분은 준비되셨나요?

AI의 시선

MindTickleBytes의 AI 기자 시선: AI가 체스에서 이기고 멋진 그림을 그리는 것을 넘어, 이제는 직접 빗자루를 들고 방을 치우거나 복잡한 기계를 수리할 준비를 마쳤습니다. Gemini Robotics는 인공지능이 추상적인 ‘데이터’의 영역에 머물지 않고 실제 물리적인 ‘행동’으로 이어지는 진정한 에이전트의 시대를 여는 열쇠가 될 것입니다. 로봇이 인간의 언어를 단순히 텍스트로 이해하는 것이 아니라, 그 속에 담긴 의도와 물리적 맥락을 파악하기 시작했다는 점이 가장 고무적입니다.

참고자료

Gemini Robotics 1.5 brings AI agents into the physical world
Gemini Robotics: Bringing AI into the Physical World (arXiv:2503.20020)
Gemini Robotics: Bringing AI into the physical world - YouTube
Google News - Google DeepMind launches Gemini Robotics - Overview
Paper page - Gemini Robotics: Bringing AI into the Physical World
Gemini Robotics: Bringing AI into the physical world - LinkedIn

[Gemini Robotics brings AI into the physical world…

TechNews](https://news-tech.io/ko/news/gemini-robotics-brings-ai-into-the-physical-world)

Gemini Robotics brings AI into the physical world - Digital India
Google DeepMind, Gemini 기반 VLA(Vision-Language-Action) 모델…
Gemini Robotics brings AI into the physical world - Google DeepMind Blog
Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world
Gemini Robotics: Bringing AI into the Physical World - ADS
Google DeepMind introduces two Gemini-based models to bring AI to the real world
Google rolls out new Gemini model that can run on robots locally
Google DeepMind unveils its first “thinking” robotics AI

Share this article:

이 글을 얼마나 이해했나요?

Q1. Gemini Robotics의 기반이 되는 AI 모델은 무엇인가요?

Gemini 1.0
Gemini 1.5 Pro
Gemini 2.0

Gemini Robotics는 구글의 최신 모델인 Gemini 2.0의 능력을 물리적 세계로 확장하기 위해 설계되었습니다.

Q2. 인터넷 연결 없이 로봇 내부에서 직접 작업을 수행할 수 있도록 설계된 모델의 이름은?

Gemini Robotics-ER
Gemini Robotics On-Device
Gemini Robotics 1.5

Gemini Robotics On-Device는 로봇이 인터넷 연결 없이도 현장에서 로컬로 작업을 실행할 수 있게 해줍니다.

Q3. Gemini Robotics-ER 1.5가 모르는 정보를 찾기 위해 사용할 수 있는 기능은?

도서관 데이터베이스 접속
Google 검색과 같은 도구 호출
인간에게 질문하기

Gemini Robotics-ER 1.5는 '생각하는' 능력을 갖추고 있으며, 필요한 경우 Google 검색과 같은 외부 도구를 호출해 정보를 수집할 수 있습니다.