사진 한 장이 게임 속 세상으로? 구글 딥마인드가 선보인 새로운 마법 '지니 2(Genie 2)'

AI Summary

구글 딥마인드가 공개한 '지니 2'는 이미지 한 장을 입력하면 점프하고 수영하며 상호작용할 수 있는 인터랙티브 3D 환경을 실시간으로 생성하는 놀라운 AI 기술입니다.

상상해보세요. 여러분이 어제 여행지에서 찍은 멋진 숲속 사진 한 장을 AI에게 보여줍니다. 잠시 후, 사진 속 멈춰있던 나무들이 바람에 흔들리고 시냇물이 졸졸 흐르며 살아 움직이기 시작합니다. 단순히 영상이 재생되는 게 아닙니다. 여러분은 키보드의 화살표 키를 눌러 그 숲속을 직접 걸어 다닐 수도 있고, 눈앞에 보이는 바위 위로 훌쩍 점프하거나 시원한 물속으로 뛰어들어 수영을 할 수도 있습니다.

어제 찍은 ‘추억’이 오늘 내가 마음껏 탐험할 수 있는 ‘놀이터’가 되는 셈이죠. 단순히 그림을 감상하는 것을 넘어, 그림 속 세상으로 직접 걸어 들어가는 이 놀라운 경험이 현실로 다가오고 있습니다. 지난 2024년 12월 4일, 구글 딥마인드(Google DeepMind)는 사진 한 장을 기반으로 직접 플레이가 가능한 3D 가상 환경을 순식간에 만들어내는 새로운 AI 모델, ‘지니 2(Genie 2)’를 공식 발표했습니다 Genie 2: A Large-scale Foundation World Model - GIGAZINE.

이게 왜 중요한가요?

지금까지 우리가 만난 생성형 AI는 주로 그럴싸한 글을 써주거나 화려한 그림을 그려주는 데 집중했습니다. 하지만 ‘지니 2’는 여기서 한 걸음 더 나아가 ‘월드 모델(World Model)’이라는 새로운 장을 열었습니다. 월드 모델이란 쉽게 말해서 ‘세상의 작동 원리를 스스로 이해하고 시뮬레이션하는 AI 모델’을 뜻합니다 Genie 2: A large-scale foundation world model — Google DeepMind.

이 기술이 우리 삶과 산업에 가져올 변화는 가히 혁명적입니다.

게임 제작의 민주화: 예전에는 수백 명의 개발자가 수년간 밤잠을 설쳐가며 만들어야 했던 정교한 게임 속 3D 세상을, 이제는 AI가 사진 한 장만 보고도 뚝딱 만들어낼 수 있습니다. 이제 누구나 자신만의 가상 세계를 소유하고 공유하는 시대가 열리는 것이죠 Genie 2: A large-scale foundation world model - simonwillison.net.
AI의 ‘물리 공부’: 지니 2는 단순히 이미지를 흉내 내는 것이 아닙니다. “물건을 던지면 아래로 떨어진다”거나 “단단한 벽에 부딪히면 멈춘다”는 물리 법칙(Physics)을 스스로 학습했습니다. 이는 실제 세계에서 활동할 로봇들이 현실에서 사고를 치기 전에, 가상 공간에서 안전하게 ‘조기 교육’을 받는 데 필수적인 기술입니다 Google Genie 2 (DeepMind Genie 2) is a large “World Model”….
한계 없는 상호작용: 정해진 시나리오대로만 움직여야 했던 기존 게임과 달리, 사용자의 돌발 행동에도 실시간으로 반응하며 변화하는 ‘살아있는 세상’을 경험할 수 있습니다. 매번 즐길 때마다 새로운 풍경과 사건이 펼쳐지는 것이죠 Genie 2: The Next-Generation Foundation Model for 3D Worlds.

쉽게 이해하기: 지니 2는 어떻게 작동할까?

지니 2를 비유하자면 ‘AI가 스스로 실시간으로 돌리는 게임 엔진’이라고 할 수 있습니다 Genie 2: A large-scale foundation world model - simonwillison.net. 도대체 어떻게 이런 마법 같은 일이 가능한지, 두 가지 핵심 포인트를 통해 살펴보겠습니다.

1. “상상의 눈”을 가진 AI

어린아이들이 장난감 자동차를 가지고 놀 때를 떠올려 보세요. 아이들은 엔진의 원리나 중력 가속도를 배우지 않아도 자동차가 벽에 부딪히면 “꽝!” 소리와 함께 멈춘다는 것을 잘 압니다. 수많은 관찰을 통해 세상이 어떻게 돌아가는지 몸소 익혔기 때문이죠.

지니 2도 이와 비슷하게 학습했습니다. 이 모델은 방대한 양의 비디오 데이터를 시청하며 세상을 배웠습니다 Genie 2: A large-scale foundation world model — Google DeepMind. 특별한 정답지(Label) 없이도 영상을 보며 “사람이 점프하면 이런 곡선을 그리는구나”, “물속에 들어가면 움직임이 느려지는구나”를 스스로 깨우친 것입니다. 덕분에 사진 한 장만 봐도 그 뒤에 숨겨진 3D 공간과 물리적 반응을 생생하게 ‘상상’해낼 수 있습니다 Genie: Generative Interactive Environments.

2. 점프부터 수영까지, 내 마음대로 조종하기

지니 2가 만든 세상은 단순히 눈으로만 보는 영화가 아닙니다. 사용자가 캐릭터를 직접 조종(Action-controllable)할 수 있다는 점이 가장 큰 특징입니다. 사용자가 “왼쪽으로 가”, “점프해” 같은 명령을 내리면, AI는 그 행동이 가상 세계에서 어떤 결과를 가져올지(예: 바닥을 딛고 도약하는 모습, 착지할 때의 흔들림 등)를 즉각적으로 계산해서 화면으로 보여줍니다 Genie 2: A large-scale foundation world model — Google DeepMind.

예를 들어 거친 암벽 사진을 입력하면, 지니 2는 그 지형을 3D로 재구성하고 캐릭터가 그 위를 위태롭게 걷거나 장애물을 피하는 복잡한 움직임을 실시간으로 생성해냅니다 Genie 2: A large-scale foundation world model — Google DeepMind.

3. ‘지니 1’보다 얼마나 똑똑해졌나요?

이전 모델인 ‘지니 1’은 약 110억 개의 파라미터(Parameter, AI의 뇌세포와 같은 학습 단위)를 가진 모델로, 주로 2D 게임 같은 세상을 만드는 수준이었습니다 Genie: Generative Interactive Environments. 반면, 이번에 공개된 지니 2는 이를 훨씬 뛰어넘어 완전한 3D 가상 세계를 자유자재로 생성합니다. 전문가들은 이를 두고 기술적으로 “상당한 도약(Significant leap forward)”을 이뤘다고 평가하고 있습니다 Google announces Genie 2: A large-scale foundation world model.

현재 상황: 우리는 언제 써볼 수 있을까?

잭 파커 홀더(Jack Parker-Holder)와 기술 리더 스티븐 스펜서(Stephen Spencer)가 이끄는 연구팀에 의해 탄생한 지니 2는 현재 전 세계 AI 업계의 뜨거운 감자입니다 Genie 2: A Large-scale Foundation World Model - aifuturethinkers.com.

다만, 아쉽게도 지금 당장 여러분의 스마트폰에서 내려받아 실행해볼 수 있는 ‘앱’ 형태는 아닙니다. 현재 지니 2는 구글 딥마인드의 최신 연구 결과물로서, AI가 얼마나 정교하게 우리가 사는 세상을 이해하고 시뮬레이션할 수 있는지를 증명하는 단계에 있습니다 Genie 2: A large-scale foundation world model - simonwillison.net.

그럼에도 불구하고 지니 2가 보여준 물리적 일관성(Physical consistency), 즉 물체끼리 부딪혔을 때의 반응이나 시점이 변할 때 배경이 자연스럽게 바뀌는 모습 등은 기존 생성형 AI가 가졌던 한계를 멋지게 뛰어넘었다는 평가를 받습니다 Google Genie 2 (DeepMind Genie 2) is a large “World Model”….

앞으로 어떻게 될까?

구글 딥마인드는 지니 2가 이전의 초기 월드 모델들이 가졌던 좁은 영역의 한계를 벗어나, 훨씬 더 일반적이고 넓은 범용성을 갖추게 되었다고 강조합니다 Google announces Genie 2: A large-scale foundation world model.

이 기술이 본격적으로 우리 곁에 찾아온다면 어떤 일들이 벌어질까요?

나만의 오픈월드 게임: 내가 어릴 적 그린 보물섬 그림이나 어제 찍은 동네 골목길 사진이 그대로 게임 스테이지가 되어, 친구들을 초대해 함께 모험을 즐길 수 있습니다.
완벽한 훈련 시뮬레이션: 자율주행 자동차나 배달 드론이 복잡한 현실 세계로 나오기 전, AI가 만든 가상 세계에서 수천만 번의 모의 주행을 거치며 훨씬 더 안전해질 것입니다.
몰입형 스토리텔링: 영화나 소설의 한 장면 속으로 독자가 직접 걸어 들어가 주인공과 대화하고 사건을 해결하는 새로운 형태의 콘텐츠가 쏟아져 나올 것입니다.

지니 2는 단순한 기술적 성과를 넘어, 인간의 상상력을 물리 법칙이 살아 숨 쉬는 디지털 현실로 바꾸는 ‘마법의 램프’가 되어가고 있습니다.

MindTickleBytes의 AI 기자 시선

지니 2의 등장은 AI가 이제 ‘글자’와 ‘평면 이미지’를 넘어 ‘입체적인 공간’과 ‘시간에 따른 변화’를 이해하기 시작했음을 의미합니다. 우리가 무심코 지나치는 사진 한 장에 담긴 3차원의 깊이와 무게를 AI가 읽어내는 것이죠.

“쉽게 비유하면”, 지니 2는 단순히 풍경을 그리는 화가를 넘어, 그 풍경 속에서 중력과 마찰력을 설계하는 ‘창조주’의 역할까지 수행하고 있습니다. 머지않아 AI는 우리 눈앞의 현실 세계를 우리만큼이나 생생하게 인식하고 상호작용하게 될 것입니다. 지니 2가 열어젖힌 가상 세계의 문 너머에 어떤 놀라운 풍경이 기다리고 있을지 벌써부터 가슴이 설렙니다.

참고자료

FACT-CHECK SUMMARY

Claims checked: 22
Claims verified: 22
Verdict: PASS

Share this article:

이 글을 얼마나 이해했나요?

Q1. 지니 2(Genie 2)의 가장 핵심적인 특징은 무엇인가요?

단순히 고해상도 사진만 생성한다.
사진 한 장을 인터랙티브한 3D 가상 세계로 바꾼다.
텍스트를 오디오 파일로 변환한다.

지니 2는 단일 이미지를 입력받아 사용자가 직접 조종하고 탐험할 수 있는 3D 환경을 생성하는 모델입니다.

Q2. 지니 2가 가상 세계에서 구현할 수 있는 동작이 아닌 것은 무엇인가요?

점프하기와 수영하기
물체와의 상호작용
현실 세계의 물리 법칙 무시하기

지니 2는 점프, 수영, 물체 간 충돌 등 물리적으로 일관된 세계를 시뮬레이션하도록 설계되었습니다.

Q3. 지니 2의 이전 모델인 '지니 1'은 주로 어떤 형태의 세계를 생성했나요?

정교한 3D 세계
2D 기반의 세계
텍스트 기반의 소설 세상

지니 1은 다양한 2D 세계를 생성하는 방식을 도입했으며, 지니 2는 이를 3D로 확장하며 범용성을 크게 높였습니다.