게임 속 AI가 친구처럼 말을 걸고 작전을 짠다면? 구글 딥마인드의 'SIMA 2'가 보여주는 미래

AI Summary

구글의 강력한 AI '제미나이'를 두뇌로 탑재한 SIMA 2는 단순한 게임 캐릭터를 넘어, 스스로 계획을 세우고 대화하며 처음 보는 가상 세계에서도 능숙하게 행동하는 '지능형 파트너'로 진화했습니다.

들어가는 글: 게임 속 ‘답답한’ 동료는 이제 안녕?

한번 상상해보세요. 여러분이 처음 보는 복잡한 오픈월드 게임에 접속했습니다. 옆에는 AI 동료가 한 명 서 있네요. 기존의 게임들이라면 이 동료는 미리 정해진 길로만 가거나, 벽에 부딪혀 버벅거리기 일쑤였을 겁니다. 하지만 이 동료는 완전히 다릅니다. 여러분이 “저 언덕 너머에 뭐가 있는지 좀 알아봐 줄래?”라고 말하자, 잠시 상황을 살피더니 이렇게 대답합니다. “알겠어. 나는 오른쪽 바위 뒤로 조용히 돌아서 시야를 확보할게. 너는 여기서 내가 들키지 않게 엄호해줘.”

이것은 더 이상 영화 속 상상이나 먼 미래의 이야기가 아닙니다. 구글 딥마인드(Google DeepMind)가 공개한 새로운 AI 에이전트(Agent, 스스로 상황을 판단하고 행동하는 인공지능), SIMA 2가 바로 이런 놀라운 세상을 현실로 만들어가고 있기 때문입니다 Source 1, Source 3.

오늘은 우리와 함께 게임을 즐기고, 스스로 전략을 짜며 끊임없이 학습하는 똑똑한 AI 친구, SIMA 2에 대해 아주 쉽고 자세하게 알아보겠습니다.

이게 왜 중요한가요? (Why It Matters)

우리가 평소에 쓰는 챗GPT(ChatGPT)나 제미나이(Gemini) 같은 AI는 주로 ‘말’이나 ‘글’로 우리와 소통합니다. 하지만 AI가 진짜 우리 삶에 깊숙이 들어와 도움을 주려면, 화면 속 가상 세계나 실제 현실 세계에서 ‘직접 움직이고 행동할 줄’ 알아야 합니다. 이를 전문 용어로 엠바디드 AI(Embodied AI)라고 부릅니다 Source 2, Source 10.

비유하면, 지금까지의 AI가 책상 앞에 앉아 세상 모든 지식을 읊어주는 ‘박학다식한 학자’였다면, 엠바디드 AI는 직접 밖으로 나가 도구를 다루고 심부름을 수행하는 ‘능숙한 해결사’가 되는 과정이라고 할 수 있습니다.

SIMA 2는 이 분야에서 거둔 획기적인 성과입니다. 단순히 정해진 규칙(알고리즘)에 따라 움직이는 것이 아니라, 복잡한 3D 환경을 인간처럼 시각적으로 이해하고 판단하기 때문이죠. 이것이 가능해지면 우리는 게임에서 완벽한 파트너를 만날 수 있을 뿐만 아니라, 장차 우리 집에서 가사 일을 돕는 서비스 로봇에게도 똑같은 지능을 부여할 수 있게 됩니다 Source 10.

쉽게 이해하기 (The Explainer)

SIMA 2란 무엇일까요?

먼저 그 이름의 의미부터 하나씩 뜯어볼까요? SIMA는 ‘Scalable Instructable Multiworld Agent’의 약자입니다 Source 1, Source 7.

Scalable(확장 가능한): 한두 가지 특정 게임에만 갇혀 있는 것이 아니라, 수많은 다양한 게임 환경에 즉시 적용될 수 있다는 뜻입니다.
Instructable(지시를 따르는): “빨간 집으로 가”처럼 사람이 일상적으로 쓰는 자연스러운 언어 명령을 찰떡같이 알아듣는다는 뜻이죠.
Multiworld(다중 세계): 여러 개의 가상 세계를 자유롭게 넘나들며 활동할 수 있는 범용성을 의미합니다.

SIMA 2는 이 시리즈의 두 번째 버전으로, 구글의 가장 강력한 최신 AI 모델인 제미나이(Gemini)를 ‘두뇌’로 탑재하여 그 지능이 비약적으로 상승했습니다 Source 2, Source 11.

비유로 보는 SIMA 1 vs SIMA 2: 초보병에서 베테랑 장교로

이 차이를 쉽게 이해하기 위해 군대 시스템에 비유해 보겠습니다.

SIMA 1은 “앞으로 3미터 가”, “오른쪽 문을 열어” 같은 아주 단순하고 구체적인 명령만 수행할 수 있는 초보 훈련병과 같았습니다.
반면 SIMA 2는 “우리가 저 목표 지점을 안전하게 점령하려면 어떻게 해야 할까?”라는 추상적인 질문에 대해, 스스로 주변 지형을 살피고 계획을 짜서 이유까지 설명해주는 유능한 베테랑 장교와 같습니다 Source 6, Source 7.

기존 버전은 매 순간 세세한 지시가 필요했지만, SIMA 2는 제미나이의 뛰어난 추론 능력을 바탕으로 내부적인 계획(Internal plans)을 스스로 세울 수 있습니다 Source 7. 심지어 “너 왜 그렇게 움직였어?”라고 물으면 “상대방의 시야를 피해서 몰래 접근하는 게 가장 안전하다고 판단했어”라고 자신의 행동 의도를 논리적으로 설명할 수도 있죠 Source 6.

현재 상황 (Where We Stand)

사람처럼 보고, 사람처럼 움직입니다

SIMA 2의 가장 놀라운 기술적 특징 중 하나는 게임의 내부 소스 코드를 몰래 훔쳐보며 길을 찾는 ‘치트키’를 쓰지 않는다는 점입니다. 대신 우리 인간과 똑같이 화면에 보이는 픽셀(Pixel, 이미지를 구성하는 최소 단위의 점) 정보만을 실시간으로 받아들여 상황을 파악합니다. 그리고는 캐릭터의 손이 아닌, 가상의 키보드와 마우스를 직접 조작하여 게임 속 캐릭터를 움직이죠 Source 10.

쉽게 말해서, AI가 게임 속 ‘신’의 관점에서 세상을 보는 게 아니라, 게이머의 의자에 앉아 모니터를 보며 컨트롤러를 잡고 있는 것과 같습니다. 덕분에 한 번도 가본 적 없는 낯선 게임 세상에 던져놓아도 금방 길을 찾고 적응해서 행동합니다 Source 9, Source 10. 이는 AI가 특정 게임의 규칙을 통째로 외운 게 아니라, ‘3D 세계에서 살아가는 법’ 그 자체를 이해하기 시작했다는 것을 의미합니다.

“가상 훈련소”에서 스스로 진화합니다

SIMA 2는 어떻게 이렇게 단기간에 똑똑해졌을까요? 구글 딥마인드는 Genie 3라는 또 다른 AI를 훈련 파트너로 활용했습니다. Genie 3는 대화형 가상 세계를 실시간으로 만들어내는 일종의 ‘세상 생성기’입니다. SIMA 2는 Genie 3가 만들어낸 무수히 많은 가상 공간에서 셀프 플레이(Self-play, 스스로와 대결하며 학습함)를 하며 실전 경험을 쌓았습니다 Source 5, Source 6.

비유하자면, 마치 영화 매트릭스의 주인공 네오가 가상 훈련 프로그램 속에서 수만 번의 전투를 치르며 순식간에 무술 고수가 된 것과 비슷합니다. 이러한 혹독한 과정을 통해 SIMA 2는 복잡한 목표를 스스로 설정하고, 자신의 행동을 끊임없이 개선해 나가는 능력을 갖추게 되었습니다 Source 11.

앞으로 어떻게 될까? (What’s Next)

SIMA 2의 등장은 단순히 ‘더 재미있는 게임’을 만드는 것에 그치지 않습니다. 이 기술이 우리 삶에 가져올 변화는 훨씬 더 큽니다.

진정한 협력형 NPC의 탄생: 게임 속 캐릭터(NPC)들이 정해진 대사만 반복하는 마네킹이 아니라, 플레이어와 실시간으로 작전을 짜고 우정을 나누는 진짜 ‘동료’가 될 것입니다 Source 8.
범용 로봇 기술로의 전이: 가상 세계에서 화면을 보고 조작하는 법을 배운 AI 지능은, 현실에서 카메라를 통해 세상을 보고 로봇 팔을 움직이는 법도 훨씬 빨리 배울 수 있습니다 Source 10. 즉, 가상 세계가 미래의 가사 로봇이나 산업용 로봇을 위한 최고의 ‘훈련 학교’가 되는 셈이죠.
인간 수준의 수행 능력: 현재 SIMA 2는 여러 테스트에서 인간의 수행 능력에 상당히 근접한 수준까지 올라온 것으로 평가받습니다 Source 10. 앞으로는 인간보다 더 창의적이고 효율적인 방식으로 문제를 해결하는 AI 에이전트의 모습을 자주 보게 될 것입니다.

AI의 시선 (AI’s Take)

MindTickleBytes의 AI 기자가 보기에, SIMA 2는 AI가 ‘지식의 창고’에서 ‘행동하는 주체’로 변화하는 결정적인 변곡점입니다. 그동안 텍스트로만 세상을 배우던 AI가 이제는 직접 3D 세상을 누비며 “아, 이렇게 움직이면 계단을 올라갈 수 있구나!”를 몸소 깨닫기 시작한 것이죠. 게임 속에서 여러분의 뒤를 든든하게 지켜줄 똑똑한 AI 친구를 만날 날이 정말 머지않아 보입니다.