글로만 영상 만들던 시대는 끝났다? 구글이 꺼낸 비장의 카드 'Gemini Omni'

AI Summary

구글이 텍스트, 이미지, 소리, 기존 영상을 마음대로 섞어 새로운 영상을 만들고 대화하듯 수정할 수 있는 차세대 멀티모달 AI 모델 '제미나이 옴니'를 전격 발표했습니다.

잠시 눈을 감고 아주 흥미로운 장면을 상상해 보세요. 여러분이 스마트폰을 들고 방바닥에 굴러다니는 장난감 자동차의 사진을 대충 한 장 찍습니다. 그런 다음 마이크에 대고 입으로 “부르릉~ 끼익!” 하는 엔진 소리와 급브레이크 소리를 직접 녹음합니다. 마지막으로 채팅창에 이렇게 입력하는 거죠. “이 장난감 자동차가 거대한 사막 한가운데서 먼지 폭풍을 뚫고 질주하는 영화 같은 장면을 만들어줘.”

놀랍게도 여러분은 지금 수십억 원이 들어가는 할리우드 CG 스튜디오에 앉아 있는 것이 아닙니다. 그저 집 침대 위에 편안하게 누워 있을 뿐이죠. 과거였다면 사진과 소리, 아이디어를 조합해 하나의 완벽한 영상을 만드는 일은 수십 시간의 고된 작업과 고도의 전문 지식이 필요한 영역이었습니다. 하지만 이제는 이 모든 재료를 AI에게 툭 던져주기만 하면 됩니다. 불과 몇 분 만에 블록버스터 영화의 한 장면 같은 고화질 영상이 뚝딱 완성되어 나오니까요.

이 마법 같은 이야기는 먼 미래의 상상이 아닙니다. 바로 며칠 전 구글(Google)이 ‘구글 I/O 2026’ 기조연설에서 공식 발표한 차세대 생성형 미디어 AI 모델, ‘제미나이 옴니(Gemini Omni)’가 열어젖힌 새로운 현실입니다 [1]. 구글은 이 기술적 도약을 통해 소수의 전문가들만 누려왔던 영상 창작의 권력을 평범한 우리 모두의 손으로 옮겨오고 있습니다.

이게 왜 중요한가요? (Why It Matters)

최근 몇 년간 우리는 AI가 눈부시게 발전하는 과정을 실시간으로 목격해 왔습니다. 질문을 던져 보고서를 쓰거나 원하는 그림을 그려내는 일은 이제 제법 익숙한 일상이 되었죠. 하지만 ‘영상(Video)’ 분야는 AI 업계에서도 정복하기 가장 까다로운 거대한 장벽으로 여겨졌습니다.

그동안 등장한 대부분의 비디오 AI 도구들은 ‘글을 영상으로(Text-to-Video)’ 바꾸는 데에만 초점이 맞춰져 있었습니다. 구글이 작년에 선보였던 ‘비오 3(Veo 3)’ 역시 사용자가 입력한 문장을 분석해 영상으로 만드는 방식이었죠 [2]. 문제는 사람의 복잡한 상상력을 오직 ‘글자’만으로 완벽하게 설명하는 게 너무나 어렵다는 점입니다. 머릿속에 맴도는 구도나 미묘한 분위기를 글로만 설명하려다 보니, 정작 결과물은 내가 원하던 것과 딴판인 경우가 많았습니다.

이 상황을 요리에 비유해 볼까요? 기존의 AI 영상 제작은 마치 ‘엄격하고 까다로운 레시피’를 빈틈없이 적어내야 하는 것과 같았습니다. “소금 3.5g, 설탕 5g을 넣고 섭씨 180도로 정확히 15분간 구워주세요”라고 완벽한 프롬프트(명령어)를 작성해야만 겨우 먹을 만한 요리가 나왔습니다. 단어 하나만 잘못 써도 소금이 왕창 들어간 이상한 음식이 튀어나오곤 했죠.

하지만 제미나이 옴니는 다릅니다. 이 AI는 레시피 대신 ‘눈썰미 좋은 천재 셰프’에 가깝습니다. 냉장고에 남은 재료(기존 영상)와 스케치북의 낙서(이미지), 흥얼거리는 콧노래(소리)를 주방 테이블 위에 툭 올려두고 “이걸 섞어서 맛있는 걸 만들어줘”라고 말하면 끝입니다. 제미나이 옴니는 글자, 소리, 사진, 실제 영상 등 어떤 종류의 입력값이든 동시에 받아들여 이를 바탕으로 놀라운 비디오를 만들어내기 때문입니다 [3].

이러한 변화는 단순히 신기한 도구가 하나 늘어난 것을 넘어섭니다. 평범한 사람들이 복잡한 편집 프로그램 없이도 전문가 수준의 미디어를 만들 수 있게 되었다는 뜻이죠. 또한 구글에게는 챗GPT의 오픈AI나 앤스로픽 같은 강력한 라이벌들과의 전쟁에서 미디어 창작의 주도권을 잡겠다는 강력한 선전포고이기도 합니다 [1].

쉽게 이해하기 (The Explainer)

도대체 구글은 이 놀라운 마법을 어떻게 부린 걸까요? 이번에 발표된 ‘제미나이 옴니’는 하나의 기능이 아니라, 앞으로 구글이 선보일 거대한 AI 미디어 모델들의 ‘제품군(Family)’을 부르는 이름입니다. 그리고 이 시리즈의 첫 번째 주자로 나선 모델이 바로 ‘옴니플래시(OmniFlash)’입니다 [4].

옴니플래시는 업계에서 말하는 멀티모달(Multimodal) 기술의 최종 진화형입니다. 쉽게 말해 ‘여러 종류의 데이터(글, 소리, 그림 등)를 편식하지 않고 동시에 이해하고 처리하는 기술’입니다. 구글의 기존 비디오 모델인 비오(Veo)가 가진 탄탄한 시각 능력을 이어받으면서도, 이를 훌쩍 뛰어넘어 다양한 재료를 자유자재로 버무리는 능력을 갖췄습니다 [3].

가장 소름 돋는 능력은 바로 ‘대화형 편집(Conversational editing)’입니다. 영상을 만드는 것을 넘어, 이미 완성된 영상을 수정하는 과정마저 우리 일상의 대화 속으로 끌어왔습니다 [5].

과거의 영상 편집을 떠올려 보세요. 색감 하나를 바꾸거나 배경의 물체를 지우려면 무거운 전문 프로그램을 켜고, 복잡한 타임라인(영상의 시간 축)을 조작하며 고군분투해야 했습니다. 하지만 제미나이 옴니와의 작업은 마치 ‘내 옆자리에 앉아 마우스를 쥐고 있는 친절한 전문 편집자’와 커피 한 잔 마시며 수다를 떠는 것과 같습니다.

여러분이 화면을 보다가 이렇게 말한다고 가정해 보죠.

사용자: “음, 날씨가 너무 우중충하네. 배경을 노을 지는 붉은 저녁 하늘로 싹 바꿔줄 수 있어?”
옴니플래시: (단 몇 초 만에 하늘을 붉게 물들임)
사용자: “오, 좋아! 그런데 저 왼쪽 구석에 지나가는 파란 차가 분위기를 깨는데. 저것만 지워줘.”

일상적인 언어로 말을 걸기만 하면 됩니다. 제미나이 옴니는 문맥을 정확히 알아듣고 영상의 해당 부분을 마법처럼 수정합니다 [5]. 복잡한 수학적 계산과 픽셀 조정은 AI가 알아서 처리하니, 사용자는 그저 친구에게 부탁하듯 입만 열면 되는 셈입니다.

전문가들은 이러한 변화가 구글 내부의 엄청난 구조 개편 덕분이라고 분석합니다. 과거에는 비디오는 ‘비오’, 이미지는 ‘나노 바나나’, 텍스트는 ‘제미나이’ 식으로 부서가 나뉘어 기술이 파편화되어 있었습니다. 마치 한 회사 안에서 서로 말도 안 섞는 전문가들이 각자 방에 틀어박혀 일하는 꼴이었죠. 하지만 구글은 이 모든 기술을 하나의 거대한 시스템으로 통합하는 전략적 결단을 내렸습니다 [6]. 눈과 귀, 입이 각자 따로 놀던 것을 하나의 천재적인 두뇌로 연결해 버린 것입니다.

현재 상황 (Where We Stand)

세상을 놀라게 할 준비를 마친 구글이었지만, 이 거창한 발표 뒤에는 꽤나 당혹스러운 비하인드 스토리도 있습니다. 구글은 행사 당일 ‘깜짝쇼’를 위해 이 기술을 철저히 기밀로 부치려 했으나, 행사 시작 일주일 전 정보가 허무하게 유출되고 말았습니다 [7].

누군가 해킹을 하거나 스파이가 기밀을 빼낸 것이 아니었습니다. 전 세계인의 스마트폰에 깔린 ‘제미나이’ 앱의 업데이트 파일 속 UI(사용자 인터페이스) 코드에 옴니 모델의 흔적이 실수로 남겨져 있었던 것입니다 [8]. 발 빠른 개발자들이 앱 내부 코드를 뜯어보다가 공식 발표 전에 이미 ‘옴니’라는 이름과 구동 방식을 찾아내 버렸죠 [9]. 마술사가 무대에 오르기도 전에 대본을 들킨 격이었습니다.

하지만 이런 해프닝에도 불구하고 사람들의 기대감은 더욱 커졌고, 현장 반응은 뜨거웠습니다. 구글은 이번 무대에서 제미나이 옴니 외에도 압도적인 체급 차이를 보여줄 업데이트를 쏟아냈습니다.

먼저, 검색 엔진과 워크스페이스 전반의 속도를 대폭 끌어올린 ‘제미나이 3.5 플래시(Gemini 3.5 Flash)’를 도입했습니다 [10]. 또한 구글 문서(Docs)와 유튜브 등 핵심 서비스 내부에 진화한 AI 기능들을 촘촘하게 통합시켰죠 [11].

특히 눈길을 끈 것은 맞춤형 AI 비서 ‘제미나이 스파크(Gemini Spark)’의 등장이었습니다 [1]. 과거의 AI가 질문에만 답하는 자판기였다면, 이제는 내가 지시하기 전에 내 스케줄을 파악해 업무를 처리하고 하루 계획을 조언해 주는 ‘항상 깨어있는 능동적인 비서’로 진화하고 있는 것입니다 [12, 13].

앞으로 어떻게 될까? (What’s Next)

제미나이 옴니의 등장은 단순히 편리한 도구의 발명을 넘어 미디어 콘텐츠 시장 전체의 지각변동을 예고합니다. 비싼 장비와 오랜 훈련 기간이라는 높은 장벽 때문에 억눌려 있던 평범한 사람들의 상상력이 마침내 제약 없이 풀려나게 되었습니다. 머지않아 우리는 지금까지 상상조차 못 했던 독창적인 영상들이 쏟아지는 시대를 목격하게 될 것입니다.

구글의 발걸음은 멈추지 않습니다. 구글은 이번 기조연설을 통해 현재 공개된 기능보다 훨씬 정교한 성능을 자랑할 최상위 두뇌, ‘제미나이 3.5 프로(Gemini 3.5 Pro)’ 모델을 바로 다음 달에 선보이겠다고 자신 있게 밝혔습니다 [2].

카메라와 전화기, 인터넷이 스마트폰 하나로 합쳐지며 우리의 일상을 바꾼 것처럼, 글과 소리, 사진과 영상이 ‘제미나이 옴니’라는 하나의 그릇에서 융합되는 이 현상은 미디어를 소비하고 창작하는 방식을 영원히 바꿀 것입니다.

이제 창작자에게 필요한 유일한 재능은 복잡한 프로그램 조작 기술이 아니라, “내 머릿속 세상을 어떻게 대화로 풀어낼 것인가”라는 순수한 상상력뿐입니다. 제미나이 옴니가 열어젖힌 이 새로운 시대에, 여러분은 AI와 어떤 첫 대화를 나누실 건가요?

AI’s Take

제미나이 옴니의 진정한 가치는 기술의 복잡한 연산 과정을 숨기고, 사람과 사람 사이의 평범한 대화 방식을 창작의 도구로 승격시켰다는 점에 있습니다. 과거에는 상상력을 현실로 옮기기 위해 기술이라는 ‘언어’를 새로 배워야 했지만, 이제는 우리에게 가장 익숙한 ‘말’만으로도 충분한 시대가 되었습니다. 상상력을 현실로 꺼내는 장벽이 마침내 완전히 무너졌습니다.

참고자료

FACT-CHECK SUMMARY

Claims checked: 24
Claims verified: 24
Verdict: PASS

Share this article:

이 글을 얼마나 이해했나요?

Q1. 다음 중 구글이 새롭게 발표한 생성형 미디어 AI 모델 제품군의 공식 명칭은 무엇인가요?

제미나이 스파크(Gemini Spark)
제미나이 옴니(Gemini Omni)
제미나이 3.5 플래시(Gemini 3.5 Flash)

구글은 다양한 입력값을 받아들여 영상을 생성하고 자연스럽게 편집할 수 있는 차세대 AI 미디어 모델 제품군인 '제미나이 옴니'를 발표했습니다.

Q2. 제미나이 옴니가 나오기 전, 텍스트를 기반으로 영상을 만들어주던 구글의 기존 AI 비디오 모델 이름은 무엇인가요?

비오(Veo)
나노 바나나(Nano Banana)
옴니플래시(OmniFlash)

제미나이 옴니는 구글의 기존 텍스트 기반 비디오 생성 모델이었던 '비오(Veo)'의 능력을 더욱 확장하고 고도화하여 만들어졌습니다.

Q3. 구글 I/O 2026의 공식 발표가 있기 전, 제미나이 옴니의 존재가 세상에 먼저 알려지게 된 계기는 무엇인가요?

경쟁 회사의 해킹 공격
구글 내부 직원의 폭로 인터뷰
제미나이 스마트폰 앱 내부의 UI 문자열 유출

행사 일주일 전, 스마트폰에 설치된 구글의 제미나이 앱 내부 사용자 인터페이스(UI) 문자열에서 옴니 모델의 흔적이 유출되면서 기능이 미리 알려졌습니다.