구글 딥마인드가 사람처럼 웹사이트와 앱 화면을 보고 직접 클릭, 타이핑, 스크롤하며 작업을 수행하는 'Gemini 2.5 Computer Use' 모델을 공개했습니다.
AI가 내 컴퓨터를 직접 조작한다고? 구글의 새로운 ‘Gemini 2.5 Computer Use’ 모델 등장!
한번 상상해보세요. 여러분이 다음 달 친구들과 제주도 여행을 가려고 합니다. 평소라면 항공사 사이트 서너 곳을 들락날락하며 가격을 비교하고, 렌터카를 예약하고, 숙소까지 하나하나 정보를 입력해 결제해야 하죠. 복잡한 입력창을 채우고 버튼을 누르는 과정은 꽤 번거로운 일입니다.
하지만 이제 AI에게 “가장 저렴한 일정으로 항공권과 렌터카를 예약해줘”라고 말하기만 하면 됩니다. AI가 여러분 대신 브라우저를 열고, 화면을 ‘보고’, 적절한 버튼을 ‘클릭’하고, 날짜를 ‘입력’하며 모든 과정을 처리하는 것이죠. 마치 숙련된 비서가 내 옆에서 마우스를 대신 잡아주는 것과 같습니다.
구글 딥마인드(Google DeepMind)가 바로 이런 마법 같은 일을 현실로 만들어줄 새로운 인공지능 모델, ‘Gemini 2.5 Computer Use’를 공개했습니다 출처: Introducing the Gemini 2.5 Computer Use model - The Keyword.
이게 왜 중요한가요?
그동안 우리가 만났던 AI, 예를 들어 챗GPT나 기존의 제미나이(Gemini)는 주로 ‘말’을 잘하는 비서였습니다. 궁금한 것을 물어보면 답을 해주고, 긴 글을 요약해주는 식이었죠. 하지만 정작 우리가 컴퓨터로 하는 실제 작업들—이메일을 보내거나, 엑셀에 데이터를 입력하거나, 복잡한 웹사이트에서 정보를 찾는 일—은 여전히 우리 손으로 직접 해야 했습니다.
Gemini 2.5 Computer Use 모델의 등장은 AI가 단순히 ‘말하는 존재’에서 ‘행동하는 존재’로 진화했음을 의미합니다 출처: Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …. 전문 용어로는 이를 ‘에이전틱 AI(Agentic AI, 스스로 판단하고 행동하는 AI)’ 시대의 본격적인 시작이라고 부르기도 합니다 출처: Introducing-the-Gemini-20-our-new-AI-model-for-the-agentic-era.jpg.
이 모델이 우리의 디지털 생활을 바꿀 중요한 이유는 크게 세 가지입니다.
- 사람의 방식을 그대로 따라함: 별도의 복잡한 연결 통로인 API(소프트웨어 간의 대화 창구)가 없어도, 사람이 화면을 보고 조작하는 것처럼 모든 웹사이트와 앱을 자유자재로 다룰 수 있습니다 출처: Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI ….
- 반복 작업에서의 해방: 매일 아침 여러 사이트에 접속해 수치를 확인하고 보고서를 만드는 지루한 업무를 AI에게 완전히 맡길 수 있습니다.
- 진짜 ‘완결형 비서’의 탄생: 단순히 정보를 찾아주는 것을 넘어, 실제로 예약이나 구매, 데이터 정리까지 마무리해주는 든든한 파트너가 생기는 셈입니다 출처: Google News - News aboutGemini- Overview.
쉽게 이해하기: AI의 ‘눈’과 ‘손’
이 모델은 어떻게 사람처럼 컴퓨터를 조작할 수 있는 걸까요? 비유하자면 AI에게 아주 똑똑한 ‘눈’과 정교한 ‘손’이 생겼다고 이해하면 쉽습니다.
1. 시각적 이해: AI의 ‘눈’
이 모델은 Gemini 2.5 Pro 모델의 강력한 시각적 이해 능력을 바탕으로 만들어졌습니다 출처: Introducing The Gemini 2.5 Computer Use Model.
| 마치 우리가 처음 보는 복잡한 키오스크(Kiosk, 무인 단말기) 앞에 섰을 때를 생각해보세요. 우리는 설명서를 읽지 않아도 화면의 그림과 글자를 보고 ‘아, 이걸 누르면 주문이 되겠구나’라고 판단하죠. Gemini 2.5 Computer Use 모델도 똑같습니다. 화면의 스크린샷(Screenshot, 화면 캡처)을 실시간으로 분석하여 어디에 버튼이 있고, 어디에 글자를 입력해야 하는지 정확히 파악해냅니다 [출처: Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… | Fello AI](https://felloai.com/gemini-2-5-computer-use/). |
2. 추론과 행동: AI의 ‘손’
화면을 이해했다면 이제 행동할 차례입니다. 이 모델은 분석한 화면을 토대로 클릭, 타이핑(Typing, 글자 입력), 스크롤(Scroll, 화면 내리기) 같은 동작을 단계별로 수행합니다 출처: Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser….
| 예를 들어 로그인 화면을 만났을 때, 이 모델은 “먼저 아이디 칸을 클릭하고, 내 아이디를 입력한 뒤, 비밀번호 칸을 클릭하고…“와 같이 사람이 행동하는 순서를 논리적으로 짜서 실행합니다 출처: Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…. 에두아르도 로페즈(Eduardo López) 전문가는 이 모델이 “사람처럼 인터페이스와 상호작용하며 실시간으로 상황에 적응한다”고 평가했습니다 [출처: IntroducingtheGemini2.5ComputerUsemodel | Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N). |
쉽게 말해서, 기존의 AI가 옆에서 길을 알려주는 ‘지도 앱’이었다면, Gemini 2.5 Computer Use는 직접 운전대를 잡고 목적지까지 안전하게 차를 몰고 가는 ‘운전기사’와 같습니다.
현재 상황: 어디까지 왔나요?
현재 이 모델은 개발자들을 위한 공개 미리보기(Public Preview) 단계입니다 출처: Introducing the Gemini 2.5 Computer Use model - The Keyword. 즉, 일반 사용자가 지금 당장 버튼 하나로 사용할 수 있는 상태는 아니지만, 전 세계 개발자들이 이 기술을 이용해 혁신적인 앱이나 서비스를 만들 수 있도록 구글이 문을 열어준 것입니다 출처: Gemini 2.5 Computer Use Model Officially Introduced: Now Available as ….
주요 특징을 정리하자면 다음과 같습니다.
- 압도적인 성능: 웹 및 모바일 제어 성능을 측정하는 벤치마크(Benchmark, 성능 테스트)에서 경쟁 모델들보다 뛰어난 성적을 거두었습니다 출처: Introducing the Gemini 2.5 Computer Use model.
- 쾌적한 속도: 기존 모델보다 반응 속도가 더 빨라졌습니다. 즉, 레이턴시(Latency, 지연 시간)가 낮아져 실제 작업 흐름이 훨씬 자연스러워졌습니다 출처: Introducing the Gemini 2.5 Computer Use model.
- 놀라운 범용성: 특정 웹사이트뿐만 아니라 우리가 일상적으로 쓰는 모든 웹사이트와 모바일 앱에서 작동하도록 설계되었습니다 출처: FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in ….
물론 아직 넘어야 할 산도 있습니다. 구글이 공개한 모델 카드(Model Card, 모델의 상세 명세서)에 따르면, 아직은 몇 가지 기술적 한계가 존재하며 안전한 사용을 위한 가이드라인을 지켜야 합니다. 구글은 이를 지속적으로 개선해 나갈 계획이라고 밝혔습니다 출처: PDFGemini Computer Use External Model Card (October 7, 2025) - updated2.
앞으로 어떻게 될까?
이 모델의 등장은 우리가 디지털 기기를 다루는 문법 자체를 완전히 바꿔놓을 것입니다.
가까운 미래에는 복잡한 소프트웨어 사용법을 배우느라 머리를 싸매지 않아도 될지 모릅니다. 포토샵을 전혀 할 줄 몰라도 “이 사진에서 배경을 지우고 하늘을 더 파랗게 만들어줘”라고 말하면, AI가 알아서 포토샵의 도구들을 조작해 완벽한 결과물을 만들어줄 테니까요.
또한, 기업들은 고객 상담부터 복잡한 행정 처리까지 이 모델을 활용해 획기적으로 자동화할 수 있습니다. “내 주소지를 변경해줘”라는 고객의 요청이 들어오면, AI가 알아서 사내 시스템에 접속해 정보를 수정하는 식이죠 출처: Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI ….
이제 AI는 단순히 우리의 질문에 답하는 수준을 넘어, 우리의 손과 발이 되어 복잡한 디지털 세상을 대신 헤쳐나갈 준비를 마쳤습니다. 우리가 컴퓨터를 하나하나 조작하는 것이 아니라, AI에게 목적지만 말해주면 AI가 그 과정을 씩씩하게 수행하는 시대가 성큼 다가왔습니다.
MindTickleBytes의 AI 기자 시선
Gemini 2.5 Computer Use의 탄생은 AI가 뛰어난 ‘지능’뿐만 아니라 실질적인 ‘팔다리’까지 갖게 되었음을 상징합니다. 이제 우리에게 중요한 것은 “어떻게 조작할 것인가”가 아니라, AI에게 “무엇을 시킬 것인가”라는 질문입니다. 도구의 숙련도보다 ‘창의적인 목적’을 정의하는 능력이 더 가치 있어지는 시대, 여러분은 여러분의 AI 비서에게 어떤 일을 가장 먼저 맡기고 싶으신가요?
참고자료
- Introducing the Gemini 2.5 Computer Use model - The Keyword
-
[Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use) - Introducing The Gemini 2.5 Computer Use Model
- Introducing the Gemini 2.5 Computer Use model
- 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary …
- PDFGemini Computer Use External Model Card (October 7, 2025) - updated2
-
[IntroducingtheGemini2.5ComputerUsemodel Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N) - Google News - News aboutGemini- Overview
-
[Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/) - Google LaunchesGemini2.5ComputerUseModelfor Browser…
- How to Build AI Agents withGemini2.5ComputerUse(2025)
- Google’s new Gemini AI 2.5 Computer Use model can browse the web and …
- FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …
- Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …
- Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …
- Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …
- 사람처럼 화면을 보고 직접 클릭과 타이핑을 할 수 있다.
- 단순히 텍스트로 질문에 답만 한다.
- 오직 목소리로만 컴퓨터를 제어한다.
- Gemini 1.0 Pro
- Gemini 2.5 Pro
- Gemma 2
- 아직 아이디어 단계이다.
- 구글 내부에서만 사용 중이다.
- 개발자들을 위한 퍼블릭 프리뷰 단계로 공개되었다.