내 컴퓨터를 직접 조종하는 AI? Gemini 3.5 Flash의 '컴퓨터 사용' 기능 공개

AI Summary

Google이 Gemini 3.5 Flash 모델에 사람처럼 컴퓨터를 직접 조작해 복잡한 업무를 자동화할 수 있는 '컴퓨터 사용(Computer Use)' 기능을 새롭게 추가했습니다.

상상해 보세요. 아침에 일어나서 AI에게 “오늘 내가 처리해야 할 회의 자료들을 관련 폴더에 정리하고, 주요 내용을 이메일 초안으로 써줘”라고 말합니다. 이전까지의 AI라면 내용을 요약하는 데 그쳤겠지만, 이제는 AI가 직접 마우스를 움직이고 창을 열어 파일을 옮기며 메일 작성창에 글을 입력하는 시대가 오고 있습니다. Google이 최근 발표한 Gemini 3.5 Flash의 ‘컴퓨터 사용(Computer Use)’ 기능이 바로 그 주인공입니다.

왜 중요한가요?

그동안 우리가 사용해 온 인공지능(AI)은 주로 ‘텍스트’나 ‘이미지’를 생성하는 데 머물러 있었습니다. 우리는 AI가 생성한 내용을 복사해서 직접 다른 프로그램에 붙여넣어야 했죠. 하지만 ‘컴퓨터 사용’ 기능이 도입되면 이야기가 완전히 달라집니다. AI가 도구(컴퓨터)를 직접 조작할 수 있다는 것은, 반복적이고 지루한 업무를 AI에게 완전히 맡길 수 있다는 뜻입니다.

비유하자면, 기존의 AI가 요리법을 아주 잘 알고 있는 ‘요리 평론가’였다면, 새로운 AI는 직접 주방에 들어가 칼을 잡고 불을 다루는 ‘셰프’가 된 것입니다. 기업 입장에서는 업무 효율이 비약적으로 향상되고, 개인에게는 복잡한 디지털 환경을 관리하는 유능한 개인 비서가 생기는 셈입니다. Source 1에 따르면, 이제 개발자와 기업들은 Gemini 3.5 Flash를 통해 이러한 에이전트를 직접 구축하고 운영할 수 있게 되었습니다.

쉽게 이해하기: AI가 마우스를 잡다

‘컴퓨터 사용’ 기능을 쉽게 말해서, AI가 컴퓨터 화면을 마치 사람의 눈처럼 ‘보고’, 마우스와 키보드를 ‘손’처럼 사용하여 명령을 수행하는 방식입니다. 이를 위해 AI는 브라우저를 제어하거나 모바일 및 데스크톱 앱을 조작하는 과정을 학습합니다.

거대한 디지털 퍼즐 조각을 사람이 일일이 마우스를 클릭하며 맞추지 않아도, AI가 순식간에 완성하는 것이죠. Source 2와 Source 4에 따르면, 이 기술은 AI 에이전트가 브라우저나 각종 소프트웨어를 넘나들며 사용자를 대신해 복잡한 작업을 자동화하도록 돕습니다.

현재 상황: 개발자를 위한 혁신

현재 Gemini 3.5 Flash의 이 혁신적인 기능은 개발자를 위한 API와 기업용 플랫폼인 ‘Gemini Enterprise Agent Platform’을 통해 제공되고 있습니다. Source 1, Source 3에 따르면, Google은 기업 수준에서 안심하고 사용할 수 있도록 새로운 안전 장치(Enterprise safeguards)도 함께 마련했습니다.

다만, 일반 사용자가 당장 PC 설정에서 ‘AI 모드’를 켜는 수준은 아닙니다. 주로 기업이나 서비스 개발자들이 자신들의 앱이나 업무 환경에 이 ‘똑똑한 일꾼’을 배치하는 단계라고 보시면 됩니다.

앞으로 어떻게 될까?

우리는 곧 AI가 단지 채팅창 안에 머무는 것이 아니라, 컴퓨터 운영체제(OS) 안에서 살아 움직이는 모습을 보게 될 것입니다. “쇼핑몰에서 최저가 상품 찾아 결제해줘”, “내가 자주 사용하는 3개의 앱을 조합해서 월간 보고서 초안을 만들어줘”와 같은 요구사항을 AI가 알아서 브라우저와 앱을 오가며 해결하는 세상이 다가오고 있습니다. Source 2는 이번 업데이트가 다양한 플랫폼을 아우르는 에이전트를 가능하게 할 것이라고 전망합니다.

MindTickleBytes의 AI 기자 시선

AI가 글을 쓰고 코드를 짜는 단계를 넘어 이제는 컴퓨터라는 ‘도구’를 직접 손에 쥐었습니다. 이는 인간의 디지털 업무 방식 자체가 완전히 재정의될 것임을 암시합니다. 우리가 마우스를 클릭하는 시간을 AI가 가져가 준다면, 우리 인간은 더 창의적이고 본질적인 고민에 집중할 수 있는 시간이 늘어나지 않을까요?

참고자료

Introducing computer use in Gemini 3.5 Flash

[Google’s Gemini 3.5 Flash can now build agents to operate across platforms

Seeking Alpha](https://seekingalpha.com/news/4606864-googles-gemini-3_5-flash-can-now-build-agents-to-operate-across-platforms)

[Gemini 3.5 Flash

Gemini Enterprise Agent Platform

Google Cloud Documentation](https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/3-5-flash)

[ComputerUse GeminiAPI Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)

Share this article:

이 글을 얼마나 이해했나요?

Q1. Gemini 3.5 Flash에 새로 추가된 '컴퓨터 사용' 기능은 무엇을 할 수 있나요?

AI가 직접 코딩만 수행함
브라우저와 데스크톱 앱을 직접 조작해 업무 자동화
사용자의 이메일만 관리함

컴퓨터 사용 기능은 AI가 브라우저나 앱을 직접 클릭하고 조작하여 복잡한 업무를 스스로 처리하도록 돕습니다.

Q2. 개발자들은 이 기능을 어디서 사용할 수 있나요?

Gemini API와 Gemini Enterprise Agent Platform
개인용 스마트폰 앱 설정
브라우저 설정 메뉴

개발자 및 기업은 Gemini API와 Gemini Enterprise Agent Platform을 통해 이 기능을 활용할 수 있습니다.

Q3. 이 기능의 주요 장점은 무엇인가요?

AI의 속도가 느려짐
플랫폼을 넘나드는 에이전트 구축 가능
인터넷 연결이 필요 없음

Gemini 3.5 Flash의 컴퓨터 사용 기능은 브라우저, 모바일, 데스크톱 등 다양한 플랫폼에서 작동하는 사용자 맞춤형 에이전트를 구축할 수 있게 합니다.