내 컴퓨터를 직접 조종하는 AI? 구글 제미나이 3.5 플래시가 달라졌습니다

구글 제미나이 AI가 컴퓨터 화면을 보고 마우스와 키보드를 조작하는 모습을 형상화한 이미지
AI Summary

구글이 제미나이 3.5 플래시에 컴퓨터 화면을 보고 직접 조작할 수 있는 '컴퓨터 사용' 기능을 기본 탑재하여, 더 빠르고 스마트한 AI 에이전트 개발이 가능해졌습니다.

상상해보세요. 아침에 일어나 컴퓨터를 켰는데, AI 비서에게 이런 부탁을 합니다. “오늘 내 이메일에서 회의 일정을 확인해서 캘린더에 등록하고, 그 회의에 필요한 자료들을 검색해서 정리해줘.” 예전의 AI는 방법만 텍스트로 알려주었지만, 이제는 다릅니다. AI가 마치 사람처럼 눈으로 화면을 보고 마우스와 키보드를 직접 움직여 업무를 처리하는 시대가 열렸습니다.

구글이 최근 발표한 강력한 업데이트가 바로 이 변화의 중심에 있습니다. 구글의 차세대 AI 모델인 ‘제미나이 3.5 플래시(Gemini 3.5 Flash)’에 ‘컴퓨터 사용(Computer Use)’이라는 능력이 기본으로 탑재된 것입니다 출처 1출처 3.

이게 왜 중요한가요?

지금까지 AI는 텍스트를 작성하고, 코드를 짜고, 이미지를 생성하는 데는 탁월했지만, 컴퓨터 운영체제나 특정 앱 안에서 직접 마우스를 클릭하거나 버튼을 누르는 등 ‘실제 행동’을 하는 데는 한계가 있었습니다. 이를 구현하려면 별도의 복잡한 프로그램을 따로 연결해야 했죠.

하지만 이제 제미나이 3.5 플래시는 스스로 ‘컴퓨터 조종사’ 자격증을 갖춘 셈입니다. 개발자들은 이제 복잡한 중간 과정 없이 제미나이 하나만으로 화면을 분석하고, 이유를 판단하며, 직접 행동하는 AI 에이전트를 만들 수 있게 되었습니다 출처 2출처 12. 이는 업무의 생산성을 완전히 뒤바꿀 수 있습니다. 엑셀 데이터를 웹사이트에 자동으로 옮기거나, 복잡한 소프트웨어의 설정을 환경에 맞춰 최적화하는 등의 반복 업무를 AI에게 완벽하게 맡길 수 있기 때문입니다.

쉽게 이해하기: 비유로 보는 AI의 변화

이렇게 비유해볼까요? 지금까지의 AI가 ‘똑똑한 요리사’였다면, 그저 주방 안에서 레시피를 확인하거나 맛있는 요리법을 알려주고, 재료 손질법을 지도해주는 정도였습니다. 하지만 ‘컴퓨터 사용’ 기능이 더해진 제미나이 3.5 플래시는 요리사가 직접 주방 기구를 손에 잡고 요리를 완성하는 것과 같습니다.

제미나이 3.5 플래시는 트랜스포머(Transformer, 문장의 단어들 사이 관계를 파악하여 맥락을 이해하는 AI 구조) 기술을 기반으로, 화면의 요소를 마치 문장 속의 단어처럼 이해합니다. 어디에 버튼이 있는지, 어떤 메뉴를 클릭해야 하는지를 화면 정보를 통해 파악하고, 목표를 달성하기 위해 어떤 순서로 조작할지 스스로 판단하는 것이죠 출처 1.

현재 상황은 어떤가요?

현재 제미나이 3.5 플래시의 조작 수준은 꽤나 정교합니다. ‘OSWorld-Verified’라는 컴퓨터 사용 성능 평가에서 78.4%의 높은 점수를 기록했습니다 출처 7. 이미 세일즈포스(Salesforce), 제로(Xero), 쇼피파이(Shopify)와 같은 글로벌 기업들이 이 기술을 업무 자동화에 활용하기 시작했습니다 출처 7.

물론 모든 마법을 부릴 수 있는 것은 아닙니다. 구글은 현재 이 기술이 특히 대규모 사무 자동화나 실시간으로 화면 데이터를 분석하여 대응해야 하는 상황(예: 실시간 부정 거래 감지 등)에서 큰 강점을 보인다고 설명합니다 출처 9. 누구나 제미나이 API와 제미나이 엔터프라이즈 에이전트 플랫폼을 통해 지금 바로 이 기능을 경험해볼 수 있습니다 출처 2.

앞으로 어떻게 변할까요?

제미나이 3.5 플래시는 단순히 텍스트를 넘어, AI가 우리 대신 복잡한 과업을 수행하는 ‘에이전트 시대’를 위해 탄생했습니다 출처 5. 앞으로 우리는 복잡한 소프트웨어 사용법을 하나하나 배우는 대신, AI에게 목표만 명확히 던져주는 방식으로 일하게 될 것입니다.

제미나이는 다단계 작업이나 반복적인 코딩 작업 등 긴 호흡이 필요한 과업에서 특히 두각을 나타냅니다 출처 5. 머지않은 미래에는 우리가 컴퓨터 앞에 앉아 단순 클릭을 반복하는 대신, 커피를 마시며 여유를 즐기는 사이 제미나이가 내 컴퓨터 화면 안에서 묵묵히 일을 끝내놓는 모습을 흔히 보게 될 것입니다.

MindTickleBytes의 AI 기자 시선

AI가 드디어 디지털 세계의 ‘손과 발’을 얻었다는 점은 매우 중요한 전환점입니다. 이제 AI는 화면 너머의 정보를 보는 존재에서 벗어나, 직접 마우스를 잡고 세상을 움직이는 디지털 비서가 되었습니다. 이러한 변화가 우리의 일상과 업무 방식을 얼마나 더 편리하고 즐겁게 만들어줄지, 앞으로의 행보가 무척 기대됩니다.

참고자료

  1. Introducing computer use in Gemini 3.5 Flash - The Keyword
  2. Google Adds Computer Use as a Native Tool in Gemini 3.5 Flash
  3. Google adds built-in computer control to Gemini 3.5 flash …
  4. Gemini 3.5 Flash Gets Powerful Computer Use Features
  5. [Gemini 3.5 Flash Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash)
  6. Introducing computer use in Gemini 3.5 Flash - vuink.com
  7. Gemini 3.5 Flash integrates computer use for enhanced automation
  8. Computer use integrated into Gemini 3.5 Flash – The Bubble
  9. Exploring the Gemini 3.5 Flash Built-in Computer Use Tool - World Today News
  10. Google Gemini 3.5 Flash Gets Native Computer Use: AI Agent Controls Web, Mobile, Desktop - NPowerUser
  11. Google Introducing Computer Use In Gemini 3.5 Flash - Alphabet (NASDAQ:GOOGL), Alphabet (NASDAQ:GOOG) - Benzinga
  12. Gemini3.5Flashcan now see and control your screen, and Google…
이 글을 얼마나 이해했나요?
Q1. 이번 업데이트로 제미나이 3.5 플래시에 추가된 가장 큰 변화는 무엇인가요?
  • 별도의 모델 없이 컴퓨터 사용 기능이 기본 탑재됨
  • 새로운 그래픽 디자인 툴 추가
  • 음성 인식 속도 2배 향상
구글은 컴퓨터 사용 기능을 제미나이 3.5 플래시 안에 직접 통합하여, 개발자가 별도의 독립 모델을 사용할 필요가 없도록 개선했습니다.
Q2. 제미나이 3.5 플래시의 컴퓨터 사용 기능은 어떤 환경을 지원하나요?
  • 웹 브라우저 전용
  • 모바일 전용
  • 브라우저, 모바일, 데스크톱 환경 모두 지원
제미나이 3.5 플래시는 웹, 모바일, 데스크톱 환경을 아우르는 전방위적인 조작 능력을 갖추었습니다.
Q3. 제미나이 3.5 플래시가 설계된 주요 목적은 무엇인가요?
  • 간단한 이미지 생성
  • 실시간 대화 연습
  • 에이전트 기반의 복잡한 작업 수행
제미나이 3.5 플래시는 에이전트 시대를 맞아 다단계 워크플로우, 복잡한 코딩 반복 작업 등 실질적인 과업을 빠르게 처리하도록 설계되었습니다.
내 컴퓨터를 직접 조종하는 AI? 구글 제미나이 ...
0:00