내 PC를 직접 조종하는 AI 비서? 스크린샷 없이 '도면'을 읽는 비결

컴퓨터 회로와 소프트웨어 창이 연결되어 AI가 정교하게 조종하는 모습을 형상화한 이미지
AI Summary

스크린샷이나 이미지 분석 없이 컴퓨터의 '접근성 트리'를 이용해 AI가 앱을 직접 조종하는 새로운 도구, Agent-desktop이 공개되었습니다.

들어가는 글: AI 비서가 내 컴퓨터를 ‘진짜’ 이해하기 시작했습니다

상상해보세요. 여러분이 AI 비서에게 “지난달 가계부 엑셀 파일을 열어서 이번 달 카드 명세서랑 비교해줘”라고 부탁합니다. 지금까지의 AI는 이 일을 하기 위해 화면을 한 장 한 장 캡처하고, 그 사진 속에서 엑셀 버튼이 어디 있는지, 숫자가 무엇인지 ‘눈(컴퓨터 비전)’으로 찾아내야 했습니다.

비유하자면, 마치 안개가 자욱한 미로 속에서 아주 작은 손전등 하나에 의지해 출구를 찾는 것과 같았습니다. AI가 매번 화면을 스캔하고 분석하느라 시간도 오래 걸리고, 실수도 잦았죠. 하지만 이제 AI가 안개를 걷어내고 컴퓨터의 ‘설계도’를 직접 읽으며 작업할 수 있는 길이 열렸습니다. 바로 Agent-desktop이라는 혁신적인 기술 덕분입니다. Show HN: Agent-desktop - Native desktop automation CLI for AI agents

이게 왜 중요한가요?

우리가 매일 사용하는 컴퓨터 프로그램들은 웹사이트와는 구조가 완전히 다릅니다. 웹사이트는 AI가 읽기 쉬운 코드로 투명하게 공개되어 있지만, 내 PC에 설치된 한글, 엑셀, 포토샵 같은 프로그램들은 AI가 그 속을 들여다보기가 매우 까다롭습니다.

기존의 AI 에이전트(AI Agent, 스스로 판단하고 행동하는 AI 프로그램)들이 내 PC를 조종하려면 화면 이미지를 분석해야 했는데, 이는 세 가지 큰 골칫거리를 안고 있었습니다.

  1. 느린 속도: 고화질 화면 캡처 이미지를 분석하는 데는 상당한 시간이 소요됩니다. 마치 책 전체를 사진 찍어 글자를 하나씩 판독하는 식이죠.
  2. 낮은 정확도: 다른 창이 버튼을 살짝 가리거나, 윈도우 테마를 바꿔서 아이콘 모양이 조금만 변해도 AI는 금세 길을 잃고 당황합니다.
  3. 높은 비용: 화면을 눈으로 보려면 비싼 ‘인공지능 비전 모델(Vision Model)’을 계속 가동해야 하며, 이는 막대한 연산 능력과 비용을 소모합니다.
Agent-desktop은 이 문제를 완전히 다른 방식으로 해결합니다. 화면을 겉에서 ‘보는’ 대신, 컴퓨터 운영체제가 이미 내부적으로 가지고 있는 ‘정보의 지도’를 직접 읽는 방식을 택한 것입니다. [DesktopCtl Desktop Control for AI agents](https://desktopctl.com/)

쉽게 이해하기: ‘눈먼 비서’를 위한 점자 지도가 AI의 무기가 되다

이 기술의 핵심은 접근성 트리(Accessibility Tree)라는 다소 생소한 시스템입니다. GitHub - ericclemmons/agent-native

원래 접근성 트리는 시각장애인을 돕기 위해 만들어졌습니다. 화면을 볼 수 없는 분들을 위해 컴퓨터 운영체제(OS)는 현재 화면에 어떤 버튼이 있고, 어떤 글자가 쓰여 있는지를 보이지 않는 구조적인 지도로 정리해둡니다. 화면 낭독기(Screen Reader)는 이 지도를 읽어 사용자에게 음성으로 안내하죠.

Agent-desktop은 AI에게 바로 이 ‘점자 지도’를 쥐여준 셈입니다.

  • 비유하면 이렇습니다: 기존 방식이 복잡한 미로 속에서 눈을 뜨고 헤매며 길을 찾는 것이라면, Agent-desktop 방식은 미로의 전체 설계도를 손에 쥐고 목적지로 곧장 순간 이동하는 것과 같습니다.

이렇게 ‘설계도’를 직접 읽으면 AI는 화면에 무엇이 떠 있는지 스크린샷을 찍지 않고도 앱의 구조를 100% 정확하게 파악할 수 있습니다. GitHub - lahfir/agent-desktop

Agent-desktop의 주요 특징: 작지만 강력한 AI의 정밀한 손

이 도구는 개발자들 사이에서 ‘가장 효율적인 AI 비서의 손’으로 평가받기 시작했습니다. 구체적인 특징은 다음과 같습니다.

1. 엄청나게 빠르고 가볍습니다 (작은 고추가 맵다!)

이 프로그램은 Rust(러스트)라는 매우 빠르고 안정적인 최신 프로그래밍 언어로 제작되었습니다. agent-desktop 전체 설치 파일의 크기는 약 15MB에 불과합니다. 비유하자면, 스마트폰으로 찍은 고화질 사진 2~3장 정도의 무게밖에 안 되는 셈이죠. 설치가 매우 간편하며, 복잡한 부속 프로그램 없이도 즉시 작동합니다. Show HN: Agent-desktop - Native desktop automation CLI for AI agents

2. AI가 이해하기 쉬운 언어(JSON)로 대화합니다

AI가 “지금 화면에 뭐가 떠 있어?”라고 물으면, Agent-desktop은 컴퓨터만 알아듣는 복잡한 전기 신호 대신 JSON(제이슨)이라는 형식을 사용합니다. 쉽게 말해서, 마치 잘 정리된 ‘영수증 명단’이나 ‘목차’처럼 구조화된 데이터 형식으로 답변을 주는 것입니다. Agent-Desktop: AI Automation CLI for Desktops - PromptZone 덕분에 AI는 훨씬 명확하게 상황을 판단하고 행동할 수 있습니다.

3. 못 하는 게 없는 53가지 만능 재주

이 도구는 클릭 한 번부터 창 관리까지 총 53개의 정교한 명령어를 갖추고 있습니다. Show HN: Agent-desktop - Native desktop automation CLI for AI agents AI는 이 명령어들을 조합해 여러분의 PC에서 다음과 같은 일들을 척척 해냅니다. agent-desktop | Agents AI Agent Skill | SkillsCat

  • 수많은 버튼과 체크박스를 정확히 찾아 누르기
  • 사람처럼 텍스트 입력창에 글자 타이핑하기
  • 복잡한 프로그램의 메뉴를 막힘없이 탐색하기
  • 파일을 드래그 앤 드롭(끌어서 놓기)으로 옮기기
  • 클립보드에 복사된 내용을 읽거나 새로운 내용 쓰기
  • 실행 중인 여러 개의 창을 열고 닫고 크기 조절하기

현재 상황: 우리 곁으로 다가온 ‘진짜’ 로컬 AI

현재 Agent-desktop은 윈도우(Windows), 맥(macOS), 리눅스(Linux) 등 우리가 쓰는 거의 모든 컴퓨터 환경에서 사용할 수 있는 ‘크로스 플랫폼’ 도구로 완성되었습니다. Show HN: Agent-desktop - Native desktop automation CLI for AI agents 이미 전 세계의 많은 AI 개발자가 자신의 AI 에이전트에 이 정밀한 ‘손’을 달아주고 있습니다. [Agent Desktop - Desktop Automation CLI for AI Agents EveryDev.ai](https://www.everydev.ai/tools/agent-desktop)
실제로 Goose와 같은 오픈 소스 AI 에이전트는 사용자의 컴퓨터 안에서 직접 파일을 수정하고 앱을 다루기 위해 이러한 기술을 적극적으로 활용하고 있습니다. [goose Your open source AI agent](https://goose-docs.ai/) 또한 구글의 Gemini CLI 역시 터미널 환경에서 우리 PC의 도구들을 직접 활용해 버그를 수정하는 등 복잡한 실무를 수행하는 방향으로 진화하고 있죠. [Gemini CLI Gemini Code Assist Google for Developers](https://developers.google.com/gemini-code-assist/docs/gemini-cli)

물론 모든 앱이 ‘접근성 트리’를 완벽하게 제공하지는 않는다는 숙제도 남아 있습니다. 하지만 우리가 흔히 쓰는 사무용 소프트웨어나 시스템 설정 앱들은 이미 이 방식으로 완벽하게 제어할 수 있는 수준에 도달했습니다. Agent Desktop — AI Skill — Termo

앞으로 어떻게 될까? (상상해보세요)

이런 도구들이 보편화되면, 우리가 컴퓨터를 대하는 태도가 완전히 바뀔 것입니다. Accio Work - Local-First Desktop AI Agent That Turns Ideas Into Profits

한번 상상해보세요. 월요일 아침, 여러분은 커피 한 잔을 마시며 AI에게 이렇게 말합니다. “지난주에 온 이메일들 중에서 영수증만 다 골라내서 엑셀 파일로 정리해줘. 그리고 그 파일을 ‘5월 지출’ 폴더에 저장하고 팀장님께 메신저로 보내줘.”

그러면 AI는 Agent-desktop이라는 강력한 도구를 이용해 이메일 앱을 열어 영수증을 찾고, 엑셀을 실행해 표를 만들고, 파일 탐색기를 통해 파일을 옮기는 일련의 과정을 순식간에 끝마칠 것입니다.

무엇보다 중요한 것은 이 모든 과정이 내 데이터를 외부 서버에 올리지 않고, 내 컴퓨터 안에서(Local) 안전하고 빠르게 이루어진다는 점입니다. 진정한 의미의 ‘개인 비서’ 시대가 우리 코앞까지 다가왔습니다. Agent-Desktop: AI Automation CLI for Desktops - PromptZone

AI의 시선: MindTickleBytes AI 기자 시선

그동안 AI 에이전트가 데스크톱 앱을 다루는 방식은 마치 두꺼운 벙어리장갑을 끼고 정밀 수술을 시도하는 것처럼 둔탁하고 답답했습니다. 하지만 Agent-desktop은 AI에게 아주 날카롭고 정밀한 ‘수술 도구’를 쥐여준 것과 같습니다.

특히 보안이 민감한 시대에 내 화면을 클라우드 서버에 전송할 필요 없이 로컬에서 모든 자동화가 처리된다는 점은 매우 고무적인 변화입니다. 앞으로는 ‘어떤 AI가 더 똑똑한가’를 넘어, ‘어떤 AI가 내 컴퓨터의 도구들을 더 빠르고 정확하게 다루는가’가 핵심적인 경쟁력이 될 것입니다. AI가 드디어 우리의 PC라는 거대한 기계를 조종하는 ‘진짜 조종석’에 앉게 된 셈입니다.

참고자료

  1. GitHub - lahfir/agent-desktop: Native desktop automation CLI for AI agents. Control any application through OS accessibility trees with structured JSON output and deterministic element refs. · GitHub
  2. [DesktopCtl Desktop Control for AI agents](https://desktopctl.com/)
  3. Agent Desktop — AI Skill — Termo
  4. GitHub - ericclemmons/agent-native: macOS native app automation CLI for AI agents · GitHub
  5. agent-desktop
  6. [goose Your open source AI agent](https://goose-docs.ai/)
  7. agent-desktop - MCP Store
  8. Accio Work - Local-First Desktop AI Agent That Turns Ideas Into Profits
  9. [Gemini CLI Gemini Code Assist Google for Developers](https://developers.google.com/gemini-code-assist/docs/gemini-cli)
  10. Show HN: Agent-desktop - Native desktop automation CLI for AI agents …
  11. Agent-Desktop: AI Automation CLI for Desktops - PromptZone
  12. [Agent Desktop - Desktop Automation CLI for AI Agents EveryDev.ai](https://www.everydev.ai/tools/agent-desktop)
  13. [agent-desktop Agents AI Agent Skill SkillsCat](https://skills.cat/skills/lahfir/agent-desktop/agent-desktop)
이 글을 얼마나 이해했나요?
Q1. Agent-desktop이 앱을 조종할 때 화면 이미지 대신 사용하는 것은 무엇인가요?
  • 웹 브라우저
  • 접근성 트리(Accessibility Tree)
  • 마우스 매크로
Agent-desktop은 OS의 접근성 트리를 통해 앱의 구조를 파악하므로 스크린샷이나 시각적 분석이 필요 없습니다.
Q2. Agent-desktop은 어떤 프로그래밍 언어로 제작되었나요?
  • Python
  • JavaScript
  • Rust
이 도구는 성능과 안정성을 위해 Rust 언어로 개발되었습니다.
Q3. 이 도구가 제공하는 조종 명령은 총 몇 가지인가요?
  • 10가지
  • 53가지
  • 100가지
Agent-desktop은 클릭, 입력, 창 관리 등 총 53개의 명령어를 제공합니다.
내 PC를 직접 조종하는 AI 비서? 스크린샷 없...
0:00