Google DeepMindが、人間のようにウェブサイトやアプリの画面を見て、直接クリック、タイピング、スクロールしながら作業を遂行する「Gemini 2.5 Computer Use」モデルを公開しました。
AIが私のコンピュータを直接操作する? Googleの新しい「Gemini 2.5 Computer Use」モデルが登場!
一度想像してみてください。来月、友達と旅行に行こうとしています。普段なら航空会社のサイトをいくつか回って価格を比較し、レンタカーを予約し、宿泊先まで一つ一つ情報を入力して決済しなければなりません。複雑な入力欄を埋めてボタンを押す過程は、かなり面倒な作業です。
しかしこれからは、AIに「一番安い日程で航空券とレンタカーを予約して」と言うだけで済みます。AIがあなたの代わりにブラウザを開き、画面を「見て」、適切なボタンを「クリック」し、日付を「入力」して、すべての過程を処理するのです。まるで熟練した秘書が隣でマウスを代わりに操作してくれるかのようです。
Google DeepMindは、まさにこのような魔法のようなことを現実にする新しい人工知能モデル、「Gemini 2.5 Computer Use」を公開しました 出典: Introducing the Gemini 2.5 Computer Use model - The Keyword。
なぜこれが重要なのでしょうか?
これまで私たちが出会ってきたAI、例えばChatGPTや既存のGeminiは、主に「話」が得意な秘書でした。疑問に答えたり、長い文章を要約したりするものでした。しかし、実際に私たちがコンピュータで行う作業――メールを送ったり、エクセルにデータを入力したり、複雑なウェブサイトで情報を探したりすること――は、依然として自分たちの手で行う必要がありました。
Gemini 2.5 Computer Useモデルの登場は、AIが単に「話す存在」から「行動する存在」へと進化したことを意味します 出典: Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …。専門用語では、これを「エージェンティックAI(Agentic AI、自ら判断して行動するAI)」時代の本格的な始まりと呼ぶこともあります 出典: Introducing-the-Gemini-20-our-new-AI-model-for-the-agentic-era.jpg。
このモデルが私たちのデジタルライフを変える重要な理由は、大きく分けて3つあります。
- 人間のやり方をそのまま模倣: 別途の複雑な接続経路であるAPI(ソフトウェア間の対話窓口)がなくても、人間が画面を見て操作するように、すべてのウェブサイトやアプリを自由自在に扱うことができます 出典: Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …。
- 反復作業からの解放: 毎朝いくつかのサイトにアクセスして数値を確認し、レポートを作成するような退屈な業務をAIに完全に任せることができます。
- 真の「完結型秘書」の誕生: 単に情報を探してくれるだけでなく、実際に予約や購入、データ整理まで締めくくってくれる心強いパートナーができることになります 出典: Google News - News aboutGemini- Overview。
簡単に理解する:AIの「目」と「手」
このモデルは、どのようにして人間のようにコンピュータを操作できるのでしょうか?例えるなら、AIに非常に賢い「目」と精巧な「手」ができたと理解するとわかりやすいです。
1. 視覚的理解:AIの「目」
このモデルは、Gemini 2.5 Proモデルの強力な視覚的理解能力をベースに作られました 出典: Introducing The Gemini 2.5 Computer Use Model。
| 私たちが初めて見る複雑なキオスク(Kiosk、無人端末)の前に立った時を考えてみてください。説明書を読まなくても画面の図や文字を見て「あ、これを押せば注文できるんだな」と判断しますよね。Gemini 2.5 Computer Useモデルも同じです。画面のスクリーンショットをリアルタイムで分析し、どこにボタンがあり、どこに文字を入力すべきかを正確に把握します [出典: Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… | Fello AI](https://felloai.com/gemini-2-5-computer-use/)。 |
2. 推論と行動:AIの「手」
画面を理解したら、次は行動の番です。このモデルは分析した画面をもとに、クリック、タイピング、スクロールといった動作を段階的に遂行します 出典: Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…。
| 例えばログイン画面に出会った時、このモデルは「まずユーザーID欄をクリックし、IDを入力した後、パスワード欄をクリックして……」といったように、人間が行動する順序を論理的に組み立てて実行します 出典: Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…。専門家のエドゥアルド・ロペス(Eduardo López)氏は、このモデルが「人間のようにインターフェースと相互作用し、リアルタイムで状況に適応する」と評価しています [出典: IntroducingtheGemini2.5ComputerUsemodel | Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)。 |
簡単に言うと、これまでのAIが横で道を教えてくれる「地図アプリ」だったなら、Gemini 2.5 Computer Useは自らハンドルを握って目的地まで安全に車を運転する「運転手」のようなものです。
現在の状況:どこまで来ていますか?
現在、このモデルは開発者向けの公開プレビュー(Public Preview)段階です 出典: Introducing the Gemini 2.5 Computer Use model - The Keyword。つまり、一般ユーザーが今すぐボタン一つで使用できる状態ではありませんが、世界中の開発者がこの技術を利用して革新的なアプリやサービスを作れるように、Googleが門戸を開いたのです 出典: Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …。
主な特徴をまとめると以下の通りです。
- 圧倒的なパフォーマンス: ウェブおよびモバイル制御の性能を測定するベンチマーク(性能テスト)で、競合モデルよりも優れた成績を収めました 出典: Introducing the Gemini 2.5 Computer Use model。
- 快適なスピード: 既存モデルよりも反応速度が速くなりました。つまり、レイテンシ(遅延時間)が低くなり、実際の作業フローがより自然になりました 出典: Introducing the Gemini 2.5 Computer Use model。
- 驚くべき汎用性: 特定のウェブサイトだけでなく、私たちが日常的に使うすべてのウェブサイトやモバイルアプリで作動するように設計されています 出典: FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …。
もちろん、まだ乗り越えるべき山もあります。Googleが公開したモデルカード(モデルの詳細仕様書)によると、まだいくつかの技術的な限界が存在し、安全な使用のためのガイドラインを守る必要があります。Googleはこれを継続的に改善していく計画だと明らかにしました 出典: PDFGemini Computer Use External Model Card (October 7, 2025) - updated2。
今後はどうなる?
このモデルの登場は、私たちがデジタル機器を扱う作法そのものを完全に変えてしまうでしょう。
近い将来、複雑なソフトウェアの使い方を学ぶために頭を抱える必要はなくなるかもしれません。フォトショップが全くできなくても、「この写真から背景を消して空をもっと青くして」と言えば、AIが勝手にフォトショップのツールを操作して完璧な仕上がりにしてくれるからです。
また、企業は顧客相談から複雑な事務処理まで、このモデルを活用して画期的に自動化できます。「住所を変更してほしい」という顧客の要望があれば、AIが自ら社内システムにアクセスして情報を修正するといった形です 出典: Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …。
今やAIは単に私たちの質問に答えるレベルを超え、私たちの手足となって複雑なデジタル世界を代わりに切り拓く準備を整えました。私たちがコンピュータを一つ一つ操作するのではなく、AIに目的地だけを伝えれば、AIがその過程を力強く遂行する時代がすぐそこまで来ています。
MindTickleBytesのAI記者の視点
Gemini 2.5 Computer Useの誕生は、AIが優れた「知能」だけでなく、実質的な「手足」まで備えたことを象徴しています。今、私たちにとって重要なのは「どう操作するか」ではなく、AIに「何をさせるか」という問いです。ツールの熟練度よりも「創造的な目的」を定義する能力がより価値を持つ時代、あなたはあなたのAI秘書にどんな仕事を真っ先に任せたいですか?
参考資料
- Introducing the Gemini 2.5 Computer Use model - The Keyword
-
[Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use) - Introducing The Gemini 2.5 Computer Use Model
- Introducing the Gemini 2.5 Computer Use model
- 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary …
- PDFGemini Computer Use External Model Card (October 7, 2025) - updated2
-
[IntroducingtheGemini2.5ComputerUsemodel Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N) - Google News - News aboutGemini- Overview
-
[Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/) - Google LaunchesGemini2.5ComputerUseModelfor Browser…
- How to Build AI Agents withGemini2.5ComputerUse(2025)
- Google’s new Gemini AI 2.5 Computer Use model can browse the web and …
- FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …
- Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …
- Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …
- Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …
- 人間のように画面を見て直接クリックやタイピングができる。
- 単にテキストで質問に答えるだけである。
- 音声のみでコンピュータを制御する。
- Gemini 1.0 Pro
- Gemini 2.5 Pro
- Gemma 2
- まだアイデア段階である。
- Google内部でのみ使用中である。
- 開発者向けのパブリックプレビュー段階として公開された。