グーグルが人間のようにウェブブラウザやモバイルアプリを直接操作できる「Gemini 2.5 Computer Use」モデルをリリースし、真のAIエージェント時代を切り拓きました。
想像してみてください。非常に複雑な海外ホテルの予約サイトで、10軒の宿泊施設を一つひとつ比較し、それぞれの厳しいキャンセル規定を確認した後、最も安い場所を選んで予約フォームを入力しなければならないとしましょう。考えただけでも目が疲れる作業です。そんな時、隣で「私が代わりにやりましょうか?」と尋ねてくれる賢い秘書がいたらどうでしょうか。その秘書は、皆さんが行うように画面をじっと見つめ、マウスを動かしてボタンをクリックし、キーボードで正確に情報を入力します。
これはもはや遠い未来の映画の話ではありません。グーグルが2025年10月7日、まるで人間のようにコンピュータやモバイルを直接操作できる新しい人工知能、「Gemini 2.5 Computer Use」モデルを電撃公開したからです Gemini 2.5 Computer Useモデルの紹介 - The Keyword。
なぜ重要なのでしょうか?
これまで私たちが使用してきたAI(人工知能)は、主に「言葉」や「文章」だけでコミュニケーションをとる存在でした。質問を投げかれば答えを出し、長い文章を要約してくれるといった具合です。しかし、実際に私たちがコンピュータで仕事をする際には、単純な対話よりも、無数のクリックやスクロール、そしてタイピングがはるかに多く必要になります。
従来の方法でAIに特定のサービスを利用させるには、ソフトウェア開発者があらかじめ用意した専用の通路であるAPI(Application Programming Interface、プログラム間の対話窓口)が不可欠でした。例えるなら、AIが建物の中に入るためには、専用の「裏口」が設置されていなければならなかったわけです。しかし、世の中のすべてのウェブサイトやアプリがAIのために専用の裏口を開けているわけではありません。
ここでGemini 2.5 Computer Useモデルの真価が発揮されます。このモデルは、プログラムの裏口(API)を探す代わりに、私たちの目に見えるGUI(Graphical User Interface、ボタンやアイコンがあるグラフィック画面)を直接利用します Gemini 2.5 Computer Useモデルの紹介。つまり、AIと人間の間の長年の障壁であった「デジタルコミュニケーション方式の違い」を技術的に克服したのです Gemini 2.5 Computer Useモデル:AIのデジタル器用さにおけるパラダイムシフト…。今やAIは、人間のために作られた「正門」を通じて、堂々とコンピュータの世界を行き来できるようになりました。
簡単に理解する:AIに「目」と「手」ができました
この新しいモデルを分かりやすく理解するために、AIを「デジタル運転手」に例えてみましょう。
-
視覚的理解(目): 従来のAIがナビゲーションデータ(テキストデータ)だけを見て道を探していたのに対し、Gemini 2.5 Computer Useは直接フロントガラス(スクリーンショット)を通して道路状況を見ます。このモデルは、グーグルの最も強力なモデルの一つである「Gemini 2.5 Pro」の優れた視覚認識能力をそのまま継承しています Gemini 2.5 Computer Useモデルの紹介。画面をリアルタイムでキャプチャし、どこにボタンがあり、今どのようなポップアップウィンドウが表示されているかを、人間のように正確に把握します [Gemini 2.5 ‘Computer Use’: このモデルはあなたを自動化できるか… Fello AI](https://felloai.com/gemini-2-5-computer-use/)。 -
推論および実行(手): 画面を見たら、次は動く番です。AIは「このボタンをクリックして」、「ここに名前をタイピングして」といった具体的な動作命令を自ら下します [Googleが人間のようにクリック・タイピング・スクロールするGemini 2.5 Computer Useを公開 Beebom](https://beebom.com/google-unveils-gemini-2-5-computer-use-that-clicks-types-scrolls-like-humans/)。簡単に言えば、AIがマウスを握り、キーボードを叩く手を手に入れたということです。現在、このモデルはクリック、タイピング、スクロール、画面移動などを含む計13種類の具体的な動作を巧みにこなすことができます 自動化できる13の不可欠なGemini 2.5 Computer Useアクション…。
| 結局、私たちがマウスとキーボードで行うほぼすべての複雑な作業を、AIが目で見て同じように再現できる時代が来たのです [Gemini 2.5 Computer Useモデルの紹介 | Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)。 |
現状:どこまで来ているのか?
グーグルは、このモデルがウェブブラウザやAndroidモバイル環境において、他の競合モデルを圧倒するパフォーマンスを発揮すると自信を見せています Gemini 2.5 Computer Useモデルの紹介 - The Keyword。実際、正確さと速度の面で高い評価を受けており、複雑なウェブサイトを探索する必要があるカスタマーサービスボットや、自動ソフトウェアテストの分野で即座に変化をもたらすと見られています GoogleのGemini 2.5 Computer Useモデルがデジタルインタフェースを制御する…。
| 現在、この技術はグーグル内部で「プロジェクト・マリナー(Project Mariner)」という名前で開発中の次世代エージェント機能の核となる動力として使用されています ‘Gemini 2.5 Computer Use’は強力なウェブ、Androidパフォーマンスを備える。また、世界中の開発者が自分のアプリやサービスにこの魔法のような機能を組み込めるよう、API形式での提供も開始されました [Computer Use | Gemini API | Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)。 |
興味深い点は、グーグルがこのモデルを発表したタイミングが、ライバルであるOpenAIが新しいChatGPT機能を披露した直後であるという点です GoogleがOpenAIのエージェントに対抗してGemini 2.5 Computer Useをローンチ…。AI業界の巨人たちが、今や「話のうまいAI」を超え、「コンピュータを使いこなすAI」へと真剣勝負を始めたことが伺えます。
今後どうなるのか?
専門家は、このモデルが「真のデジタル自律性」に向けた大きな飛躍であると評価しています Gemini 2.5 Computer Useモデル:AIのデジタル器用さにおけるパラダイムシフト…。
遠くない未来、私たちはAIにこのような命令を下すことになるかもしれません。 「先月の家計簿を整理してエクセルに書き出し、通信費の滞納があれば探して支払っておいて。」 するとAIは銀行アプリにログインし、エクセルを起動してデータを入力し、通信会社のホームページにアクセスして支払いボタンを押すでしょう。皆さんは、AIが働く様子を画面で見守りながら、一杯のコーヒーを楽しむだけでよいのです Googleニュース - Geminiに関するニュース - 概要
もちろん、まだ初期段階であるため、セキュリティや正確性についての懸念があるかもしれませんが、AIが人間の「道具」を直接扱い始めたという事実だけでも、私たちのデジタルライフはすでに巨大な変化の波に乗っています。
AIの視点(MindTickleBytesのAI記者の視点)
人間のために設計された複雑なデジタルの世界を、AIが自ら切り拓いていけるようになった点は非常に心強いものです。これは単なる自動化を超え、AIが人間の物理的な労力を肩代わりしてくれる真の「エージェント(代理人)」へと進化していることを意味します。今後、「コンピュータができること」の定義が、「AIに仕事をさせる方法を知っていること」へと変わるかもしれませんね。
参考資料
- Introducing the Gemini 2.5 Computer Use model - The Keyword
-
[Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use) - Introducing The Gemini 2.5 Computer Use Model
- 2025 Complete Guide: Gemini 2.5 Computer Use Model …
- Introducing The Gemini 2.5 Computer Use Model …
- Google’s Gemini 2.5 Computer Use Model Takes Control of …
- Gemini 2.5 Computer Use Model: A Paradigm Shift in AI’s …
-
[Introducing the Gemini 2.5 Computer Use model Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N) - Google News - News about Gemini - Overview
-
[Gemini 2.5 ‘Computer Use’: Can This Model Automate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/) - Introducing the Gemini 2.5 Pc Use mannequin - TechStreet
- 13 Essential Gemini 2.5 Computer Use Actions You Can Automate…
-
[Google Unveils Gemini 2.5 Computer Use That Clicks… Beebom](https://beebom.com/google-unveils-gemini-2-5-computer-use-that-clicks-types-scrolls-like-humans/) - ‘Gemini 2.5 Computer Use’ has strong web, Android performance
- Google DeepMind Launches Gemini 2.5 Computer Use Model to …
- Google launches Gemini 2.5 Computer Use to rival OpenAI …
- Gemini 1.5 Flash
- Gemini 2.5 Pro
- Gemini 1.0 Ultra
- ウェブサイトの複雑なコード(API)を直接ハッキングする。
- 人間があらかじめ入力したコマンドのみで作動する。
- スクリーンショットを分析してクリックやタイピングなどの動作を実行する。
- 5種類
- 13種類
- 100種類