GoogleはGemini 3.5 Flashに、PC画面を認識し直接操作できる「コンピュータ使用」機能を標準搭載しました。これにより、より高速でスマートなAIエージェントの開発が可能になります。
想像してみてください。朝起きてコンピュータを開き、AIアシスタントにこう頼みます。「今日届いたメールから会議の日程を確認してカレンダーに登録し、会議に必要な資料を検索してまとめておいて」。かつてのAIは方法をテキストで教えてくれるだけでしたが、今は違います。AIがまるで人間のように目で画面を見て、マウスとキーボードを直接動かして業務を処理する時代が到来したのです。
Googleが最近発表した強力なアップデートが、この変化の中心にあります。Googleの次世代AIモデル「Gemini 3.5 Flash」に、「コンピュータ使用(Computer Use)」という能力が標準搭載されたのです 出典 1出典 3。
なぜこれが重要なのか?
これまでAIは、テキストの作成、コードの記述、画像の生成には長けていましたが、OSや特定のアプリ内でマウスをクリックしたりボタンを押したりといった「実際の行動」をとることには限界がありました。これを実現するには、別途複雑なプログラムを接続する必要がありました。
しかし、Gemini 3.5 Flashは自ら「コンピュータ操縦士」の資格を備えたことになります。開発者は複雑な中間プロセスなしに、Gemini単体で画面を分析し、理由を判断し、直接行動するAIエージェントを作れるようになったのです 出典 2出典 12。これは業務の生産性を根本から変える可能性があります。Excelのデータをウェブサイトに自動で転送したり、複雑なソフトウェアの設定を環境に合わせて最適化したりするような反復業務を、AIに完璧に任せることができるからです。
わかりやすく例える:比喩で見るAIの変化
こう例えてみましょう。これまでのAIが「賢い料理人」だったなら、それは厨房の中でレシピを確認したり、美味しい作り方を教えたり、食材の切り方を指導したりする程度のものでした。しかし、「コンピュータ使用」機能が加わったGemini 3.5 Flashは、料理人が自ら調理器具を手に取って料理を完成させるのと同じです。
Gemini 3.5 Flashは、Transformer(文中の単語間の関係を把握して文脈を理解するAI構造)技術を基盤として、画面上の要素をまるで文章の中の単語のように理解します。どこにボタンがあるか、どのメニューをクリックすべきかを画面情報から把握し、目標を達成するためにどの順序で操作すべきかを自ら判断するのです 出典 1。
現在の状況
現在、Gemini 3.5 Flashの操作レベルはかなり精巧です。「OSWorld-Verified」というコンピュータ使用性能評価において、78.4%という高いスコアを記録しました 出典 7。すでにSalesforce、Xero、Shopifyといったグローバル企業が、この技術を業務自動化に活用し始めています 出典 7。
もちろん、すべてが魔法のようにできるわけではありません。Googleは現在、この技術が特に大規模な事務自動化や、リアルタイムで画面データを分析して対応する必要がある状況(例:リアルタイムでの不正取引検知など)で強みを発揮すると説明しています 出典 9。誰でもGemini APIとGeminiエンタープライズ・エージェント・プラットフォームを通じて、今すぐこの機能を体験できます 出典 2。
今後はどう変わるのか?
Gemini 3.5 Flashは、単なるテキストを超え、AIが私たちの代わりに複雑なタスクを遂行する「エージェント時代」のために誕生しました 出典 5。今後は、複雑なソフトウェアの使い方を一つずつ習う代わりに、AIに目標を明確に伝えるだけで仕事が進むようになるでしょう。
Geminiはマルチステップの作業や反復的なコーディング作業など、長いプロセスが必要なタスクで特に頭角を現します 出典 5。近い将来、私たちがコンピュータの前に座って単純なクリックを繰り返す代わりに、コーヒーを飲みながら余裕を楽しんでいる間に、Geminiがコンピュータ画面の中で黙々と仕事を終わらせてくれる姿を日常的に見ることになるでしょう。
MindTickleBytesのAI記者視点
AIがついにデジタル世界の「手と足」を得たという点は、非常に重要な転換点です。AIは画面の向こう側の情報を眺める存在から脱却し、直接マウスを握って世界を動かすデジタルアシスタントになりました。この変化が私たちの日常や仕事のやり方をどれほど便利に、楽しく変えてくれるのか、これからの動向が非常に楽しみです。
参考資料
- Introducing computer use in Gemini 3.5 Flash - The Keyword
- Google Adds Computer Use as a Native Tool in Gemini 3.5 Flash
- Google adds built-in computer control to Gemini 3.5 flash …
- Gemini 3.5 Flash Gets Powerful Computer Use Features
-
[Gemini 3.5 Flash Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash) - Introducing computer use in Gemini 3.5 Flash - vuink.com
- Gemini 3.5 Flash integrates computer use for enhanced automation
- Computer use integrated into Gemini 3.5 Flash – The Bubble
- Exploring the Gemini 3.5 Flash Built-in Computer Use Tool - World Today News
- Google Gemini 3.5 Flash Gets Native Computer Use: AI Agent Controls Web, Mobile, Desktop - NPowerUser
- Google Introducing Computer Use In Gemini 3.5 Flash - Alphabet (NASDAQ:GOOGL), Alphabet (NASDAQ:GOOG) - Benzinga
- Gemini3.5Flashcan now see and control your screen, and Google…
- 別のモデルを使わずにコンピュータ使用機能が標準搭載された
- 新しいグラフィックデザインツールの追加
- 音声認識速度の2倍向上
- ウェブブラウザ専用
- モバイル専用
- ブラウザ、モバイル、デスクトップ環境すべてに対応
- 簡単な画像生成
- リアルタイム会話練習
- エージェントベースの複雑な作業遂行