AIが自分のPC画面を見て代わりに仕事をしてくれる？アリババ「Qwen3.7-Plus」の登場

AI Summary

アリババが2026年6月にリリースしたQwen3.7-Plusは、単なるチャットボットを超え、PC画面を見て自らツールを使い、複雑な業務を処理する「マルチモーダルエージェント」AIです。

想像してみてください。朝出社してPCの電源を入れ、AIにこう言います。「昨日届いたメールの中から、領収書が添付されているものだけを見つけてExcelファイルにまとめておいて。」これまでのAIなら、Excel関数の使い方を親切に教えてくれたり、報告書の書式を文章で書いてくれる程度にとどまっていたでしょう。結局、キーボードを叩いてマウスをクリックし、仕事を終わらせるのは私たちの役割でした。

しかし、これからは違います。AIが直接あなたのメール画面を開き、領収書の画像を目で読み取り、Excelを起動してデータを一つ一つ入力します。まるで自分のPCモニターを同じように見つめながら、マウスを代わりに動かしてくれる「透明な秘書」ができたようなものです。

このSFのような話が現実になりました。アリババ（Alibaba）が2026年6月1日に新たにリリースしたAIモデルQwen3.7-Plusのおかげです [2026年のQwen3.7-Plus対Qwen3.7-Max：マルチモーダルエージェントか…]。このAIは単なる「賢いチャットボット」を超え、自らPC画面を見てマウスを動かすように作業する、真の意味での「デジタルインターン」の役割を果たします。

これがなぜ重要なのでしょうか？

これまで私たちが使っていたチャットボットAIは、まるで有能ではあるものの決して席を立たない「図書館の司書」のようなものでした。疑問を尋ねれば、膨大な量の本を調べて素晴らしい正解を見つけてくれますが、私の代わりに報告書を完成させて上司にメールで送ってくれることはありません。

一方、Qwen3.7-Plusは単なる対話型AIではなく、エージェント（Agent：主導的に目標を達成するために行動を遂行するプログラム）モデルです [[Qwen3.7-Plus：マルチモーダルエージェントインテリジェンス — LLM…

explainx.ai](https://explainx.ai/llms/qwen3-7-plus-multimodal-agent-intelligence)]。簡単に言えば、AIに単に質問に答える口だけでなく、ソフトウェアツールを直接使用してコードを書き、生産性作業の全体的な流れを主導できる「手」と「判断力」を与えたのです [Qwen3.7-Plus - Qwen Cloud]。

これは、私たちが毎日モニターの前で過ごす時間の意味が根本的に変わる可能性があることを意味します。コーディング、データ分析、複雑なウェブ検索など、複数段階の作業を人が一つ一つ指示する必要がなくなります。AIが自らウェブブラウザを開き、必要なプログラムを交互に実行して、自動的に業務を処理できるからです [[Qwen3.7-Plus API

AIML API](https://aimlapi.com/models/qwen3-7-plus)]。

わかりやすい解説：目と手を得たAI

Qwen3.7-Plusの驚くべき能力を完全に理解するためには、マルチモーダル（Multimodal：テキストだけでなく、画像、音声など様々な形態のデータを同時に理解する技術）という言葉の意味を知る必要があります。モーダル（Modal）は、データを受け取る一種の「感覚」を意味します。文字だけを読んでいた従来のAIに、画像や動画、さらにはPC画面のグラフィカルインターフェース（GUI：アイコンやメニューウィンドウなど画面に見える視覚的要素）まで一目で把握できる「視覚」能力を大幅に追加したものが、まさにマルチモーダルです [Qwen3.7-Plusレビュー：アリババのGUIエージェントをテスト]。

もう少し日常的な状況に例えるとこうなります。従来のテキストベースAIは、もっぱら「電話」だけで仕事をする賢い同僚でした。自分が画面に表示している表や画像を、一つ一つ言葉で長く詳細に説明して初めて、状況を把握しアドバイスをくれるものでした。もどかしくて、いっそ一人でやってしまうことが多いのが実情でした。

しかし、Qwen3.7-Plusは、まさにあなたの隣に並んで座り、PCモニターを一緒に見つめる同僚です。画面の隅にある「保存」アイコンがどこにあるのか、複雑なExcelの表にどんな数字が書かれているのかを直接「見て」、直感的に理解することができます [[Qwen3.7-Plusモデル

NanoGPT](https://nano-gpt.com/models/text/qwen3.7-plus)]。

アリババの研究陣は、テキストを論理的に処理する強固な基本骨格の上に、この視覚能力を大幅にアップグレードしました。これにより、状況を視覚的に把握し、次の行動を言語で推論する過程を、一つのスムーズな作業フローに統合することに成功しました [リサーチ - Qwen]。その結果、単に画像が何であるかを当てることを超え、「この画面を見たら、次はこのボタンをクリックしてあのツールを実行しよう」と自らツール呼び出し（Tool invocation）を決定する驚くべきレベルに到達したのです [Qwen3.7-Plusリリース：マルチモーダルエージェントをどうテストするか - HotAI - 博客園]。

現在の状況：フラッグシップテキストAIとマルチモーダルエージェントのツートラック

アリババは2026年5月20日から21日にかけて開催されたアリババクラウドサミットで、この強力なQwen3.7シリーズを初めて公式の舞台でお披露目しました [Qwen 3.7 完全ガイド：アリババ最強のAIモデル (2026)]。正式イベントの前日である5月19日には、Qwen Chat（通义千问）を通じてプレビュー版として先に少しだけ姿を現し、人々を驚かせたりもしました [Qwen 3.7 レビュー：アリババの新しいフラッグシップが中国で1位に…]。最も興味深い見どころは、アリババがそれぞれ異なる特技を持つ2つの主力（フラッグシップ）モデルを同時にリリースしたという点です。

1人目の選手は、もっぱら「文章」による論理的思考にすべての知能を集中させたQwen3.7-Maxです。このモデルは純粋なテキスト（pure-text）処理に極度に特化しています。ソフトウェアエンジニアリング能力を評価する非常に厳格で権威あるテストであるSWE-Bench Proで、なんと60.6%という驚異的な正解率を記録しました。これは人間のプログラマーに匹敵する最高レベルの推論能力を証明したことになります [2026年のQwen3.7-Plus対Qwen3.7-Max：マルチモーダルエージェントか…]。

2人目の選手が、まさに今日集中的に取り上げたQwen3.7-Plusです。このモデルはMaxが持つ強固なテキスト論理力（text backbone）をそのまま受け継ぎながらも、画像や動画、そして視覚的なPC画面を読み取る（vision-language）能力を大幅に引き上げました。研究室の試験問題を解く代わりに、現実世界の複雑な業務を直接行動で遂行することに焦点を当てた、非常に「バランスの取れた」多才なモデルです [[Qwen3.7-Plus：バランスの取れたマルチモーダルフラッグシップ

Qwen 3.7](https://qwen3lm.com/qwen3.7-plus/)]。

では、私たちはこの賢いAI秘書をどうやって使ってみることができるのでしょうか？現在これらのモデルは、アリババのModel StudioやBailian（百煉）などのプラットフォームを通じて利用できます [Qwen3.7-Plus：Bailianのマルチモーダルエージェント - kiadev.net]。誰でもPCにコードをダウンロードして自由にインストールできる「オープンソース」形式ではなく、API（プログラム間でデータをやり取りする通信ツール）を通じてのみ慎重にアクセスできる重み非公開（closed-weights）方式でサービスが提供されています [Qwen 3.7 完全ガイド：アリババ最強のAIモデル (2026)]。

今後どうなるのか？

Qwen3.7-Plusの華々しい登場は、私たちに重要なメッセージを投げかけています。世界中の大規模言語モデル（LLM）技術が、画面越しにテキストで会話を交わすレベルをはるかに超えつつあるという事実です。現在AIは、物理的な現実世界やコンピュータのOS環境と直接ぶつかり合いながら行動する「身体化された知能（Embodied intelligence：身体やツールを通じて環境と相互作用し、問題を解決する人工知能）」や高度化されたエージェント（advanced agents）システムに向けて、恐ろしいスピードで進化しています [マルチモーダルエージェントが大幅アップグレード！アリババが正式に…]。

過去には、AIが生成したコードをコピー＆ペーストして実行する煩わしさは人間の役割でしたが、今やAIモデルは人間の介入なしに自ら作業計画を立て、コードを作成してすぐに実行し（self-programming）、エラーが発生しても立ち止まらずに自ら原因を探して絶えず修正していく（autonomous iteration）本当の「行動力」の領域に入りました [アリババ、Qwen3.7-PlusマルチモーダルAIエージェントモデルを発表]。

近い将来、私たちの業務指示のあり方は完全に変わるでしょう。AIに「この英語の文書を日本語に翻訳して」と断片的な成果物だけを求める時代は終わります。その代わり、「今回の新製品プロジェクトの競合市場調査から始めて、データを分析し、最終発表用のPPT報告書の作成まで全部任せるよ」と、巨大な業務の権限を丸ごと委任するスリリングで新しい時代を迎えることになるでしょう。

MindTickleBytesのAI記者の視点：目と手を持ったマルチモーダルエージェントの登場は、人間とコンピュータがコミュニケーションをとる方法のパラダイムが丸ごと変わりつつあることを示唆しています。以前は人がキーボードとマウスのルールに合わせてコンピュータを操作しなければなりませんでしたが、これからはコンピュータが人間の「自然言語の指示」と「視覚的環境」を直接理解して自動的に動きます。Qwen3.7-Plusは、私たちの指示を的確に聞き取り、疲れ知らずに働く最も優秀な秘書が、すでに私たちのPCの中に住み始めたという宣言のようなものです。あなたの次の頼もしいビジネスパートナーは、人間ではないかもしれません。

参考資料

Qwen3.7-Plus - Qwen Cloud

[Qwen3.7-Plus：マルチモーダルエージェントインテリジェンス — LLM…

explainx.ai](https://explainx.ai/llms/qwen3-7-plus-multimodal-agent-intelligence)

2026年のQwen3.7-Plus対Qwen3.7-Max：マルチモーダルエージェントか…
[Qwen3.7-Plus API AIML API](https://aimlapi.com/models/qwen3-7-plus)
[Qwen3.7-Plusモデル NanoGPT](https://nano-gpt.com/models/text/qwen3.7-plus)
Qwen 3.7 完全ガイド：アリババ最強のAIモデル (2026)
Qwen3.7-Plusレビュー：アリババのGUIエージェントをテスト
Qwen3.7-Plusリリース：マルチモーダルエージェントをどうテストするか - HotAI - 博客園
Qwen3.7-Plus：Bailianのマルチモーダルエージェント - kiadev.net
マルチモーダルエージェントが大幅アップグレード！アリババが正式に…
リサーチ - Qwen
アリババ、Qwen3.7-PlusマルチモーダルAIエージェントモデルを発表
[Qwen3.7-Plus：バランスの取れたマルチモーダルフラッグシップ Qwen 3.7](https://qwen3lm.com/qwen3.7-plus/)
Qwen 3.7 レビュー：アリババの新しいフラッグシップが中国で1位に…

Share this article:

この記事の理解度チェック

Q1. Qwen3.7-Plusモデルの最大の特徴は何ですか？

テキストのみを処理できる
PC画面を見てツールを使用できるマルチモーダルエージェントである
オープンソースで誰でも無料でダウンロードできる

Qwen3.7-Plusは、テキストだけでなく画像、動画、PC画面を理解し、ツールを呼び出すことができるマルチモーダルエージェントです。

Q2. Qwen3.7シリーズの中で、テキスト処理能力にのみ集中し、SWE-Bench Proで高得点を記録したモデルはどれですか？

Qwen3.7-Mini
Qwen3.7-Plus
Qwen3.7-Max

Qwen3.7-Maxは、純粋なテキスト(pure-text)ベースのフラッグシップモデルであり、コーディングベンチマークで60.6%の成績を記録しました。

Q3. Qwen3.7-Plusは現在どのような方法で利用できますか？

誰でも重みをダウンロードできる
スマートフォンアプリでのみ動作する
APIを通じてのみアクセス可能なクローズドウェイトモデルである

現在、Qwen3.7-PlusとMaxモデルはどちらも重みが非公開(closed-weights)の状態であり、APIを通じてのみ利用できます。