阿里巴巴於 2026 年 6 月推出的 Qwen3.7-Plus 已超越單純的聊天機器人,它是一款能看懂電腦螢幕、自主使用工具處理複雜業務的「多模態智能體(Multimodal Agent)」AI。
想像一下:早晨來到辦公室,打開電腦後對著 AI 說:「幫我找出昨天收到的電子郵件中附有收據的信件,並整理成 Excel 檔案。」如果換作以前的 AI,它頂多只會親切地教你如何使用 Excel 函數,或是用文字寫出報告的格式。到頭來,敲擊鍵盤、點擊滑鼠來完成工作的依然是我們自己。
但現在情況不同了。AI 會直接替你打開電子郵件視窗,用「眼睛」讀取收據圖片,接著開啟 Excel 程式,將數據逐一輸入。這就像是多了一位能與你一同看著電腦螢幕,並代替你移動滑鼠的「透明秘書」。
這種宛如科幻小說般的情節如今已化為現實。這都要歸功於阿里巴巴(Alibaba)在 2026 年 6 月 1 日全新推出的 AI 模型 Qwen3.7-Plus [Qwen3.7Plus 與 Qwen3.7Max 的 2026 對決:多模態智能體還是…]。這款 AI 已超越了單純「聰明的聊天機器人」,它能看懂電腦螢幕,像操作滑鼠般自動執行任務,扮演著真正意義上的「數位實習生」角色。
這為什麼很重要?
過去我們使用的聊天機器人 AI,就像是一位能力出眾卻「絕不離開座位」的圖書館管理員。當你提出疑問時,它能在浩瀚書海中為你找出絕佳的解答,但它絕對不會幫你完成報告並用電子郵件發送給主管。
| 相反地,Qwen3.7-Plus 並非單純的對話型 AI,而是一款智能體(Agent,能為主動達成目標而執行行動的程式)模型 [[Qwen3.7-Plus:多模態智能體智慧 — LLM… | explainx.ai](https://explainx.ai/llms/qwen3-7-plus-multimodal-agent-intelligence)]。簡單來說,這等於是賦予了 AI 除了回答問題的「嘴巴」之外,還給了它能直接使用軟體工具、編寫程式碼,並主導整個生產力工作流程的「雙手」與「判斷力」 [Qwen3.7-Plus - Qwen Cloud]。 |
| 這意味著我們每天坐在螢幕前所花費的時間,其意義將發生根本性的轉變。像程式設計、數據分析或複雜的網頁搜尋等多步驟任務,都不再需要人類逐一下達指令。因為 AI 懂得自動打開網頁瀏覽器,在需要的程式之間切換執行,並妥善處理好工作 [[Qwen3.7 Plus API | AIML API](https://aimlapi.com/models/qwen3-7-plus)]。 |
淺顯易懂:獲得「眼睛」與「雙手」的 AI
要徹底理解 Qwen3.7-Plus 令人驚豔的能力,首先必須明白多模態(Multimodal:不僅限於文字,還能同時理解圖片、聲音等多種數據形式的技術)這個詞彙的含義。「模態(Modal)」代表著一種接收數據的「感官」。為原本只會讀字的 AI,大幅添加能一眼看懂圖片、影片,甚至是電腦螢幕的圖形使用者介面(GUI,如圖示或選單視窗等螢幕上的視覺元素)的「視覺」能力,這正是所謂的多模態技術 [Qwen3.7-Plus 評測:阿里巴巴 GUI 智能體實測]。
若用更生活化的情境來比喻,大概是這個樣子:過去基於文字的 AI,就像是一位只能透過「講電話」來工作的聰明同事。你必須把螢幕上的表格或圖片,逐字逐句冗長且鉅細靡遺地描述給他聽,他才能掌握情況並給予建議。很多時候因為實在太麻煩,索性自己做還比較快。
| 然而,Qwen3.7-Plus 卻是一位能直接坐在你身邊,陪你一起盯著電腦螢幕看的同事。螢幕角落的「儲存」圖示在哪裡,或是複雜的 Excel 表格裡寫了什麼數字,它都能夠直接「看見」並直觀地理解 [[Qwen3.7 Plus 模型 | NanoGPT](https://nano-gpt.com/models/text/qwen3.7-plus)]。 |
阿里巴巴的研究團隊在邏輯處理文字的堅實骨幹上,大幅升級了這項視覺能力。藉此,他們將「視覺掌握情況」與「用語文推論下一步行動」的過程,完美整合進一個流暢的工作流程中 [Research - Qwen]。其成果便是:它不再只是單純地辨識圖片是什麼,而是能達到「看著這個畫面,我接下來應該點擊這個按鈕並執行那個工具」般,自主決定工具調用(Tool invocation)的驚人水準 [Qwen3.7-Plus 發布:多模態 Agent 該怎麼測 - HotAI - 博客園]。
現況:旗艦文字 AI 與多模態智能體的雙軌並進
阿里巴巴在 2026 年 5 月 20 日至 21 日舉行的阿里雲峰會上,首次將這款強大的 Qwen3.7 系列搬上官方舞台 [Qwen 3.7 完整指南:阿里巴巴迄今最強 AI 模型 (2026)]。在正式活動前一天的 5 月 19 日,它還透過 Qwen Chat 率先釋出預覽版,悄悄露面並給了眾人一個大大的驚喜 [Qwen 3.7 評測:阿里巴巴新旗艦排名中國第一 …]。而最引人注目的焦點,莫過於阿里巴巴同時推出了兩款各具專長的旗艦(Flagship)模型。
第一位選手是將所有智慧專注於「文字」邏輯思考上的 Qwen3.7-Max。這款模型極度專注於純文字(pure-text)處理。在評估軟體工程能力、極為嚴苛且具權威性的 SWE-Bench Pro 測試中,它創下了高達 60.6% 的驚人正確率。這也證明了它具備足以媲美人類程式設計師頂尖水準的推論能力 [Qwen3.7Plus 與 Qwen3.7Max 的 2026 對決:多模態智能體還是…]。
| 第二位選手,正是我們今天重點探討的 Qwen3.7-Plus。這款模型不僅繼承了 Max 堅實的文字邏輯能力(text backbone),更大幅提升了讀取圖片、影片與視覺化電腦螢幕的視覺語言(vision-language)能力。它沒有把目標放在解答實驗室裡的試題,而是專注於透過實際行動來執行現實世界中複雜的業務,是一款非常「均衡」且多才多藝的模型 [[Qwen3.7 Plus:均衡的多模態旗艦 | Qwen 3.7](https://qwen3lm.com/qwen3.7-plus/)]。 |
那麼,我們要如何使用這位聰明的 AI 秘書呢?目前,這些模型已可透過阿里巴巴的模型服務(Model Studio)與百煉(Bailian)等平台進行體驗 [Qwen3.7-Plus:百煉平台上的多模態智能體 - kiadev.net]。它並非任何人都能下載程式碼並隨意安裝在電腦裡的「開源」形式,而是採用權重不公開(closed-weights)模式,必須透過 API(程式之間傳輸數據的通訊工具)謹慎存取來提供服務 [Qwen 3.7 完整指南:阿里巴巴迄今最強 AI 模型 (2026)]。
未來的發展趨勢?
Qwen3.7-Plus 的華麗登場向我們傳遞了一個重要訊息:全球大型語言模型(LLM)技術,已經遠遠超越了隔著螢幕進行文字對話的層次。現在,AI 正以驚人的速度,朝著能在實體現實世界或電腦作業系統環境中直接行動的「具身智能(Embodied intelligence:透過身體或工具與環境互動並解決問題的人工智慧)」及高度進階智能體(advanced agents)系統進化 [多模態智能體迎來重大升級!阿里巴巴正式 …]。
過去,把 AI 產生的程式碼複製、貼上並執行的繁瑣步驟還得仰賴人類;現在,AI 模型已跨入具備真正「行動力」的領域,能在無人為干預的情況下自主擬定工作計畫、撰寫並直接執行程式碼(self-programming),一旦出現錯誤也不會停擺,而是自行找出原因並持續修正(autonomous iteration) [阿里巴巴發布 Qwen3.7-Plus 多模態 AI 智能體模型]。
在不遠的將來,我們交辦任務的方式將發生翻天覆地的變化。僅向 AI 要求如「幫我把這份英文文件翻譯成中文」這種片段式結果的時代即將落幕。取而代之的是:「從這次新產品專案的競品市場調查開始,幫我分析數據,最後完成要用來發表的簡報報告」,我們將迎接一個能把龐大業務權限全權委託給 AI 處理的嶄新刺激時代。
MindTickleBytes AI 記者的觀點: 具備「眼睛」與「雙手」的多模態智能體登場,意味著人類與電腦溝通的典範正經歷全面性的轉變。以前是人類必須配合鍵盤和滑鼠的規則來操作電腦,現在則是電腦直接理解人類的「自然語言指令」與「視覺環境」,並主動採取行動。Qwen3.7-Plus 就像是在宣告:一位能完美領會我們指令、不知疲倦地工作的最佳秘書,已經進駐我們的電腦之中了。您下一位可靠的工作夥伴,或許不再是人類。
參考資料
- Qwen3.7-Plus - Qwen Cloud
-
[Qwen3.7-Plus:多模態智能體智慧 — LLM… explainx.ai](https://explainx.ai/llms/qwen3-7-plus-multimodal-agent-intelligence) - Qwen3.7Plus 與 Qwen3.7Max 的 2026 對決:多模態智能體還是…
-
[Qwen3.7 Plus API AIML API](https://aimlapi.com/models/qwen3-7-plus) -
[Qwen3.7 Plus 模型 NanoGPT](https://nano-gpt.com/models/text/qwen3.7-plus) - Qwen 3.7 完整指南:阿里巴巴迄今最強 AI 模型 (2026)
- Qwen3.7-Plus 評測:阿里巴巴 GUI 智能體實測
- Qwen3.7-Plus 發布:多模態 Agent 該怎麼測 - HotAI - 博客園
- Qwen3.7-Plus:百煉平台上的多模態智能體 - kiadev.net
- 多模態智能體迎來重大升級!阿里巴巴正式 …
- Research - Qwen
- 阿里巴巴發布 Qwen3.7-Plus 多模態 AI 智能體模型
-
[Qwen3.7 Plus:均衡的多模態旗艦 Qwen 3.7](https://qwen3lm.com/qwen3.7-plus/) - Qwen 3.7 評測:阿里巴巴新旗艦排名中國第一 …
- 只能處理純文字
- 是能夠看懂電腦螢幕並使用工具的多模態智能體
- 作為開源項目,任何人都可以免費下載
- Qwen3.7-Mini
- Qwen3.7-Plus
- Qwen3.7-Max
- 任何人都能下載其權重
- 只能透過智慧型手機的應用程式運行
- 是只能透過 API 存取的閉源權重(closed-weights)模型