阿里巴巴于2026年6月推出的 Qwen3.7-Plus 超越了简单的聊天机器人,它是一款能够观看电脑屏幕并自主使用工具处理复杂业务的“多模态智能体(Multimodal Agent)”AI。
想象一下这样的场景。早上来到办公室,打开电脑,对AI说:“帮我找出昨天收到的邮件中带有收据附件的邮件,并整理到Excel文件中。”如果是以前的AI,它可能只会友好地教你如何使用Excel函数,或者用文字为你写出一个报告模板。到头来,敲击键盘、点击鼠标完成这些工作的任务依然落在我们自己头上。
但现在情况不同了。AI可以直接打开你的电子邮箱界面,用“眼睛”读取收据图像,然后启动Excel程序将数据逐一录入。这就像是拥有了一位“透明秘书”,它和你注视着同一块电脑屏幕,代替你移动鼠标进行操作。
这个宛如科幻小说般的故事已然成为现实。这得益于阿里巴巴(Alibaba)在2026年6月1日最新发布的AI模型 Qwen3.7-Plus [2026年的Qwen3.7-Plus与Qwen3.7-Max:多模态Agent还是…]。这款AI超越了简单的“聪明的聊天机器人”,成为了能够自主观看电脑屏幕、像控制鼠标一样操作的真正意义上的“数字实习生”。
为什么这很重要?
在此之前,我们使用的聊天机器人AI就像一位非常有能力,但绝不离开自己座位的“图书管理员”。当你向它提问时,它能翻阅浩如烟海的书籍为你找到绝佳的答案,但它不会替你完成报告并用邮件发送给老板。
| 相比之下,Qwen3.7-Plus 不仅仅是对话型 AI,更是一个智能体(Agent,为了主动达成目标而执行动作的程序)模型 [[Qwen3.7-Plus:多模态 Agent 智能 — LLM… | explainx.ai](https://explainx.ai/llms/qwen3-7-plus-multimodal-agent-intelligence)]。简单来说,它不仅赋予了AI回答问题的“嘴巴”,还赋予了它“双手”和“判断力”,使其能够直接使用软件工具、编写代码,主导整个生产力工作流程 [Qwen3.7-Plus - Qwen Cloud]。 |
| 这意味着我们每天在显示器前度过的时间,其意义可能会发生根本性的改变。像编程、数据分析、复杂的网络搜索等包含多个步骤的工作,不再需要人类逐一进行指导。因为AI会自动打开网页浏览器,在所需的不同程序之间切换运行,自主完成工作任务 [[Qwen3.7 Plus API | AIML API](https://aimlapi.com/models/qwen3-7-plus)]。 |
通俗解析:获得“眼睛”和“双手”的 AI
要充分理解 Qwen3.7-Plus 令人惊叹的能力,我们需要了解多模态(Multimodal,即不仅能理解文本,还能同时理解图像、声音等多种形式数据的技术)这个词的含义。模态(Modal)是指接收数据的一种“感官”。多模态就是在只懂阅读文字的传统AI基础上,大幅增加了能一眼识别图像、视频,甚至电脑屏幕的图形用户界面(GUI,如屏幕上的图标、菜单栏等视觉元素)的“视觉”能力 [Qwen3.7-Plus 评测:经测试的阿里巴巴 GUI Agent]。
用更日常的场景来打个比方。传统的纯文本 AI 就像是一位只能通过“电话交流”来工作的聪明同事。你必须用冗长的语言详细描述你屏幕上显示的表格或图片,它才能了解状况并给出建议。很多时候我们会觉得太麻烦,索性自己动手解决。
| 但 Qwen3.7-Plus 则是那个干脆坐在你身旁,和你一起看着电脑显示器的同事。它能直接“看”到屏幕角落里的“保存”图标在哪里,复杂的 Excel 表格里写着哪些数字,并产生直观的理解 [[Qwen3.7 Plus 模型 | NanoGPT](https://nano-gpt.com/models/text/qwen3.7-plus)]。 |
阿里巴巴的研究团队在处理文本逻辑的坚实骨架之上,大幅升级了这种视觉能力。通过这种方式,他们将“从视觉上把握状况”与“用语言推演下一步行动”的过程,整合成了无缝衔接的工作流 [Research - Qwen]。其结果是,它不再仅仅局限于猜出图片是什么,而是达到了能够自主决定工具调用(Tool invocation)的惊人水平:“看了这个屏幕,我接下来应该点击这个按钮,然后运行那个工具” [Qwen3.7-Plus 发布:多模态 Agent 该怎么测 - HotAI - 博客园]。
现状:旗舰文本 AI 与多模态 Agent 的双轨并行
在 2026 年 5 月 20 日至 21 日举行的阿里云峰会上,阿里巴巴首次将这款强大的 Qwen3.7 系列正式推向舞台 [Qwen 3.7 完整指南:阿里巴巴迄今为止最强大的 AI 模型 (2026)]。而在正式活动的前一天,即 5 月 19 日,它便通过 Qwen Chat 以预览版的形式悄然亮相,给人们带来了巨大的惊喜 [Qwen 3.7 评测:阿里巴巴的新旗舰在中国排名第一 …]。其中最有趣的看点在于,阿里巴巴同时推出了两款各具专长的旗舰模型。
第一位选手是将所有智能都集中在纯“文字”逻辑思考上的 Qwen3.7-Max。这款模型被极度优化以用于纯文本(pure-text)处理。在评估软件工程能力的极其严苛且权威的测试 SWE-Bench Pro 中,它创下了高达 60.6% 的惊人准确率。这证明了它具备足以媲美人类程序员的顶尖推理能力 [2026年的Qwen3.7-Plus与Qwen3.7-Max:多模态Agent还是…]。
| 第二位选手就是今天我们重点关注的 Qwen3.7-Plus。这款模型在完全继承了 Max 坚实的文本逻辑能力(text backbone)的同时,大幅提升了解读图像、视频以及视觉化电脑屏幕(vision-language)的能力。它不再局限于解答实验室里的测试题,而是一款致力于在现实世界中通过实际行动执行复杂任务、极为“均衡”且多才多艺的模型 [[Qwen3.7 Plus:均衡的多模态旗舰 | Qwen 3.7](https://qwen3lm.com/qwen3.7-plus/)]。 |
那么,我们该如何使用这位聪明的 AI 秘书呢?目前,这些模型可以通过阿里巴巴的模型服务平台百炼(Bailian,又称 Model Studio)等平台体验 [百炼平台上的多模态 Agent:Qwen3.7-Plus - kiadev.net]。它们并非任何人都能下载代码并随意安装的“开源”形式,而是采用了闭源权重(closed-weights)模式,只能通过 API(程序间交换数据的通信工具)谨慎访问 [Qwen 3.7 完整指南:阿里巴巴迄今为止最强大的 AI 模型 (2026)]。
未来将何去何从?
Qwen3.7-Plus 的华丽登场向我们传递了一个重要信息:全球大型语言模型(LLM)技术已经远远超越了隔着屏幕用文本聊天的水平。如今的 AI 正以惊人的速度,朝着与物理现实世界或计算机操作系统环境直接碰撞并采取行动的“具身智能(Embodied intelligence,即通过躯体或工具与环境交互并解决问题的人工智能)”以及高级智能体(advanced agents)系统进化 [多模态 Agent 迎来重大升级!阿里巴巴正式 …]。
如果说过去将 AI 生成的代码复制、粘贴并运行的繁琐工作还要由人来完成,那么现在的 AI 模型已经进入了真正的“行动力”领域:它们能在无需人工干预的情况下自主制定工作计划、编写代码并直接执行(self-programming),如果出现报错,它们也不会停下,而是自己寻找原因并不断进行修正(autonomous iteration) [阿里巴巴推出 Qwen3.7-Plus 多模态 AI Agent 模型]。
在不久的将来,我们下达工作指令的方式将发生翻天覆地的变化。仅仅要求 AI 提供诸如“把这份英文文档翻译成韩文”这样碎片化结果的时代即将落幕。取而代之的,将是一个令人兴奋的崭新时代,你可以对它说:“从这次新产品项目的竞品市场调研开始,到数据分析,再到最终演示用的 PPT 报告制作,统统交给你来处理”,从而将庞大业务的权限全盘委托给它。
MindTickleBytes AI记者观点: 拥有“眼睛”和“双手”的多模态 Agent 的出现,表明人机交互方式的范式正在发生根本性的逆转。以前需要人类遵循键盘和鼠标的规则来操作电脑,而现在,电脑能够直接理解人类的“自然语言指令”与“视觉环境”,并自行运转。Qwen3.7-Plus 就如同发表了一份宣言:那个能完美领会我们指令、不知疲倦地工作的最优秀秘书,已经开始入驻我们的电脑。你下一个可靠的工作伙伴,或许不再是人类。
参考资料
- Qwen3.7-Plus - Qwen Cloud
-
[Qwen3.7-Plus:多模态 Agent 智能 — LLM… explainx.ai](https://explainx.ai/llms/qwen3-7-plus-multimodal-agent-intelligence) - 2026年的Qwen3.7-Plus与Qwen3.7-Max:多模态Agent还是…
-
[Qwen3.7 Plus API AIML API](https://aimlapi.com/models/qwen3-7-plus) -
[Qwen3.7 Plus 模型 NanoGPT](https://nano-gpt.com/models/text/qwen3.7-plus) - Qwen 3.7 完整指南:阿里巴巴迄今为止最强大的 AI 模型 (2026)
- Qwen3.7-Plus 评测:经测试的阿里巴巴 GUI Agent
- Qwen3.7-Plus 发布:多模态 Agent 该怎么测 - HotAI - 博客园
- 百炼平台上的多模态 Agent:Qwen3.7-Plus - kiadev.net
- 多模态 Agent 迎来重大升级!阿里巴巴正式 …
- Research - Qwen
- 阿里巴巴推出 Qwen3.7-Plus 多模态 AI Agent 模型
-
[Qwen3.7 Plus:均衡的多模态旗舰 Qwen 3.7](https://qwen3lm.com/qwen3.7-plus/) - Qwen 3.7 评测:阿里巴巴的新旗舰在中国排名第一 …
- 只能处理文本信息
- 是能够观看电脑屏幕并使用工具的多模态智能体
- 作为开源模型,任何人都可以免费下载
- Qwen3.7-Mini
- Qwen3.7-Plus
- Qwen3.7-Max
- 任何人都可以下载其权重
- 仅能通过智能手机 App 运行
- 作为闭源权重模型,只能通过 API 访问