Google DeepMind 发布了“Gemini 2.5 Computer Use”模型,该模型能够像人类一样浏览网页和应用界面,并直接进行点击、输入和滚动等操作。
AI能直接操作我的电脑?谷歌全新的“Gemini 2.5 Computer Use”模型亮相!
想象一下,你计划下个月和朋友去济州岛旅行。按照往常,你需要反复出入三四家航空公司的网站对比价格,预订租车,还要逐一输入信息支付酒店费用。填写复杂的输入框和点击按钮的过程相当繁琐。
但现在,你只需对 AI 说一句:“帮我预订行程最便宜的机票和租车。”AI 就会替你打开浏览器,“观察”屏幕,“点击”合适的按钮,“输入”日期,并处理整个过程。就像有一位经验丰富的秘书坐在你身边,替你握住鼠标一样。
Google DeepMind 最近发布了这款能让这种魔法般的体验成为现实的全新人工智能模型——“Gemini 2.5 Computer Use” 来源:Introducing the Gemini 2.5 Computer Use model - The Keyword。
为什么这很重要?
到目前为止我们见到的 AI,例如 ChatGPT 或早期的 Gemini,主要都是擅长“交流”的秘书。它们能回答你的疑问,或是帮你总结长篇文章。然而,我们真正在电脑上进行的实际操作——比如发送电子邮件、在 Excel 中输入数据或在复杂的网站上查找信息——仍然需要我们亲自动手。
Gemini 2.5 Computer Use 模型的出现,意味着 AI 已经从单纯的“对话存在”进化为“行动存在” 来源:Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …。在专业术语中,这也被称为“智能体 AI(Agentic AI,能够自主判断并行动的 AI)”时代的正式开启 来源:Introducing-the-Gemini-20-our-new-AI-model-for-the-agentic-era.jpg。
该模型将改变我们数字化生活的三个重要原因如下:
- 完全模仿人类的操作方式:即使没有复杂的 API(软件之间的对话窗口)连接,它也能像人类观察屏幕并操作一样,自如地处理所有网站和应用 来源:Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …。
- 从重复劳动中解放:每天早晨登录多个网站检查数据并制作报告的枯燥工作,可以完全交给 AI 处理。
- 真正的“全能型秘书”诞生:它不仅能帮你查找信息,还能真正完成预订、购买、数据整理等工作,成为你可靠的合作伙伴 来源:Google News - News aboutGemini- Overview。
简单理解:AI 的“眼睛”和“手”
这个模型是如何像人一样操作电脑的呢?打个比方,可以理解为 AI 拥有了非常聪明的“眼睛”和精细的“手”。
1. 视觉理解:AI 的“眼睛”
该模型是基于 Gemini 2.5 Pro 模型强大的视觉理解能力构建的 来源:Introducing The Gemini 2.5 Computer Use Model。
| 回想一下我们第一次站在复杂的自助服务机(Kiosk)前时的情景。即使不看说明书,我们也能通过观察屏幕上的图片和文字判断出“啊,按这个就能下单了”。Gemini 2.5 Computer Use 模型也是如此。它能实时分析屏幕截图(Screenshot),准确识别哪里有按钮,哪里需要输入文字 [来源:Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… | Fello AI](https://felloai.com/gemini-2-5-computer-use/)。 |
2. 推理与行动:AI 的“手”
理解了屏幕内容后,接下来就是采取行动。该模型根据分析出的屏幕信息,分步骤执行点击、输入(Typing)、滚动(Scroll)等动作 来源:Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…。
| 例如,当遇到登录界面时,该模型会按照人类的操作顺序逻辑性地执行:“先点击账号栏,输入我的账号,再点击密码栏……” 来源:Google LaunchesGemini-2-5-Computer-Use-Model-for-Browser…。专家埃德瓦尔多·洛佩兹(Eduardo López)评价道,该模型“像人类一样与界面交互,并实时适应各种情况” [来源:IntroducingtheGemini2.5ComputerUsemodel | Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)。 |
简单来说,如果之前的 AI 是在旁边为你指路的“地图应用”,那么 Gemini 2.5 Computer Use 就像是亲自握住方向盘并将你安全送到目的地的“司机”。
现状如何:进展到了哪一步?
目前,该模型处于面向开发者的公开预览(Public Preview)阶段 来源:Introducing the Gemini 2.5 Computer Use model - The Keyword。也就是说,虽然普通用户现在还不能直接一键使用,但谷歌已经向全球开发者敞开了大门,让他们能够利用这项技术开发创新的应用或服务 来源:Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …。
主要特点总结如下:
- 性能卓越:在衡量网页及移动端控制性能的基准测试(Benchmark)中,它的表现优于竞争模型 来源:Introducing the Gemini 2.5 Computer Use model。
- 响应迅速:相比之前的模型,反应速度更快。即延迟(Latency)降低,实际工作流变得更加自然 来源:Introducing the Gemini 2.5 Computer Use model。
- 惊人的通用性:它不仅能在特定网站上运行,还被设计为可在我们日常使用的所有网站和移动应用中工作 来源:FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …。
当然,目前仍有一些挑战需要克服。根据谷歌发布的模型卡(Model Card,模型详细说明书),目前还存在一些技术局限,必须遵循安全使用指南。谷歌表示,计划在未来持续优化这些方面 来源:PDFGemini Computer Use External Model Card (October 7, 2025) - updated2。
未来将如何发展?
该模型的出现将彻底改变我们与数字化设备的交互逻辑。
在不久的将来,我们或许不再需要为学习复杂的软件使用方法而苦恼。即使你完全不会用 Photoshop,只要说一句“帮我擦掉这张照片的背景,把天空变蓝”,AI 就会自动操作 Photoshop 的工具,为你呈现完美的结果。
此外,企业可以利用该模型实现从客户咨询到复杂行政处理的跨越式自动化。比如,当收到客户“帮我修改地址”的请求时,AI 会自动登录内部系统并修改信息 来源:Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …。
现在的 AI 已经超越了单纯回答问题的水平,它已经准备好成为我们的手脚,替我们在复杂的数字世界中穿行。一个不再需要我们逐一操作电脑,而是只需告诉 AI 目的地,AI 就会奋勇完成整个过程的时代已经近在咫尺。
MindTickleBytes AI 记者的视角
Gemini 2.5 Computer Use 的诞生象征着 AI 不仅拥有了卓越的“智能”,还拥有了实际的“四肢”。现在,对我们来说重要的不再是“如何操作”,而是对 AI 提出“要做什么”。在这个定义“创意目标”的能力比工具熟练度更具价值的时代,你最想让你的 AI 秘书帮你做的第一件事是什么呢?
参考资料
- Introducing the Gemini 2.5 Computer Use model - The Keyword
-
[Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use) - Introducing The Gemini 2.5 Computer Use Model
- Introducing the Gemini 2.5 Computer Use model
- 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary …
- PDFGemini Computer Use External Model Card (October 7, 2025) - updated2
-
[IntroducingtheGemini2.5ComputerUsemodel Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N) - Google News - News aboutGemini- Overview
-
[Gemini2.5’ComputerUse’: Can ThisModelAutomate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/) - Google LaunchesGemini2.5ComputerUseModelfor Browser…
- How to Build AI Agents withGemini2.5ComputerUse(2025)
- Google’s new Gemini AI 2.5 Computer Use model can browse the web and …
- FinancialContent - Gemini 2.5 Computer Use Model: A Paradigm Shift in …
- Introducing the Gemini 2.5 Computer Use model: Revolutionizing AI …
- Gemini 2.5 Computer Use Model Officially Introduced: Now Available as …
- Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI …
- 能像人类一样观察屏幕并直接进行点击和输入。
- 仅以文本形式回答问题。
- 仅通过语音控制电脑。
- Gemini 1.0 Pro
- Gemini 2.5 Pro
- Gemma 2
- 仍处于构思阶段。
- 仅在谷歌内部使用。
- 已作为面向开发者的公开预览版发布。