谷歌发布了能够像人类一样直接操作网页浏览器和移动应用的 “Gemini 2.5 Computer Use” 模型,开启了真正的 AI 智能体时代。
想象一下,你必须在一家非常复杂的海外酒店预订网站上逐一比较 10 家住宿,核实每一项苛刻的取消政策,然后选择最便宜的一家并填写预约表格。光是想想就觉得眼睛疲劳。但如果这时旁边有一位聪明的秘书问你:“要不我来替你做吧?”这位秘书会像你一样盯着屏幕看,移动鼠标点击按钮,并用键盘准确输入你的信息。
这不再是遥远未来的电影情节。因为谷歌在 2025 年 10 月 7 日正式发布了能够像人类一样直接操作电脑和移动设备的全新人工智能——“Gemini 2.5 Computer Use” 模型 介绍 Gemini 2.5 Computer Use 模型 - The Keyword。
为什么这很重要?
到目前为止,我们使用的 AI(人工智能)主要还是仅通过“语言”或“文字”进行交流的存在。你提出问题,它给出答案,或者帮你总结长文。但实际上,当我们用电脑工作时,相比简单的对话,点击、滚动和输入操作要频繁得多。
在传统方式下,如果要让 AI 使用某项服务,必须通过软件开发者预先创建的专用通道,即 API(应用程序编程接口,程序间的对话窗口)。打个比方,AI 为了进入建筑内部,必须安装专用的“后门”。但并非世界上所有的网站和应用都会为 AI 敞开专用的后门。
这正是 Gemini 2.5 Computer Use 模型的价值所在。该模型不再寻找程序后门通道(API),而是直接利用我们肉眼可见的 GUI(图形用户界面,带有按钮或图标的图形画面) 介绍 Gemini 2.5 Computer Use 模型。也就是说,它从技术上克服了 AI 与人类之间长期存在的“数字交流方式差异”这一障碍 Gemini 2.5 Computer Use 模型:AI 数字灵活性的范式转变…。现在,AI 可以堂堂正正地通过为人类设计的“正门”出入电脑世界了。
轻松理解:AI 拥有了“眼睛”和“双手”
为了方便理解这个新模型,我们可以将 AI 比作一名“数字司机”。
-
视觉理解(眼睛):如果说以前的 AI 只能通过导航数据(文本数据)找路,那么 Gemini 2.5 Computer Use 则能直接透过挡风玻璃(屏幕截图)观察路况。该模型继承了谷歌最强大的模型之一 “Gemini 2.5 Pro” 出色的视觉识别能力 介绍 Gemini 2.5 Computer Use 模型。它能实时捕捉屏幕,像人类一样准确把握按钮在哪里,以及当前弹出了什么窗口 [Gemini 2.5 ‘Computer Use’:这个模型能实现自动化吗… Fello AI](https://felloai.com/gemini-2-5-computer-use/)。 -
推理与执行(双手):看清屏幕后,接下来就要行动了。AI 会自主发出“点击这个按钮”、“在这里输入姓名”等具体的动作指令 [谷歌发布能像人类一样点击、输入、滚动的 Gemini 2.5 Computer Use Beebom](https://beebom.com/google-unveils-gemini-2-5-computer-use-that-clicks-types-scrolls-like-humans/)。简单来说,就是 AI 拥有了握着鼠标、敲击键盘的双手。目前,该模型可以熟练执行包括点击、输入、滚动、画面移动等在内的共 13 种具体动作 你可以自动化的 13 种核心 Gemini 2.5 Computer Use 动作…。
| 最终,我们用鼠标和键盘执行的几乎所有复杂任务,AI 都能看着屏幕一模一样地完成,这样的时代已经到来 [介绍 Gemini 2.5 Computer Use 模型 | Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N)。 |
现状:发展到了什么程度?
谷歌自信地表示,该模型在网页浏览器和安卓移动环境中的表现压倒了其他竞争模型 介绍 Gemini 2.5 Computer Use 模型 - The Keyword。事实上,由于在准确度和速度方面获得了极高评价,预计它将在需要探索复杂网站的客户服务机器人或软件自动测试领域引发立竿见影的变革 谷歌的 Gemini 2.5 Computer Use 模型接管数字界面…。
| 目前,这项技术正作为谷歌内部研发的名为 “水手计划 (Project Mariner)” 的下一代智能体功能的核心动力 ‘Gemini 2.5 Computer Use’ 在网页和安卓端表现强劲。此外,为了让全世界的开发者都能在自己的应用或服务中加入这项神奇的功能,它也开始以 API 的形式提供 [Computer Use | Gemini API | Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)。 |
有趣的是,谷歌发布该模型的时间点恰好是其竞争对手 OpenAI 展示 ChatGPT 新功能的第二天 谷歌发布 Gemini 2.5 Computer Use 对抗 OpenAI 智能体…。由此可见,AI 行业的巨头们已经开始了从“能言善辩的 AI”向“精通电脑的 AI”进化的真刀真枪的较量。
未来会怎样?
专家们认为,该模型是迈向“真正数字自主”的一大步 Gemini 2.5 Computer Use 模型:AI 数字灵活性的范式转变…。
在不久的将来,我们可能会向 AI 下达这样的命令: “帮我整理上个月的账本明细并转入 Excel,如果有欠缴的话费,找出来并付掉。” 随后,AI 会登录你的银行应用,打开 Excel 输入数据,并进入运营商官网点击支付按钮。而你只需通过屏幕观察 AI 工作,悠闲地享受一杯咖啡 Google News - 关于 Gemini 的新闻 - 概览。
当然,目前仍处于初期阶段,可能存在对安全或准确性的担忧。但仅仅是 AI 开始直接操作人类“工具”这一事实,就已经让我们的数字生活卷入了巨大的变革浪潮。
AI 的视线 (MindTickleBytes 的 AI 记者视线)
AI 能够自主穿梭在为人类设计的复杂数字世界中,这一点非常令人振奋。这不仅仅意味着自动化,更意味着 AI 正在进化为能够替代人类体力劳动的真正“智能体(代理人)”。以后,“会用电脑”的定义或许会变成“知道如何让 AI 干活”吧。
参考资料
- Introducing the Gemini 2.5 Computer Use model - The Keyword
-
[Computer Use Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use) - Introducing The Gemini 2.5 Computer Use Model
- 2025 Complete Guide: Gemini 2.5 Computer Use Model …
- Introducing The Gemini 2.5 Computer Use Model …
- Google’s Gemini 2.5 Computer Use Model Takes Control of …
- Gemini 2.5 Computer Use Model: A Paradigm Shift in AI’s …
-
[Introducing the Gemini 2.5 Computer Use model Eduardo López](https://www.linkedin.com/posts/eduardolopezgutierrez_introducing-the-gemini-25-computer-use-model-activity-7381801389682937856–r3N) - Google News - News about Gemini - Overview
-
[Gemini 2.5 ‘Computer Use’: Can This Model Automate Your… Fello AI](https://felloai.com/gemini-2-5-computer-use/) - Introducing the Gemini 2.5 Pc Use mannequin - TechStreet
- 13 Essential Gemini 2.5 Computer Use Actions You Can Automate…
-
[Google Unveils Gemini 2.5 Computer Use That Clicks… Beebom](https://beebom.com/google-unveils-gemini-2-5-computer-use-that-clicks-types-scrolls-like-humans/) - ‘Gemini 2.5 Computer Use’ has strong web, Android performance
- Google DeepMind Launches Gemini 2.5 Computer Use Model to …
- Google launches Gemini 2.5 Computer Use to rival OpenAI …
- Gemini 1.5 Flash
- Gemini 2.5 Pro
- Gemini 1.0 Ultra
- 直接破解网站的复杂代码 (API)。
- 仅根据人类预先输入的指令运行。
- 通过分析屏幕截图来执行点击或输入等操作。
- 5 种
- 13 种
- 100 种