代我点击和打字的 AI?谷歌 'Gemini 2.5 Computer Use' 问世

描绘 AI 在电脑屏幕上操作鼠标光标并穿梭于各种网页的形象图
AI Summary

谷歌发布了一款‘智能体级’ AI 模型,该模型能够理解屏幕内容,自主执行 13 种动作并操作网络浏览器。

想象一下周一早上,一上班就要面对堆积如山的电子邮件和收据。这是一个枯燥的过程:需要一个个打开,确认日期和金额,然后逐一输入公司的结算系统。登录、上传文件、填空,这些简单重复的工作占据了我们宝贵时间的大部分。但如果此时你只需对 AI 说一句“帮我把这些收据都整理好并提交”,会怎样呢?AI 像人一样盯着屏幕代替你的眼睛,移动鼠标代替你的双手,完美地完成所有工作。这不再是科幻电影里的情节。谷歌最近公开的 ‘Gemini 2.5 Computer Use’ 模型正为我们勾勒出这种近在咫尺的未来。 Introducing the Gemini 2.5 Computer Use model

为什么这很重要?

到目前为止,我们为之疯狂的 ChatGPT 或早期的 Gemini 主要是“能言善辩”的 AI。它们能对疑问给出完美的回答,或是摘要复杂的论文,让我们惊叹不已。但仔细想想,我们在电脑上做的 80%~90% 的工作不是对话,而是具体的“行动”。点击特定按钮、向下滚动(Scroll)、在搜索框输入文字,这些都是一系列的操作。

Gemini 2.5 Computer Use 的出现,标志着 AI 正从单纯传递知识的“语言助手”进化为实际执行用户任务的 “智能体(Agent)”Introducing Gemini 2.5 Computer Use model: A Paradigm Shift in AI’s Digital Dexterity 该模型能像人一样直观地理解网页浏览器或智能手机应用的界面结构,并直接控制鼠标和键盘。 [Introducing Gemini 2.5 Computer Use: AI for web and… LinkedIn](https://www.linkedin.com/posts/googleaidevs_introducing-gemini-25-computer-use-available-activity-7381415403840864256-ycSe) 简单来说,AI 拥有了懂得操作电脑的“手”。这不仅能实现企业重复性办公的自动化,更拥有从根本上改变软件测试方式的巨大潜力。 [Gemini 2.5 Computer Use model Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-2.5-computer-use-preview-10-2025)

易于理解:AI 拥有了“眼睛”和“手”

Gemini 2.5 Computer Use 的工作方式可以用 “智能体循环(Agent Loop)” 这一概念来解释。打个比方,这就像我们在陌生道路上驾驶时,“观察路况(眼) -> 与导航路径对比做出判断(脑) -> 转动方向盘或踩刹车(手)”这一不断重复的过程。 Introducing the Gemini 2.5 Computer Use model

  1. 状况感知(眼): AI 首先通过屏幕截图实时分析当前的电脑屏幕。这是“观察”哪里有按钮、哪里有输入框的阶段。 Introducing the Gemini 2.5 Computer Use model
  2. 推理(脑): 如果用户请求“帮我订机票”,AI 会将当前屏幕与请求事项进行比对,并做出判断:“现在应该先按‘登录’按钮”。 Google’s Gemini 2.5 Computer Use model can navigate the web like a …
  3. 执行(手): 一旦做出判断,它就会实际将鼠标光标移动到相应位置并点击,或者用键盘输入账号和密码。 Introducing the Gemini 2.5 Computer Use model
这种魔法般的能力是建立在谷歌最强大的 AI 模型之一——’Gemini 2.5 Pro’ 出众的视觉分析能力和推理能力基础之上的。 [Introducing Gemini 2.5 Computer Use: AI for web and… LinkedIn](https://www.linkedin.com/posts/googleaidevs_introducing-gemini-25-computer-use-available-activity-7381415403840864256-ycSe) 特别是它能以像素为单位精准控制鼠标光标,并重点学习了网页浏览器上发生的 13 种核心动作,从而提高了熟练度。 Google News - Google releases Gemini 2.5, a new AI model with web…

再打个比方,如果说现有的 AI 是背下了整本名为《电脑使用手册》的百科全书的理论家,那么 Gemini 2.5 Computer Use 就像是实际拿起鼠标投入实习的新员工。虽然目前还处于“预览(Preview)”阶段,速度可能稍慢或存在失误,但它能自主观察屏幕并寻找路径,这本身就是一个巨大的飞跃。 Google releases a preview of its Gemini 2.5 Computer Use AI model …

现状:进展到什么程度了?

谷歌在 2025 年 10 月初,就在竞争对手 OpenAI 提到类似技术的第二天,果断公开了这一模型,投下了旨在抢占 AI 智能体市场主导权的重磅炸弹。 Google launches Gemini 2.5 Computer Use to rival OpenAI agents 目前,该模型正以“公开预览版”的形式提供,开发者可以直接进行测试并尝试将其融入自己的服务中。 Introducing Gemini 2.5 Computer Use model: A Paradigm Shift in AI’s Digital Dexterity

谷歌不仅展示了可能性,还通过客观的性能指标(基准测试)证明了其实力:

这些测试结果支撑了一个观点:Gemini 2.5 Computer Use 可以让 AI 共享人类观察屏幕时产生的直觉,并以此为基础解决实际问题。 Gemini 2.5 Computer Use Model: How It Automates Browsers

未来会怎样?

专家们预测,该模型的出现将成为 AI 渗透我们生活方式的一个分水岭。 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary … 在不久的将来,我们可能会在日常生活中遇到以下惊人的变化:

  1. 超乎想象的个人助手: 只需说一句“这周末我要和朋友们在江南站附近见面,帮我预订一家评分 4 分以上的餐厅,并在群聊里通知地点和时间”。AI 就会运行餐厅预订应用完成预订,然后打开聊天软件发送信息。
  2. 软件质量的革命: 开发新应用的开发者不再需要彻夜寻找 Bug。AI 智能体会成千上万次点击应用的各个角落,找出错误并编写报告。 [Gemini 2.5 Computer Use model Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-2.5-computer-use-preview-10-2025)
  3. 造福所有人的技术: 对于不擅长操作手机或电脑的老年人,或者视力受损难以观察屏幕的残障人士,这将是巨大的助力。因为无需复杂的点击过程,仅凭语音指令即可自由使用所有的数字服务。

当然,仍有课题需要解决。当 AI 误购了错误的商品,或者不当处理用户的敏感隐私信息时,我们需要相关的安全和伦理准则来应对。但谷歌迈出的这一步让我们坚信,AI 将超越单纯的工具,成为与我们一同在数字世界生活的可靠“伙伴”。 Is Gemini 2.5 Computer Use Model the Future of AI-Driven Interface Control?

AI 的视角

MindTickleBytes 的 AI 记者视角: “曾经只会夸夸其谈的 AI 现在实际握住了电脑鼠标。这是一个极具象征意义的事件,意味着 AI 技术已跨越‘语言屏障’进入了‘行动领域’。不久的将来,我们将与 AI 智能体像空气一样自然地协作,甚至不会产生‘让 AI 去做这件事’的念头。随着便利性的增加,我们也该认真开始讨论关于 AI 自主权该开放到何种程度、以及如何信任 AI 的社会共识了。”

参考资料

  1. Introducing the Gemini 2.5 Computer Use model
  2. Google News - Google releases Gemini 2.5, a new AI model with web…
  3. Gemini 2.5 Computer Use AGENT: THE BEST AGENTIC… - YouTube
  4. [Introducing Gemini 2.5 Computer Use: AI for web and… LinkedIn](https://www.linkedin.com/posts/googleaidevs_introducing-gemini-25-computer-use-available-activity-7381415403840864256-ycSe)
  5. Gemini 2.5 Computer Use Model: How It Automates Browsers
  6. Gemini Computer Use: Google’s FREE Browser… - Analytics Vidhya
  7. [Gemini 2.5 Computer Use model Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-2.5-computer-use-preview-10-2025)
  8. Is Gemini 2.5 Computer Use Model the Future of AI-Driven Interface Control?
  9. Google DeepMind Launches Gemini 2.5 Computer Use Model to Power UI-Controlling AI Agents - InfoQ
  10. 2025 Complete Guide: Gemini 2.5 Computer Use Model - Revolutionary …
  11. Google launches Gemini 2.5 Computer Use to rival OpenAI agents
  12. Google releases a preview of its Gemini 2.5 Computer Use AI model …
  13. Introducing Gemini 2.5 Computer Use model: A Paradigm Shift in AI’s Digital Dexterity
  14. Google’s Gemini 2.5 Computer Use model can navigate the web like a …

FACT-CHECK SUMMARY

  • Claims checked: 15
  • Claims verified: 15
  • Verdict: PASS
测试你的理解
Q1. Gemini 2.5 Computer Use 模型在执行任务时,首先接收的数据是什么?
  • 用户的声音
  • 屏幕截图或上下文信息
  • Excel 文件数据
该模型通过‘智能体循环’(Agent Loop)拍摄屏幕截图以掌握当前状况,然后决定下一个动作。
Q2. 该模型通过学习共可以执行多少种动作?
  • 5 种
  • 13 种
  • 100 种
Gemini 2.5 Computer Use 经过训练,可以执行 13 种不同的动作来浏览和操作浏览器。
Q3. 在该模型表现优异的基准测试(性能指标)中,测试安卓环境的是哪一个?
  • Online-Mind2Web
  • WebVoyager
  • AndroidWorld
Gemini 2.5 Computer Use 在包括 AndroidWorld 在内的多个界面控制基准测试中展现了强劲的性能。