AI 可以直接操作我的电脑?谷歌 Gemini 3.5 Flash 迎来重大更新

展现谷歌 Gemini AI 查看计算机屏幕并操控鼠标与键盘的示意图
AI Summary

谷歌在 Gemini 3.5 Flash 中原生集成了“计算机使用”功能,使其能够直接查看并操作计算机屏幕,从而支持开发更快速、更智能的 AI 智能体。

想象一下:清晨醒来,打开电脑,你对 AI 助手说:“请帮我查看邮件中的会议日程并存入日历,然后搜索会议所需的资料并整理好。”以前的 AI 只能通过文字告诉你操作方法,但现在不同了。一个 AI 能够像人类一样直视屏幕,亲手移动鼠标和敲击键盘来处理工作的时代已经开启。

谷歌最近发布的重磅更新正是这一变革的核心。谷歌的下一代 AI 模型“Gemini 3.5 Flash”原生集成了名为“计算机使用(Computer Use)”的能力 출처 1출처 3.

为什么这很重要?

此前,AI 在生成文本、编写代码和制作图像方面表现出色,但在操作系统或特定应用程序内执行“实际行为”(如点击鼠标或按下按钮)方面却存在局限。要实现这些,通常需要连接单独的复杂程序。

但现在,Gemini 3.5 Flash 相当于考取了“计算机操作员”资格证。开发者无需复杂的中间过程,只需利用 Gemini 自身,就能分析屏幕、进行推理并构建能够自主行动的 AI 智能体 출처 2출처 12。这有望彻底改变工作效率,因为 AI 可以接管重复性的工作,比如将 Excel 数据自动填入网页,或根据环境优化复杂软件的设置。

通俗易懂:通过比喻理解 AI 的演变

我们可以这样比喻:之前的 AI 就像是一位“聪明的厨师”,他只能在厨房里查看食谱、教你做菜的方法,或指导食材的处理步骤。而拥有了“计算机使用”功能的 Gemini 3.5 Flash,则相当于这位厨师亲自拿起厨具并完成了整道菜品的烹饪

Gemini 3.5 Flash 基于 Transformer(一种通过理解句子中词语关系来把握语境的 AI 架构)技术,将屏幕元素理解为句子中的单词。通过屏幕信息,它能识别按钮位置、决定点击哪个菜单,并自主判断达成目标的操作顺序 출처 1.

现状如何?

目前,Gemini 3.5 Flash 的操作水平相当精准。在名为“OSWorld-Verified”的计算机使用性能评估中,它获得了 78.4% 的高分 출처 7。Salesforce、Xero 和 Shopify 等全球知名企业已经开始将这项技术应用于工作自动化 출처 7

当然,它并非能变出所有魔法。谷歌表示,该技术目前在大规模办公自动化或需要实时分析屏幕数据并做出响应的场景(如实时欺诈检测等)中表现尤为突出 출처 9。任何人现在都可以通过 Gemini API 和 Gemini 企业级智能体平台来体验这一功能 출처 2.

未来将如何演变?

Gemini 3.5 Flash 的诞生是为了迎接 AI 不再仅仅是文本工具,而是能够代表人类执行复杂任务的“智能体时代” 출처 5。未来,我们无需逐一学习复杂的软件操作方法,只需向 AI 明确目标即可。

Gemini 在多阶段任务或重复性编码工作等需要持续处理的任务中表现格外优异 출처 5。在不久的将来,当我们坐在电脑前不再进行机械重复的点击,而是在享用咖啡的同时,Gemini 正在屏幕后默默完成工作,这样的场景将变得司空见惯。

MindTickleBytes AI 记者视点

AI 终于获得了数字世界的“手和脚”,这是一个非常重要的转折点。现在,AI 已经摆脱了仅能观看屏幕另一端信息的身份,成为能够亲手操控鼠标、改变世界的数字助手。我们非常期待这一变革将如何让我们的日常生活和工作方式变得更加便捷与快乐。

参考资料

  1. Introducing computer use in Gemini 3.5 Flash - The Keyword
  2. Google Adds Computer Use as a Native Tool in Gemini 3.5 Flash
  3. Google adds built-in computer control to Gemini 3.5 flash …
  4. Gemini 3.5 Flash Gets Powerful Computer Use Features
  5. [Gemini 3.5 Flash Gemini API Google AI for Developers](https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash)
  6. Introducing computer use in Gemini 3.5 Flash - vuink.com
  7. Gemini 3.5 Flash integrates computer use for enhanced automation
  8. Computer use integrated into Gemini 3.5 Flash – The Bubble
  9. Exploring the Gemini 3.5 Flash Built-in Computer Use Tool - World Today News
  10. Google Gemini 3.5 Flash Gets Native Computer Use: AI Agent Controls Web, Mobile, Desktop - NPowerUser
  11. Google Introducing Computer Use In Gemini 3.5 Flash - Alphabet (NASDAQ:GOOGL), Alphabet (NASDAQ:GOOG) - Benzinga
  12. Gemini3.5Flashcan now see and control your screen, and Google…
测试你的理解
Q1. 此次更新中,Gemini 3.5 Flash 新增的最重要变化是什么?
  • 无需独立模型即可原生支持计算机使用功能
  • 新增了图形设计工具
  • 语音识别速度提升 2 倍
谷歌将计算机使用功能直接集成到了 Gemini 3.5 Flash 内部,使开发者无需使用独立的模型。
Q2. Gemini 3.5 Flash 的计算机使用功能支持哪些环境?
  • 仅限网页浏览器
  • 仅限移动端
  • 支持浏览器、移动端及桌面环境
Gemini 3.5 Flash 具备涵盖网页、移动端和桌面环境的全方位操作能力。
Q3. Gemini 3.5 Flash 的主要设计目的是什么?
  • 简单的图像生成
  • 实时对话练习
  • 执行基于智能体的复杂任务
Gemini 3.5 Flash 旨在应对智能体时代的需求,旨在快速处理多步骤工作流和复杂的编码迭代任务。