AI可以直接控制你的电脑了?Gemini 3.5 Flash '计算机使用'功能发布

Gemini 3.5 Flash标志与AI代理操控计算机屏幕的形象化设计
AI Summary

谷歌为Gemini 3.5 Flash模型新增了'计算机使用(Computer Use)'功能,AI能够像人类一样直接操控计算机,从而实现复杂任务的自动化。

想象一下:你早晨醒来,对AI说:“把我今天要开会的资料整理到相关文件夹里,并写一份主要内容摘要作为邮件草稿。”在此之前,AI或许只能帮你总结内容,但现在,AI直接移动鼠标、打开窗口、移动文件并在邮件撰写界面输入文字的时代即将来临。谷歌近日发布的 Gemini 3.5 Flash 的“计算机使用(Computer Use)”功能,正是这一变革的主角。

为什么它很重要?

过去我们使用的人工智能(AI)主要停留在生成“文本”或“图像”阶段。我们必须手动复制AI生成的内容,再粘贴到其他程序中。但“计算机使用”功能的引入彻底改变了现状。AI能够直接操作工具(计算机),意味着我们可以将那些重复、繁琐的任务完全交给AI去完成。

打个比方,如果说之前的AI是精通食谱的“美食评论家”,那么新的AI就是直接走进厨房、手握刀具并掌控火候的“主厨”。对于企业来说,这意味着工作效率的飞跃;对于个人而言,则意味着拥有了一位能管理复杂数字环境的高能私人助理。根据 Source 1,开发者和企业现在可以通过Gemini 3.5 Flash自行构建和运营此类代理。

通俗理解:AI掌握了鼠标

所谓“计算机使用”功能,简单来说就是让AI像人的眼睛一样“看”计算机屏幕,并像人的“手”一样使用鼠标和键盘来执行命令。为此,AI会学习控制浏览器或操作移动端及桌面应用程序的过程。

原本需要人类逐一点击鼠标才能完成的庞大数字任务,现在AI可以瞬间将其完成。根据 Source 2Source 4,这项技术能帮助AI代理在浏览器或各类软件之间切换,代表用户实现复杂工作的自动化。

现状:开发者的创新工具

目前,Gemini 3.5 Flash的这一创新功能通过面向开发者的API以及企业级平台“Gemini Enterprise Agent Platform”提供。根据 Source 1Source 3,谷歌还准备了企业级安全防护措施(Enterprise safeguards),确保企业能放心使用。

当然,这并不是说普通用户现在就可以在PC设置里开启“AI模式”。目前阶段主要是面向企业或服务开发者,让他们能在自己的应用或工作环境中部署这些“聪明能干的员工”。

未来展望

我们很快就会看到,AI将不再局限于聊天对话框,而是活跃在计算机操作系统(OS)内。“帮我在购物网站找到最低价商品并下单”、“结合我常用的三个App生成月度报告草稿”——这类需求,未来AI都将能通过自主切换浏览器和App来解决。 Source 2 预测,此次更新将促成跨平台代理的实现。

MindTickleBytes AI记者观点

AI超越了撰写文字和编码的阶段,如今已经亲手拿起了“计算机”这一工具。这预示着人类的数字工作方式将被彻底重定义。如果AI接手了我们点击鼠标的时间,我们人类是否就能拥有更多时间去进行创造性和本质上的思考呢?

参考资料

  1. Introducing computer use in Gemini 3.5 Flash
  2. [Google’s Gemini 3.5 Flash can now build agents to operate across platforms Seeking Alpha](https://seekingalpha.com/news/4606864-googles-gemini-3_5-flash-can-now-build-agents-to-operate-across-platforms)
  3. [Gemini 3.5 Flash Gemini Enterprise Agent Platform Google Cloud Documentation](https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/3-5-flash)
  4. [ComputerUse GeminiAPI Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)
测试你的理解
Q1. Gemini 3.5 Flash新增的'计算机使用'功能有什么作用?
  • AI仅直接执行编码任务
  • 直接操控浏览器和桌面应用以实现任务自动化
  • 仅管理用户的电子邮件
计算机使用功能可帮助AI直接点击和操作浏览器或应用程序,从而自主处理复杂任务。
Q2. 开发者可以在哪里使用该功能?
  • Gemini API和Gemini Enterprise Agent Platform
  • 个人智能手机App设置
  • 浏览器设置菜单
开发者和企业可以通过Gemini API和Gemini Enterprise Agent Platform利用该功能。
Q3. 该功能的主要优势是什么?
  • 降低AI运行速度
  • 能够构建跨平台的代理
  • 无需互联网连接
Gemini 3.5 Flash的计算机使用功能支持构建可在浏览器、移动端和桌面端等多种平台运行的个性化代理。