AI可以直接控制你的电脑了？Gemini 3.5 Flash '计算机使用'功能发布

AI Summary

谷歌为Gemini 3.5 Flash模型新增了'计算机使用（Computer Use）'功能，AI能够像人类一样直接操控计算机，从而实现复杂任务的自动化。

想象一下：你早晨醒来，对AI说：“把我今天要开会的资料整理到相关文件夹里，并写一份主要内容摘要作为邮件草稿。”在此之前，AI或许只能帮你总结内容，但现在，AI直接移动鼠标、打开窗口、移动文件并在邮件撰写界面输入文字的时代即将来临。谷歌近日发布的 Gemini 3.5 Flash 的“计算机使用（Computer Use）”功能，正是这一变革的主角。

为什么它很重要？

过去我们使用的人工智能（AI）主要停留在生成“文本”或“图像”阶段。我们必须手动复制AI生成的内容，再粘贴到其他程序中。但“计算机使用”功能的引入彻底改变了现状。AI能够直接操作工具（计算机），意味着我们可以将那些重复、繁琐的任务完全交给AI去完成。

打个比方，如果说之前的AI是精通食谱的“美食评论家”，那么新的AI就是直接走进厨房、手握刀具并掌控火候的“主厨”。对于企业来说，这意味着工作效率的飞跃；对于个人而言，则意味着拥有了一位能管理复杂数字环境的高能私人助理。根据 Source 1，开发者和企业现在可以通过Gemini 3.5 Flash自行构建和运营此类代理。

通俗理解：AI掌握了鼠标

所谓“计算机使用”功能，简单来说就是让AI像人的眼睛一样“看”计算机屏幕，并像人的“手”一样使用鼠标和键盘来执行命令。为此，AI会学习控制浏览器或操作移动端及桌面应用程序的过程。

原本需要人类逐一点击鼠标才能完成的庞大数字任务，现在AI可以瞬间将其完成。根据 Source 2 和 Source 4，这项技术能帮助AI代理在浏览器或各类软件之间切换，代表用户实现复杂工作的自动化。

现状：开发者的创新工具

目前，Gemini 3.5 Flash的这一创新功能通过面向开发者的API以及企业级平台“Gemini Enterprise Agent Platform”提供。根据 Source 1 和 Source 3，谷歌还准备了企业级安全防护措施（Enterprise safeguards），确保企业能放心使用。

当然，这并不是说普通用户现在就可以在PC设置里开启“AI模式”。目前阶段主要是面向企业或服务开发者，让他们能在自己的应用或工作环境中部署这些“聪明能干的员工”。

未来展望

我们很快就会看到，AI将不再局限于聊天对话框，而是活跃在计算机操作系统（OS）内。“帮我在购物网站找到最低价商品并下单”、“结合我常用的三个App生成月度报告草稿”——这类需求，未来AI都将能通过自主切换浏览器和App来解决。 Source 2 预测，此次更新将促成跨平台代理的实现。

MindTickleBytes AI记者观点

AI超越了撰写文字和编码的阶段，如今已经亲手拿起了“计算机”这一工具。这预示着人类的数字工作方式将被彻底重定义。如果AI接手了我们点击鼠标的时间，我们人类是否就能拥有更多时间去进行创造性和本质上的思考呢？

参考资料

Introducing computer use in Gemini 3.5 Flash

[Google’s Gemini 3.5 Flash can now build agents to operate across platforms

Seeking Alpha](https://seekingalpha.com/news/4606864-googles-gemini-3_5-flash-can-now-build-agents-to-operate-across-platforms)

[Gemini 3.5 Flash

Gemini Enterprise Agent Platform

Google Cloud Documentation](https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/3-5-flash)

[ComputerUse GeminiAPI Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)

Share this article:

测试你的理解

Q1. Gemini 3.5 Flash新增的'计算机使用'功能有什么作用？

AI仅直接执行编码任务
直接操控浏览器和桌面应用以实现任务自动化
仅管理用户的电子邮件

计算机使用功能可帮助AI直接点击和操作浏览器或应用程序，从而自主处理复杂任务。

Q2. 开发者可以在哪里使用该功能？

Gemini API和Gemini Enterprise Agent Platform
个人智能手机App设置
浏览器设置菜单

开发者和企业可以通过Gemini API和Gemini Enterprise Agent Platform利用该功能。

Q3. 该功能的主要优势是什么？

降低AI运行速度
能够构建跨平台的代理
无需互联网连接

Gemini 3.5 Flash的计算机使用功能支持构建可在浏览器、移动端和桌面端等多种平台运行的个性化代理。