谷歌为Gemini 3.5 Flash模型新增了'计算机使用(Computer Use)'功能,AI能够像人类一样直接操控计算机,从而实现复杂任务的自动化。
想象一下:你早晨醒来,对AI说:“把我今天要开会的资料整理到相关文件夹里,并写一份主要内容摘要作为邮件草稿。”在此之前,AI或许只能帮你总结内容,但现在,AI直接移动鼠标、打开窗口、移动文件并在邮件撰写界面输入文字的时代即将来临。谷歌近日发布的 Gemini 3.5 Flash 的“计算机使用(Computer Use)”功能,正是这一变革的主角。
为什么它很重要?
过去我们使用的人工智能(AI)主要停留在生成“文本”或“图像”阶段。我们必须手动复制AI生成的内容,再粘贴到其他程序中。但“计算机使用”功能的引入彻底改变了现状。AI能够直接操作工具(计算机),意味着我们可以将那些重复、繁琐的任务完全交给AI去完成。
打个比方,如果说之前的AI是精通食谱的“美食评论家”,那么新的AI就是直接走进厨房、手握刀具并掌控火候的“主厨”。对于企业来说,这意味着工作效率的飞跃;对于个人而言,则意味着拥有了一位能管理复杂数字环境的高能私人助理。根据 Source 1,开发者和企业现在可以通过Gemini 3.5 Flash自行构建和运营此类代理。
通俗理解:AI掌握了鼠标
所谓“计算机使用”功能,简单来说就是让AI像人的眼睛一样“看”计算机屏幕,并像人的“手”一样使用鼠标和键盘来执行命令。为此,AI会学习控制浏览器或操作移动端及桌面应用程序的过程。
原本需要人类逐一点击鼠标才能完成的庞大数字任务,现在AI可以瞬间将其完成。根据 Source 2 和 Source 4,这项技术能帮助AI代理在浏览器或各类软件之间切换,代表用户实现复杂工作的自动化。
现状:开发者的创新工具
目前,Gemini 3.5 Flash的这一创新功能通过面向开发者的API以及企业级平台“Gemini Enterprise Agent Platform”提供。根据 Source 1 和 Source 3,谷歌还准备了企业级安全防护措施(Enterprise safeguards),确保企业能放心使用。
当然,这并不是说普通用户现在就可以在PC设置里开启“AI模式”。目前阶段主要是面向企业或服务开发者,让他们能在自己的应用或工作环境中部署这些“聪明能干的员工”。
未来展望
我们很快就会看到,AI将不再局限于聊天对话框,而是活跃在计算机操作系统(OS)内。“帮我在购物网站找到最低价商品并下单”、“结合我常用的三个App生成月度报告草稿”——这类需求,未来AI都将能通过自主切换浏览器和App来解决。 Source 2 预测,此次更新将促成跨平台代理的实现。
MindTickleBytes AI记者观点
AI超越了撰写文字和编码的阶段,如今已经亲手拿起了“计算机”这一工具。这预示着人类的数字工作方式将被彻底重定义。如果AI接手了我们点击鼠标的时间,我们人类是否就能拥有更多时间去进行创造性和本质上的思考呢?
参考资料
- Introducing computer use in Gemini 3.5 Flash
-
[Google’s Gemini 3.5 Flash can now build agents to operate across platforms Seeking Alpha](https://seekingalpha.com/news/4606864-googles-gemini-3_5-flash-can-now-build-agents-to-operate-across-platforms) -
[Gemini 3.5 Flash Gemini Enterprise Agent Platform Google Cloud Documentation](https://docs.cloud.google.com/gemini-enterprise-agent-platform/models/gemini/3-5-flash) -
[ComputerUse GeminiAPI Google AI for Developers](https://ai.google.dev/gemini-api/docs/computer-use)
- AI仅直接执行编码任务
- 直接操控浏览器和桌面应用以实现任务自动化
- 仅管理用户的电子邮件
- Gemini API和Gemini Enterprise Agent Platform
- 个人智能手机App设置
- 浏览器设置菜单
- 降低AI运行速度
- 能够构建跨平台的代理
- 无需互联网连接