如果把AI助手直接放进你电脑的黑屏里会怎样?(feat. 上下文窗口)

在暗室中,一个人站在发光的电脑终端屏幕前,AI的形象从屏幕中延伸出来
AI Summary

超越仅仅将AI作为聊天机器人使用的范畴,介绍让AI一次性读取电脑中所有文件和最新文档并直接执行命令的最新技术趋势。

想象一下,你在公司接到了一项艰巨的任务:需要总结几十份内容庞大的季度业绩报告。通常情况下,你可能会经历这样的过程:首先握住鼠标,逐一打开Excel文件和Word文档。拖动选中内容,然后复制(Ctrl+C)。接着切换到浏览器中打开的人工智能聊天机器人(如ChatGPT、Claude等)窗口,粘贴(Ctrl+V),并认真输入“请帮我总结一下这些内容”。如果只有一两个文件还能忍受,但如果是几十个长达数百页的文档呢?单是复制粘贴这种简单的体力劳动,就会耗掉你宝贵的一整天。更何况,如果聊天机器人吐出红色的错误提示:“输入的字符数太多,无法一次性处理”,那你简直会眼前一黑,准时下班也就泡汤了。

然而,坐在你旁边的那位天才开发者同事的工作方式却有些不同。他根本不碰鼠标。只是打开了一个在黑客电影里才会出现的、黑色背景上只有白色字体闪烁的“终端(Terminal)”窗口。接着,他噼里啪啦地敲了几行让人看不懂的英文单词,然后漫不经心地按下回车键。短短几分钟内,几十个文档就被完美地总结完毕,桌面上直接生成了一个只提取了核心内容的报告文件。这位同事的电脑里到底发生了什么魔法?他既没有访问聊天机器人的网站,也没有做过哪怕一次的复制粘贴。

这正是我们今天要探讨的最新人工智能技术的生动现场。硅谷的开发者和数据科学家们,现在已经不再仅仅将人工智能作为一个只能在浏览器中聊天的“聊天机器人”来使用了。他们把人工智能直接请进了自己电脑操作系统的最深处,让它亲自触碰和操作硬盘里的所有文件和数据。这种像魔法一样的事情是如何成为可能的呢?这都要归功于“命令行界面(CLI, Command-Line Interface)”工具的耀眼发展,以及让AI一次性读取并记住海量信息的“上下文窗口(Context Window)”的进化。今天在MindTickleBytes,我们将用像好朋友喝着咖啡闲聊一样轻松有趣的方式,为你解答这个日常听起来可能有些深奥的最新技术趋势。


为什么这很重要?(Why It Matters)

丢掉鼠标,拿起键盘:GUI与CLI的决定性差异

要想理解这项技术为什么重要到足以彻底颠覆我们的工作方式,首先我们必须明确认识到我们日常使用电脑的GUI方式,与专家偏爱的CLI方式之间存在着决定性的差异。

我们通常在打开电脑时,习惯于看到华丽的图标和文件夹图案,并移动鼠标指针进行点击。这被称为“GUI(图形用户界面,Graphical User Interface)”。由于它由图形和按钮组成,因此直观且易于学习,但在处理几十个文件等复杂且重复的任务时,它需要大量的手动操作,工作速度会显著下降,这是一个致命的缺点。相反,专家们钟爱的“CLI(命令行界面,Command-Line Interface)”则是一种仅通过纯文本形式的命令与计算机进行交流的方式。屏幕上没有任何华丽的图片,只有一个闪烁的光标供你输入文字。

为什么他们非要执着于这种看起来既困难又枯燥的方式呢?为了方便理解,我们可以把它比作一家高级餐厅。如果说GUI是客人看着印满精美食物照片的菜单,然后叫服务员点菜的过程;那么CLI就像是客人直接冲进厨房,对主厨非常具体且迅速地直接下达指令:“把冰箱第二层角落里的三文鱼和芦笋拿出来,放进200摄氏度的烤箱里精准烤上15分30秒”。因为不需要通过服务员或者翻看菜单,所以速度是无法比拟的快。而且,哪怕是菜单上没有的、天马行空的复杂菜肴,你也能随心所欲地完美操控并制作出来。

随着近期大语言模型(LLM, Large Language Model)技术的迅猛发展,这个名为CLI的神秘厨房里,开启了直接雇佣一位“天才AI主厨”并让他24小时驻守的新时代。用户不再需要打开浏览器去费时费力地复制粘贴文本了。以 LLM: 交互大型语言模型的CLI工具与Python库 的例子来看,用户只需在电脑终端窗口中,像通过管道一样将自己编写的Python代码文件内容输送过去,并命令它:“请详细解释一下这段代码”。

举个例子吧?只需 cat myfile.py | llm -s "Explain this code" 这一行文本命令,一切就都搞定了。简单来说,这里的 cat 意思就是打开文件的盖子并展示内容,而 |(管道符号)就像连接水管一样,把倾泻而出的文件内容一滴不漏地直接灌入AI(llm)的口中。你甚至不需要访问任何网站或者登录账号,你电脑里的文件、数据库和系统设置就能直接与AI的大脑连通。这样一来,不必要的鼠标点击时间完全消失,人类的工作效率得到了难以想象的提升。


通俗解析 (The Explainer)

AI无限的短期记忆力,上下文窗口(Context Window)的魔法

那么,AI究竟是如何做到一次性读取并完美理解散落在我们电脑文件夹里的海量文件和代码上下文的呢?在这里,为了理解未来的AI时代,有两个核心概念是你必须掌握的。那就是“Token”和“上下文窗口(Context Window)”。

首先,人工智能并不会像人一样,像拍照似的把我们使用的单词和完整句子作为一个整体来理解。为了让计算机能够进行快速的数学计算,它们会将单词切分成非常小的碎片单位,也就是“Token”来进行识别。正如在 [什么是上下文窗口? IBM](https://www.ibm.com/think/topics/context-window) 文档中详细解释的那样,如果使用Hugging Face平台提供的工具,你可以亲眼看到各种AI模型是如何将输入的文本进行Token化(切片)的。

打个比方,Token就是“语言的乐高积木”。“苹果”这个词可能是一个乐高积木(Token),而“Transformer”这种复杂的外来词可能会被切碎成3~4个Token。一般来说,如果是英语的话,一个单词大约会被转换成1.2个Token,这样算起来就差不多了。

而能够把这些被切碎的无数块乐高积木(Token)一次性放在桌子上,联系前后文进行思考的AI的“短期记忆力”或“工作空间”,我们就称之为上下文窗口

为了方便理解,我们可以把它比作复杂的犯罪调查场景。想象一下你是一名老练的刑警,正在调查一起错综复杂的连环案件。为了破案,你必须把几百张犯罪现场的照片、十名嫌疑人一个月的通话记录、几十名目击者的证词等庞大而碎片化的证据材料全部装进脑子里,并进行仔细比对以找出矛盾点。在这里,“上下文窗口”就是指你们专案组那块巨大的“白板的大小”——你可以把所有证据材料互不重叠地铺展开来,一目了然地画上红线进行对比分析。

遗憾的是,在过去的人工智能发展初期,这块白板实在太小了。充其量只是一块勉强能贴上三四张A4纸的狭小空间。因此,当你把一号嫌疑人的证词贴在白板上仔细阅读时,为了核实二号嫌疑人的不在场证明,想拿出新文件,你就不得不把已经贴上去的第一份文件撕下来扔掉。当然,这就会导致AI很快忘记它刚刚读过的重要内容,并出现胡乱回答、编造谎言的幻觉(Hallucination)症状。

但现在情况已经发生了翻天覆地的变化。得益于硬件的耀眼发展和AI算法的创新,AI使用的这块白板的面积已经变得像一座巨大的世界杯体育场一样辽阔。根据 具有最大上下文窗口的LLM 技术报告指出,当今工业界最领先的顶级LLM,普遍支持能够一次性无错误地处理多达40万甚至100万个输入Token的超巨大上下文窗口。

这100万个Token在现实生活中究竟是怎样惊人的分量呢?这意味着它可以在你提出一个问题时,毫不犹豫地将正在运行的计算机程序的几十万行源代码(Codebase)、数百份只有律师才会去看的密密麻麻的法律合同文件、长达几个小时的纪录片的长篇剧本,甚至某个用户与AI数月以来每天的日常对话记录的从头到尾,全都铺展在这块巨大的白板上,并瞬间读取完毕。如今变得更聪明的AI不再需要紧张地回想“刚才第一份文件里是怎么说的来着?”或者结结巴巴,而是能对你一次性抛给它的数千个文件进行毫无误差的透视,并得出完美的上下文分析结果。


现状 (Where We Stand)

这种令人惊叹的技术飞跃,不再只是困在大学实验室厚厚论文里的遥远未来。此时此刻,在全世界无数数据科学家和程序员黑色终端窗口中,它正作为鲜活而充满活力的现实每天上演着。

随心挑选的100多种人工智能大脑

过去,我们必须访问某个全球企业独家提供的单一聊天机器人网站,被动地使用他们允许的人工智能模型。但现在,聪明的用户们可以根据自己的工作场景和预算,像更换手机壳一样轻松地更换人工智能大脑。正如在 llm · PyPI 中说明的那样,只要安装一次基于Python、名为“llm”的CLI实用工具,你就可以在终端窗口中仅用一行命令,自如地在由OpenAI、Anthropic、Gemini等全球科技巨头斥巨资开发的顶级商用AI模型,与直接下载到电脑硬盘上、无需互联网即可离线运行的“本地人工智能模型”之间进行切换和操控。

目前,世界上每天都会涌现出各种各样超乎想象、充满个性的AI。从 LLM排行榜 - 超过100种来自OpenAI等公司的AI模型比较… 网站统计的数据来看,有超过100个不同的AI模型正在展示各自的专长。它们在诸如智能的逻辑准确度水平、每个Token的使用价格、文字输出的速度、延迟时间,以及前面深入探讨过的上下文窗口最大支持大小等各项核心指标上互不相让,进行着激烈的生存竞争。

如今,对这些海量模型的管理也能在终端内完美地进行。利用如 列出各大供应商可用LLM模型的CLI工具 这样的管理工具,用户可以在终端环境中安全地对各家公司的API(应用程序接口)密钥进行加密配置,并清晰地查看和指挥当前自己电脑上可以立即调用的所有人工智能列表。熟练的工作者可以像交响乐团的指挥家一样,完美地决定是使用最聪明、最昂贵的模型来解决高难度的数学算法问题,还是使用快如闪电且100%免费的本地小型模型来进行简单的文本拼写检查。

在封闭网络中起舞的本地模型与极致的安全

最近在专家和开发者社区中爆发式增长的另一个革命性趋势,就是即使在离线环境下也能完美运行的本地AI模型的普及。要想汇总包含企业核心技术的机密源代码,或者包含数百万个身份证号码的患者数据,将这些内容全盘通过互联网传输到其他全球科技巨头的云端服务器,这在安全上是绝对无法容忍的巨大风险行为。

正如 [在本地运行LLM:7种简单方法 DataCamp](https://www.datacamp.com/tutorial/run-llms-locally-tutorial) 教程中详细介绍的那样,最近出现了像GPT4All、LM Studio、Ollama和llama.cpp这样非常直观且易用的免费开源框架。借助这些工具,任何人都可以无需复杂的网络设置,直接将高性能AI完整下载并安装到自己的Windows笔记本、MacBook或Linux PC上。因此,即使是在连不上网的深深的地下堡垒里,或者在1万米高空断掉Wi-Fi的飞机上,你笔记本里的AI助手依然能完美地为你总结私人文档、协助编程。

甚至从 在OpenCode中使用llama.cpp的本地LLM – Aayush Garg 这篇博客文章的案例中可以看出,本地LLM的应用已经超越了单纯的问答功能。现在它甚至可以像API一样,直接连接到专属的编程助手平台(如OpenCode),在你敲击键盘的瞬间为你自动补全代码。在本地运行模型的6款最佳LLM工具 这篇文章也强调,这些工具已经不再局限于过去终端命令行的层面,而是能在用户的电脑环境中扮演自身API服务器的完美角色,在离线状态下提供与使用OpenAI付费服务完全相同且流畅的体验。

“不知道我就去搜回来” - 幻觉现象的完美疗法

然而,再聪明的天才人工智能,依然有一个必须克服的致命软肋。那就是面对自己不知道的事实时,它不会诚实地承认自己不知道,反而会用极其自信且逻辑自洽的态度去编造看似合理的谎言,这就是所谓的“幻觉(Hallucination)”现象。当开发者请求AI“请用最新的React框架语法帮我搭建一个网站骨架”时,AI经常会根据它去年学习的、已经过了保质期的陈旧知识,一本正经地写出一堆现在根本无法运行的废旧代码,这样的事情屡见不鲜。

为了从源头上彻底阻断这种致命错误,类似于 GitHub - upstash/context7: Context7平台 – 实时更新的代码… 平台这样突破性且极其聪明的工具应运而生。用我们现实中的经历来打个比方,这个系统的运作方式,就像是把原本需要在门窗紧闭的考场中进行的“记忆力测试”,直接改成了随时可以翻书查阅的“开卷考试”。

它不会放任AI仅仅依赖过去模糊的学习数据去生搬硬套地写答案。在用户抛出Prompt(提示词/命令)的瞬间,名为Context7的辅助工具就会像闪电般连接到互联网和最新官方文档库。然后,它会抓取与问题相关的、最匹配特定软件版本的最新官方手册文档,以及在实际开发中马上就能零报错运行的新鲜代码示例。接着,它将这些信息整齐地摆放在前面提到过的多达100万Token的巨大上下文窗口(工作桌)上,与用户的问题合为一体后注入AI的大脑。

现在的AI完全不再需要去勉强翻找过去陈旧的知识了。它只需慢慢通读一分钟前刚送到桌上的完美最新手册,然后按照手册上的要求生成正确答案即可。结果就是,写出错误代码的幻觉概率被大幅降低到了接近于0的程度,而开发者也能得到只需复制粘贴就能马上运行服务的完美代码。

更进一步,当需要检索非常庞大的公司内部文档时,正如在 使用Qdrant进行检索 - Docling 最新案例中所展示的那样,这还能与最大限度发挥硬件支持的向量嵌入技术(FastEmbed)相结合。通过这种方式,在CLI窗口中可以以光速翻阅数千万条海量文本数据,像用镊子一样精准挑出相关性最高的信息并推送进AI的窗口中。这种强大的技术协同效应目前正呈爆炸式涌现。

此外,在数据形态方面,也在以惊人的速度不断进化。它不仅考虑了人眼容易阅读的流畅文字,同时也考虑了计算机程序间通信必不可少的机器数据格式。Linearis,为人类(和LLM智能体)构建的Linear CLI工具 工具在处理实际工作中广泛使用的项目管理工具Linear的数据时,不仅会输出纯文本,还能以完美结构化的JSON格式干净利落地输出结果,让AI智能体(机器人)和人类程序员进行二次处理时变得极其方便。CLI吐出数据让AI吃下,AI给出的答案又能让其他软件毫无误差地进行处理——这种流畅的齿轮连锁反应已经正式成为可能。


未来会怎样? (What’s Next)

超越显示器里的嘴,开始在数字世界中进行“行动”的AI

如果说此前的AI,还只是停留在拿着放大镜认真阅读用户提供的庞大文档,并在屏幕上用文字亲切地回答问题的优秀“秘书”或是慷慨建议的“顾问”层面上,那么未来我们将迎来的AI则完全不同。它将彻底蜕变成为直接双脚踏入你的电脑系统中,撸起袖子、挥洒着物理汗水积极为你干活的可靠且“独立的打工人”。把这从幻想变成现实的终极技术,正是“工具使用(Tool Use)”“函数调用(Function Calling)”能力。

令人惊讶的是,这种巨大的范式转变并不是遥远的未来,而是就在此时此刻我们的眼前正在发生着。根据 LLM 0.26版本的大型语言模型可在您的终端中运行工具 这篇有趣的文章报道,随着全球无数专家爱用的“llm”CLI工具迎来了0.26大版本更新,它搭载了自该项目启动以来最具震撼性和破坏力的新功能。也就是说,蜷缩在终端内的大语言模型,终于获得了强大的权限,能够在无需人类逐一批准和授权的情况下,依靠自身的逻辑判断,直接运行安装在用户电脑上的各种第三方“工具(Tools)”。

这对普通用户来说到底意味着什么巨大的变化呢?让我们回想一下不久前那些令人苦涩的情况。当用户提问:“请把桌面上这张扫描版纸质文档照片里的文字提取出来,并做成Word文件”,AI只会抛出用文字写成的云山雾罩的方法论:“请安装Python的Tesseract库,然后自己编写这些这些脚本代码,输入到终端里运行”。收到指令的人只能把AI的建议放在显示器的一个角落里,自己敲击键盘、修改出现的错误,老老实实地承受这物理上的苦力。打个比方,AI以前只不过是个坐在空调房里背着手、只动嘴皮子指点江山的讨厌现场监工。

但是现在,0.26版本之后进化了的AI,不仅拥有一只会说话的“嘴”,我们还能赋予它能在数字世界行使强大物理力量的“手和脚”,即真正的锤子和十字螺丝刀(数字工具)。翻看 GitHub - markomanninen/llm-experiments: 大型语言模型… 开源仓库里源源不断涌现的最新实验案例,简直让人感到超越了惊叹,甚至背脊发凉。深深扎根于终端黑色CLI环境中的AI,如今已经远远超越了单纯文字聊天的阶段。转换音频格式或直接播放系统音频的控制工具,能干净利落地分类和整理让人看了就头疼的复杂数值数据的数据管理工具,能在虚拟沙盒环境中立即编译并运行刚刚写好的代码的代码执行器(Code runner),甚至是在工作间隙为了让人类放松大脑,而在终端窗口内与人类严格遵守游戏规则进行井字棋(Tic-Tac-Toe)或国际象棋等经典游戏的互动——AI已经完全将这种主动调用函数的能力内化为自己的本事了。

想象一下,就在明早,你来到公司,揉着疲惫的双眼,在电脑前黑色的终端窗口里漫不经心地输入下面这段文字: “帮我分析一下今天凌晨下载到公司共享文件夹里的30个各分公司的Excel文件,把‘净利润’一栏显示为红色亏损的所有行都提取出来。收集这些数据,转换成一份包含精美饼图的整洁PDF报告文件,然后加上‘紧急:亏损分公司报告’的标题,立即发送给我们组长的邮箱。”

仅仅在1~2年前,这还是电影《钢铁侠》里对贾维斯下的那种科幻小说般荒诞不经的命令。但在拥有消化数百万Token的巨大上下文窗口,并且完美结合了自主运行CLI工具权限的最新AI特工面前,这只不过是一项再平凡不过、甚至有些无聊的早晨例行任务罢了。 收到这条复杂命令的AI,会迅速启动它的逻辑引擎,并按以下顺序开始行动:

  1. 它自己掏出“本地文件检索工具”,毫无遗漏地找出文件夹里的30个Excel文件并读取到内存中。
  2. 在100万Token的巨大上下文窗口正中央,把这几十万个单元格的数据全部铺开,仔细比对数字,聪明且犀利地把亏损分公司的数据剔除出来。
  3. 自己编写可视化代码,直接运行“数据图像转换工具”,一气呵成地绘制出漂亮的饼图。
  4. 运行“PDF格式生成器”工具,将提取出的文本和绘制的图表组合在一起,在桌面上悄悄生成一份像模像样的文档。
  5. 最后,控制与系统关联的“电子邮件SMTP发送工具”,指定准确的收件人,将邮件发射出去。

在用户跑去茶水间从咖啡机里接好一杯热美式回来之前,所有这些复杂且需要耗费大量人工的多阶段流程,已经在黑色的终端窗口里以闪电般的速度,悄无声息且完美无缺地处理完毕了。用户回到座位上,只需看着屏幕上AI发完邮件后弹出的那句“您下达的任务已成功完成”,欣慰地笑笑即可。

甚至,这种无人自动化的魔法领域,已经跨越了代替个人完成简单的重复性工作的范畴,正呈爆炸式地向驱动整个企业运转的巨大服务器基础设施规模扩展。正如 [利用worktree-compose进行LLM基准测试 Mostafa Ali… LinkedIn](https://www.linkedin.com/posts/mostafasudo_im-guilty-of-jumping-on-a-new-llm-and-benchmarking-activity-7431765787385679873-GUDD) 这位专家的帖子中所透露的那样,最近出现的最新开源CLI自动化工具,在需要新的工作环境时,能够自动开放并分配防火墙系统端口、搭建后端数据库、启动临时内存缓存、使用Docker命令自动配置数十个容器等等,AI已经达到了可以完全掌握并控制企业复杂的服务器基础设施整体骨架的震撼水平。

如今的人工智能,已经不再是那个被关在显示器里方形浏览器窗口的狭小监狱中,苦苦等待用户提问,只能被动敲击打字机的枯燥存在。它正化身为一个强大的、无所不能的管理员,直接统治并随心所欲地塑造着计算机文件系统和网络这些数字世界的复杂物理法则,正大步流星地走进我们日常生活和工作最深处。


AI的视角 (AI’s Take)

以MindTickleBytes严谨的AI专业记者的视角来总结这次的最新技术趋势,可以概括为以下几点。

“人工智能现在已经超越了只会滔滔不绝回答问题的‘演说家’,正在完美进化成为扎根于我们电脑心脏——操作系统深处,并亲自挥洒汗水劳作的‘打工人’。拥有能一次性、毫无延迟地记住所有过去的对话和庞大公司历史的100万Token压倒性上下文窗口脑容量,并且同时获得了能自主运行各种软件设备的‘工具调用(Tool Use)’这一无敌物理手脚的AI,未来将如何从根本上打破人类工作方式与生产力的局限并进行伟大的重构?这不禁让人产生一种敬畏感。

在你每天注视的黑色终端屏幕里,在闪烁的白色光标后待命的、专属你的全能主厨,今天也已经做好了为你烹制奇妙佳肴的一切准备。当你放下鼠标、将双手放在键盘上的那一刻,你陈旧、令人憋闷的工作环境,将瞬间转变为与AI共同呼吸的无限可能的空间。那么现在,你想向这位主厨点一道怎样惊人的魔法大餐呢?”


参考资料

  1. Linearis,为人类(和LLM智能体)构建的Linear CLI工具
  2. GitHub - markomanninen/llm-experiments: 大型语言模型…
  3. 在OpenCode中使用llama.cpp的本地LLM – Aayush Garg
  4. [在本地运行LLM:7种简单方法 DataCamp](https://www.datacamp.com/tutorial/run-llms-locally-tutorial)
  5. 具有最大上下文窗口的LLM
  6. 列出各大供应商可用LLM模型的CLI工具
  7. GitHub - upstash/context7: Context7平台 – 实时更新的代码…
  8. [什么是上下文窗口? IBM](https://www.ibm.com/think/topics/context-window)
  9. 使用Qdrant进行检索 - Docling
  10. LLM排行榜 - 超过100种来自OpenAI等公司的AI模型比较…
  11. [利用worktree-compose进行LLM基准测试 Mostafa Ali… LinkedIn](https://www.linkedin.com/posts/mostafasudo_im-guilty-of-jumping-on-a-new-llm-and-benchmarking-activity-7431765787385679873-GUDD)
  12. LLM 0.26版本的大型语言模型可在您的终端中运行工具
  13. llm · PyPI
  14. LLM: 交互大型语言模型的CLI工具与Python库
  15. 在本地运行模型的6款最佳LLM工具
测试你的理解
Q1. 在本文中,'上下文窗口(Context Window)'最恰当的比喻是什么?
  • 厨师的案板大小(工作空间)
  • 汽车的最高速度
  • 电脑显示器的分辨率
上下文窗口指的是AI能够一次性读取并记住的信息量,因此可以比作厨师放置食材的案板,或者调查员的白板大小。
Q2. 最近的AI模型最多可以一次性处理多少个Token?
  • 1万个
  • 10万个
  • 100万个
根据文章内容,最近的LLM支持处理40万到最多100万个输入Token的巨大上下文窗口。
Q3. 在CLI(命令行界面)环境中使用AI时,以下哪项不是它的优点?
  • 可以直接让它读取电脑中的文件或代码。
  • 可以用鼠标点击华丽的按钮,体验其中的乐趣。
  • 可以让AI直接执行电脑中的工具。
CLI是一个完全通过文本与计算机进行交流的环境,因此与使用鼠标的华丽图形环境(GUI)相去甚远。它的目的在于最大化工作速度和效率,而不是追求直观的乐趣。