每秒5.6万个单词?以老旧时钟速度完成的AI魔法'GateGPT'

巨大的齿轮在缓慢转动,但其产物却是无数文字以光速倾泻而出的充满悖论的3D插画
AI Summary

探讨每秒能生成5.6万个单词片段的超高速AI'GateGPT',是如何通过比智能手机慢得多的80MHz速度的定制芯片(FPGA)和高效的记忆装置(KV缓存),实现这种惊人性能的。

想象一下。早晨一睁开眼,你就对智能手机的AI助手这样拜托道:“把最近10年发表的关于气候变化的100篇核心论文全都读一遍,然后写成一份可以立即应用到我今天工作中的摘要报告。”如果是一般的AI会怎样?屏幕上的光标闪烁着,就像敲击老旧打字机一样,慢吞吞地一个字一个字写下回答。也许等你悠闲地泡好咖啡、洗个热水澡回来,AI还在苦苦挣扎着写文章。

但是,如果在你问完问题的同时,仅仅1秒钟内,一份塞满数万个单词的完美报告就“当”地一下出现在屏幕上,那会是怎样的体验?

我们通常把AI生成回答时屏幕上逐渐出现文字的等待时间视为理所当然。然而,技术的发展已经远远超出了我们平常的想象。最近,一个名为“GateGPT”的惊人系统被公开。该系统实现了每秒生成5.6万个Token(Token是AI读写文字的基本单位,通常是单词或语素)的惊人速度 GateGPT:每秒56k个Token的Transformer(KV缓存)…

最令人震惊的事实还不仅如此。这种惊人的速度并非来自最新款的智能手机或巨大的数据中心的超级计算机。所有这一切,都是在仅仅80MHz(兆赫兹)——以现在的标准来看这绝对是极其缓慢的时钟速度——下运行的特殊半导体上实现的 GateGPT:每秒56k个Token的Transformer(KV缓存)…。简单来说,这相当于不是用最新型跑车,而是用老旧自行车的踏板速度跑出了光速。

为什么使用这么慢的部件,还能达到超乎想象的速度呢?今天在MindTickleBytes,我们将用非常通俗易懂但又不失深度的方式,为您解开尖端AI技术与奇妙硬件的绝妙相遇之谜。


为什么这很重要?(Why It Matters)

想要真正体会到这个系统是多么了不起的创新,首先需要了解我们目前在日常生活中使用的AI速度。

最近,许多人都在尝试在个人电脑或笔记本电脑(例如Apple Mac)上直接安装并运行自己的AI模型。相关的测试结果表明,如果个人设备上的AI模型每秒只生成3个Token,用户会因为无法忍受这种缓慢而评价为“实际上毫无用处(isn’t useful)” [2026年Mac上最佳的本地LLM — M1、M2、M3、M4测试 InsiderLLM](https://insiderllm.com/guides/best-local-llms-mac-2026/)。相反,如果设备每秒能生成40个Token,因为这与人类用眼睛阅读的速度相近甚至稍快一些,用户就会觉得“在实际使用中足够流畅和快速” [2026年Mac上最佳的本地LLM — M1、M2、M3、M4测试 InsiderLLM](https://insiderllm.com/guides/best-local-llms-mac-2026/)。

每秒40个就是让我们感到舒适的流畅速度的基准点。然而,GateGPT却能倾泻出每秒56,000个。速度足足快了1,400倍。这是一种令人惊叹的水平,在眨眼间仅1秒的瞬间,就能直接吐出一整部短篇小说篇幅的文字。

这种惊人的速度已经远远超越了单纯“减少在显示器前等待的时间”的层面。速度变快1,400倍,意味着AI一次能处理的思考广度和深度将发生翻天覆地的变化。例如,它可以即时分析全世界实时涌现的数万条海量金融数据,从而做出最佳的投资判断。此外,还可以在视频游戏中构建一个虚拟世界,让数百名角色各自拥有鲜明的个性,对玩家的突发行为做出没有0.001秒延迟的生动反应。像这样完全消除延迟时间的超高速AI,将像电和空气一样自然地渗透到我们生活的方方面面。


通俗易懂的解释(The Explainer):三个核心魔法

要想理解用慢速芯片创造出惊人速度的GateGPT所创造的奇迹,必须了解三个核心魔法。这就是AI写文章的大脑结构Transformer、负责记忆的记事本KV缓存,以及默默无闻的打工人FPGA。听起来像是复杂的技术术语,但不用担心。我们将用日常的比如为您通俗易懂地解释。

1. Transformer:洞察上下文的大脑结构

今天我们通过ChatGPT等接触到的大型语言模型(LLM)那压倒性的语言能力背后,潜藏着被称为“Transformer”的核心技术骨架 [Transformer,LLM背后的技术 深度学习… - YouTube](https://www.youtube.com/watch?v=wjZofJX0v4M)。Transformer是AI的大脑结构,它能把握句子中无数单词之间存在着怎样的关系,以及在当前上下文中什么才是最重要的。

打个比方。老式方法的AI在读书时,一次只读一个单词,而且只能从前到后按顺序阅读。“我… 今天… 早上… 吃了… 苹果。”这种方式即使句子稍微长一点,也很容易忘记前面的内容,理解整篇文章的速度也非常慢。

但Transformer则完全不同。它就像看一幅巨大的风景画一样,将整个句子一目了然地尽收眼底。它会在整个上下文中同时判断“苹果”这个词到底是和主语“我”连在一起作为“吃的水果”,还是作为智能手机品牌“Apple” [Transformer,LLM背后的技术 深度学习… - YouTube](https://www.youtube.com/watch?v=wjZofJX0v4M)。这种出色的全局理解能力造就了现在聪明又自然的AI。但同时这也带来了一个致命的缺点。那就是它强迫电脑进行极其复杂和繁重的数学计算。因为每增加一个需要把握的单词,计算它们之间关系的计算量就会呈指数级爆炸式增长。

2. KV缓存(Key-Value Cache):如何不每次都从头读起

为了解决Transformer虽然聪明但计算量过于繁重的缺点,闪亮登场的救兵正是KV缓存(Key-Value Cache,即AI将之前计算过的单词上下文临时保存起来的记忆场所)。GateGPT同样将这项技术的效率发挥到了极致 GateGPT:每秒56k个Token的Transformer(KV缓存)…

让我们用身边常见的例子来通俗说明。 想象一下,你的朋友通过微信把一部超长的惊悚小说情节一句一句地发给你。 朋友发微信说:“第1章:主人公到达了一座古老的宅邸。”你点点头表示理解了。 过了一会儿,下一条消息发来:“第2章:在那里发现了一本破旧的日记本。”

此时,不够聪明的老系统为了理解第2章,会从第1章开始再从头到尾读一遍,然后才恍然大悟:“啊哈,原来是在宅邸里找到了日记本啊。”如果发了第3章,它又会把从第1章到第3章的全部内容再仔仔细细地读一遍并进行计算。这简直是对时间和精力的巨大浪费!

但是如果是人类的话就不会做出这么愚蠢的行为。我们会把第1章的核心内容(到达宅邸)作为“摘要笔记”留在脑海中。然后当新的句子发来时,不是从头重新读一遍全部内容,而是将脑海中的记事本和刚收到的新句子结合起来,立刻就能理解情况。

正是这本充当“核心摘要笔记”的,就是KV缓存。AI将事先计算好的复杂单词的关系网井井有条地保存在被称为KV缓存的空间里,每当生成新单词时,就会把过去的计算结果抽出来重新利用。在最近的研究中,更进一步地,为了大幅缩小这个记事本所占用的空间并更快地提取信息,甚至使用了将记事本数据进行压缩(量化,Quantized)的高级技术,从而实现了模型整体处理量的突破性提升 GitHub - QwenLM/Qwen: Qwen (通义千问) 聊天的官方仓库…。GateGPT系统正是将这种KV缓存原理在硬件层面上进行极端优化的杰作。

3. FPGA:战胜缓慢速度的定制工厂的秘密

无论Transformer的广阔视野和KV缓存的高效记事本在软件思路上有多么出色,最终实际执行那些复杂数学计算的,还是坚硬的物理硬件芯片。此时,GateGPT最具反转魅力的部分登场了。这款能够每秒生成5.6万个Token的设备大脑,是一块以极慢的80MHz时钟速度运行的FPGA(Field Programmable Gate Array,即用户可以根据用途直接重构内部电路的定制半导体芯片) GateGPT:每秒56k个Token的Transformer(KV缓存)…

为什么这如此令人惊讶?现如今你口袋里的智能手机芯片,速度通常都远超3,000MHz(3GHz)。80MHz的话,那是遥远的过去、1990年代Windows 95时代的旧电脑上才能见到的非常非常慢的数值。

用像乌龟一样慢的旧零件速度,怎么能跑出比猎豹还快的惊人结果呢?

秘诀就在于FPGA独特的特性:它果断舍弃了想什么都做好的“通用性”,选择了只专注一个领域的“专业性” EEVblog #496 - 什么是FPGA? - YouTube。一般的电脑或智能手机的中央处理器(CPU)就像是瑞士军刀。既要上网搜索,又要播放音乐,还要运行华丽的游戏。虽然是个万能打工人,但如果只看“AI运算”这一项特定工作的话,它在结构上就显得有太多不必要的累赘 EEVblog #496 - 什么是FPGA? - YouTube

相反,FPGA就像是可以自由组装和拆卸的乐高积木。工程师可以随心所欲地拆装芯片内部的逻辑电路,从而为了特定目的将芯片的大脑结构彻底重新编写 EEVblog #496 - 什么是FPGA? - YouTube。GateGPT的开发者们将这块FPGA芯片内部改造成了“仅为Transformer和KV缓存计算而24小时运转的专属传送带工厂”

打个比方。

  • 普通电脑(CPU): 最高时速300公里的超快法拉利跑车。但是后备箱很小,一次只能装一个快递箱,在狭窄的道路(数据通道)上飞驰。如果遇上堵车,就只能被困在原地干等。
  • GateGPT(80MHz FPGA): 车轮滚动的速度就像老旧自行车一样非常缓慢。但它却是一条开辟了足足1万条车道的巨大专用高速公路兼定制工厂。即使车轮只是缓慢地转动一圈(80MHz),数万个快递箱(数据)也会填满1万条车道,在没有任何误差的情况下,同时呼啦啦地被传送到下一个环节。

也就是说,即使芯片本身的跳动速度很慢,但因为它专门针对“AI计算”这唯一目的,直接定制设计出了能够并行(同时间多发)倾泻海量数据的电路,所以结果才能实现每秒5.6万Token的惊人处理量 GateGPT:每秒56k个Token的Transformer(KV缓存)…


当前现状(Where We Stand)

目前,全球AI业界正在为将生成速度提升至极限而打一场没有硝烟的战争。谷歌(Google)等科技巨头不仅在开发优秀的硬件,同时也在软件层面寻找新的答案。例如,打破以往AI在生成回答时一次只预测一个单词(Token)的固有模式,引入一次计算就能同时预测多个单词的“多Token预测(Multi-token-prediction)”等颠覆性软件技术,使得每秒的生成速度呈爆炸式增长 Gemma 4中的多Token预测

然而,目前业界主流采用的大多数软件优化,都是着眼于耗电量巨大且价格高达数千万韩元的庞大图形处理单元(GPU)而进行的。相反,GateGPT展现出的方法则截然不同。它不是在人人都在用的通用芯片上修改软件,而是如同捏黏土一样,把复杂的AI算法本身直接“烤制”成了硬件电路。这证明了一个鲜活的事实:即便是在体积小、耗电少、甚至速度慢的芯片(低功耗、低主频的小型芯片)上,只要“硬件定制设计”做得妙不可言,就同样能够展现出颠覆现有常识的、令人难以置信的性能。


未来将如何发展?(What’s Next)

像GateGPT这样小而强大的技术成果,很快会给我们的日常生活带来怎样的戏剧性变化呢?

最令人期待的未来,就是“我口袋里的真正人工智能(端侧AI,On-device AI)”时代已经进一步逼近。现在那些让我们惊叹并使用的聪明AI,大多数都要求始终连接互联网,由远方巨大数据中心里的超级计算机来代替进行计算。如果硬生生地将这个庞大的AI塞进智能手机或智能手表等小型设备中,它的运算速度就会极其缓慢,让人急得抓狂。(正如前面所确认的,如果是在自己的设备上直接运行,只有每秒大约3个Token这种缓慢速度的话,是没人会想用的 [2026年Mac上最佳的本地LLM — M1、M2、M3、M4测试 InsiderLLM](https://insiderllm.com/guides/best-local-llms-mac-2026/)。)

但是,如果像GateGPT的案例一样,彻底100%仅针对AI计算进行优化的定制芯片结构,被搭载到未来的智能手机、汽车或者家里的家用电器上,情况就完全不同了。得益于较慢的芯片速度,可以把电池消耗和发热降到最低,同时利用专属电路的力量,制造出能以惊人速度倾泻出用户问题答案的、如同魔法般的AI设备。

这样一来,即使在深山老林里Wi-Fi断开也没有问题。不再需要将隐秘的个人信息或公司的机密文件传输到遥远的云端服务器。一个在自己的设备内部以超高速安全运行的、真正属于自己的个人AI助手时代即将开启。超越那些仅仅是盲目做大体积、只追求力量和速度的芯片,“小巧但目标明确的明智设计”或许将成为未来AI硬件的全球新标准。世界上最聪明、最敏捷的大脑,终于快要准备好进入各位的口袋了。


AI的视角(AI’s Take)

GateGPT的出现,在技术历史上具有极强的象征意义。它摆脱了仅仅制造比以前参数更高的“更快芯片”、更耗电的“更庞大芯片”的无限内卷,清晰地展示了当算法与机器装置浑然一体结合时会创造出怎样的奇迹。这个令人惊叹的案例亲自证明:与其组装“最高性能的通用部件”,不如哪怕使用缓慢的部件,也要从底层开始将其设计成“完美契合特定目标的架构”,这样才能实现真正的技术飞跃。正如人工智能软件的发展速度一样,承载它的硬件容器形态,也正在朝着我们无法想象的惊人方向不断自我革新。


参考资料

  1. GateGPT:每秒56k个Token的Transformer(KV缓存)…
  2. EEVblog #496 - 什么是FPGA? - YouTube
  3. [2026年Mac上最佳的本地LLM — M1、M2、M3、M4测试 InsiderLLM](https://insiderllm.com/guides/best-local-llms-mac-2026/)
  4. GitHub - QwenLM/Qwen: Qwen (通义千问) 聊天的官方仓库…
  5. [Transformer,LLM背后的技术 深度学习… - YouTube](https://www.youtube.com/watch?v=wjZofJX0v4M)
  6. Gemma 4中的多Token预测
测试你的理解
Q1. 以下哪项是GateGPT使用的核心AI技术架构?
  • 微控制器
  • Transformer
  • 量子计算
GateGPT使用了大型语言模型(LLM)的核心技术——Transformer架构。
Q2. 通常情况下,在个人使用的电脑(如Mac)上,能让人感觉AI模型'真正好用'的每秒Token生成速度大约是多少?
  • 每秒3个
  • 每秒40个
  • 每秒56,000个
每秒3个Token的速度太慢,不够实用,但如果每秒能生成40个左右的Token,就会被认为在实际使用中已经足够快了。
Q3. GateGPT为了实现超高速性能而使用的定制半导体名称是什么?
  • CPU
  • GPU
  • FPGA
GateGPT使用了FPGA,这是一种可以根据用途直接重构内部电路的芯片,以此解决了瓶颈问题。