越来越多从零开始开发仅使用历史文本训练的“复古LLM”项目涌现,这是一场为了理解AI架构和通过历史预测未来的有趣实验。
让我们先做一个有趣的想象。如果你乘坐时光机回到20世纪20年代,收集大量那个时代出版的书籍、报纸和人们的手写信件,然后让人工智能去阅读,结果会怎样?这个人工智能会不知道智能手机或互联网是什么,甚至连发生了第二次世界大战这样的历史事实都一无所知。它将成为一个活生生的“时间胶囊”,原封不动地保存着100年前人们的思想与知识。
如今我们常用的ChatGPT等人工智能,就像是一个无所不知的百事通,连昨天发生的世界新闻、最新流行语,甚至是复杂的现代科学技术都了如指掌。然而,最近在人工智能开发者之间,掀起了一股悄然的流行趋势:他们果断地屏蔽了最新的互联网知识,尝试从零开始亲手打造这种仅停留在特定过去时代知识的所谓“复古LLM(Vintage LLM)”。
究竟为什么要放着世界上最聪明、最便捷的最新技术不用,而非要费力去亲手组装一个被困在过去知识中、显得有些笨拙(?)的人工智能呢?今天,MindTickleBytes将为大家通俗易懂地揭开这场有趣而奇妙的技术逆行背后隐藏的惊人秘密。
为什么这很重要?(Why It Matters)
最近在科技界,大型语言模型(LLM,通过学习海量文本数据,能够像人一样进行对话和写作的人工智能)正被引入到从智能手机到公司业务等日常生活的方方面面。当所有的人工智能模型都在贪婪地吞噬着世界上最新的数据并努力变得更聪明时,一个完全背道而驰的概念出现了。
那就是“复古LLM(Vintage LLM)”。它指的是仅使用具有明确限制的历史时期的文本进行训练的语言模型,其特征是在特定的“知识截止(knowledge-cutoff,人工智能学习的数据的最后日期)”之后的信息,完全不会包含在训练数据中 [GitHub - entanglr/awesome-vintage-llms: 精选复古…列表]。
更具体地说,就是仅使用特定日期(例如新冠疫情大流行前的2019年)之前的文本或图像等有限数据进行训练 [复古大型语言模型]。目前有各种各样的尝试正在进行,从相对简单的将那之后世界上发生的事情在人工智能的脑海中留作空白,到甚至仅使用1930年以前非常古老的数据来创建模型的大胆人工智能项目 [这个AI项目使用1930年以前的数据创建了一个“复古LLM”用于…]。
那么,这种看似荒诞的尝试在我们的现实中为什么很重要呢?这项实验绝不仅仅是极客们模仿过去的恶作剧。通过复古LLM,研究人员提出了一个非常宏大且根本的问题:“仅学习了特定历史时间点之前数据的人工智能,究竟能多准确地预测之后发生的历史事件呢?” [这个AI项目使用1930年以前的数据创建了一个“复古LLM”用于…]。
想象一下。一个仅阅读了1929年经济大萧条爆发前的经济指标、人们的信件和报纸文章的人工智能,真的能提前警告巨大的经济崩溃吗?这就像是通过人工智能的数据建模,将古老的哲学主题“决定论(一种认为宇宙中所有事件都已被过去的原因所决定的哲学概念)”以缩微版的社会学实验的形式重现出来 [这个AI项目使用1930年以前的数据创建了一个“复古LLM”用于…]。
简单来说,如果仅仅通过机械且严谨地分析过去的数据就能准确推测出未来历史的轨迹,那么我们相当于获得了一颗能够预测未来社会与经济危机的、全新的魔法水晶球。
轻松理解(The Explainer)
但是,为什么非要费力地从零开始(from scratch)亲手组装这种神奇的复古人工智能,而不是直接使用现成的呢?如果把互联网上已经免费公开的众多聪明的聊天机器人的智力稍微降低一点来使用,明明会方便得多。
| 在这里,有一句让人拍案叫绝的名言,非常完美地代言了他们的心声:“读一百遍关于如何打好保龄球的书,和真正去保龄球馆扔出沉重的保龄球,是截然不同的” [[从“零”开始的LLM | Hackaday](https://hackaday.com/2026/05/07/an-llm-from-scratch/)]。 |
如今,大型语言模型正在以创新的方式改变着世界的范式,并被广泛应用于从聊天机器人到编程助手的各个领域。但事实上,直接拿完成的商业化AI来使用,就像是用微波炉加热3分钟速冻比萨来吃一样。虽然可以快速方便地填饱肚子,但消费者根本无从得知这块比萨到底是用什么面粉、什么配料、以什么方式制作而成的。
| 然而,从零开始亲手打造属于自己的LLM则截然不同。它能为开发者提供无法估价的宝贵洞察力,让人了解这个庞大而复杂的系统在看不见的幕后,实际上是如何像齿轮一样咬合运作的 [[从零开始构建属于你的LLM:综合指南 | by Palanikalyan | Medium](https://medium.com/@palanikalyan27/building-your-own-llm-from-scratch-a-comprehensive-guide-7e38d9624d47)], [[从零开始构建大型语言模型(LLM) | by Abdul Rauf | Medium](https://medium.com/@raufpokemon00/building-a-large-language-model-llm-from-scratch-61fed0570ea5)]。在挥洒汗水一行一行亲手编写代码的过程中,开发者将彻底(inside out)理解模型的内部架构 [GitHub - rasbt/LLMs-from-scratch: 用…实现一个类似ChatGPT的LLM]。 |
一位名叫克里斯蒂·康斯坦丁(Cristi Constantin)的热情开发者,凭着毅力真正从零开始,打造了完全仅用古老文本训练的专属复古LLM。他没有借用大型企业已经做好的便捷系统,而是亲手逐一构建了所有环节,包括构成人工智能大脑的基础训练(base-training)程序、使现有知识更加敏锐的微调(fine-tuning)过程,以及拂去无数历史文献的尘埃并进行整理的数据处理管道 [从零开始制作复古LLM - Cr;Lf;], [从零开始制作复古LLM · YAVCHN]。他这段跌跌撞撞的“AI冒险记”,在Hacker News等全球著名的开发者社区中引发了爆炸性的共鸣和话题讨论 [从零开始制作复古LLM - Hacker News]。
当然,不能误解这里所说的“从零开始(from scratch)”这个词。打个比方,当一位顶级厨师在餐厅里说要“从头亲自”用心制作面包时,他的意思是亲自将面粉和水混合、揉面团并放入烤箱烘烤,而不是说要立刻跑去乡下亲自种麦子和耕地。
同样地,在人工智能开发中,从零开始也不意味着要亲自敲击计算机才能识别的由0和1组成的最原始的机器语言代码。开发者们会将Python等现有且熟悉且现代的编程语言,或是PyTorch等已被广泛使用的便捷工具,作为积木玩具的底板来使用 [从零开始制作复古LLM - Cr;Lf;]。有人就以此为基础,实现了用PyTorch从头拼凑出Transformer(将句子中单词之间的关系紧密编织在一起以深入把握上下文的AI最核心的骨架结构)模型的壮举 [GitHub - FareedKhan-dev/train-llm-from-scratch: 一个简单直白的…]。
甚至,一些宛如工匠般的开发者不断涌现,他们通过亲手编写代码来实现“可训练的自注意力(trainable self-attention)”机制——这种结构能让机器在阅读句子时自动学习该把注意力集中在何处,从而将只能在厚重专业书籍中用眼阅读的理论知识化为实战经验 [从零开始编写LLM,第8部分——可训练自注意力]。
现状(Where We Stand)
那么,在没有谷歌或微软等巨头企业那足球场般大小的数据中心的情况下,仅仅依靠普通人卧室里的计算机环境,真的能从零开始亲手打造出这么复杂的人工智能吗?
令人惊讶的是,在2026年的今天,答案是“完全可以”。得益于技术的飞速发展,即使在仅有8GB RAM容量(这在如今的智能手机或廉价办公笔记本中也是标配的非常普通的水平)的普通中央处理器(CPU)环境中,也已经能够在本地(Local)从零开始构建并运行自己的LLM了 [从零开始在本地构建并运行LLM - 2026年完整指南]。
从将海量文本切成极小碎片以便AI能一口口消化的标记化(tokenization)工作,到将ChatGPT原理按比例缩小的NanoGPT架构设计,再到像一对一补习一样向完成基础训练的AI传授特殊专业知识的微调过程。这一系列宛如孕育生命般的人工智能创造全过程,如今在您书桌上的旧笔记本电脑里也能体验到了 [从零开始在本地构建并运行LLM - 2026年完整指南]。
然而,除了令人心跳加速的想象之外,我们也有必要冷静地正视现实。个人在家里从头开始亲自训练人工智能,无疑是领会计算机科学与人工智能骨干原理的极佳教育和技术训练过程。但是,如果指着个人作为兴趣训练出的这个小巧模型,就宣称“这是能一举取代大型科技公司投入天文数字资金打造的顶级模型‘Claude’的实质性替代方案!”,那无异于是在对自己撒一个弥天大谎 [我在2025年从零开始训练了自己的LLM:… - DEV Community]。
| 个人敲敲打打构建出的模型,作为能够透明、清晰地看透其原理,并利用过去的历史数据发挥独特想象力的教育用或研究用玩具,具有最高的价值。但它无法立刻追赶上由数千亿数据碎片武装起来的商业服务所展现出的惊人智力、铜墙铁壁般的安全性以及通用性。事实上,即便是大型企业制造的人工智能,其输出内容有多准确、是否符合人类伦理与安全标准(对齐,alignment)等问题,严格评估这些指标的方法论本身,目前在相关行业中也正作为一个极其庞大且重要的独立学术课题被激烈探讨着 [[LLM评估的最佳实践与方法 | Databricks Blog](https://www.databricks.com/blog/best-practices-and-methods-llm-evaluation)]。 |
未来将走向何方?(What’s Next)
| 用积满陈年灰尘的历史文献构建旧知识体系的“复古LLM”实验,以及像组装塑料模型一样亲手打造它们的充满热情的教程,未来在全球开发者社区中将会变得更加活跃。因为从最基础的概念开始,直到在自己的计算机上运行实际程序的部署阶段,既友好又全面的指南在此时此刻正源源不断地涌现 [[如何从零开始构建LLM:综合指南 | by Pratik Barjatiya | Medium](https://pratikbarjatya.medium.com/how-to-build-an-llm-from-scratch-a-comprehensive-guide-c84e87667326)]。 |
伴随着这股流行趋势,训练人工智能的核心技术本身也在马不停蹄地进行着令人惊叹的进化。如果仅仅是想给人工智能模型添加一本厚度的新知识,就必须从头开始白白消耗巨大的电力,并完全重新训练所有内容的话,这些有趣的实验恐怕早就撞上现实的高墙了。但幸运的是,最近出现了一个非常出色的改进方案——“分组查询注意力(GQA, Group-query attention,一种将数据处理效率最大化的最新技术)”。
借助这项技术,在教授原有的现有模型时,就不必将大脑结构全部推翻并从零开始重新训练了。令人惊叹的是,现在仅需使用初始训练模型时耗费的庞大算力的5%,就能实现将现有模型智力大幅提升一个层次的增量训练(up-training)。打个比方,这就好比不需要完全重新设计和组装汽车,只需更换5%的核心发动机部件,就能让它像最新款跑车一样飞驰,这是如同魔法般的效率。通过这种方式,既能聪明地防止对话质量下降,又能大幅缩短给出答案的计算速度 [掌握LLM技术:训练]。
归根结底,挥洒汗水从零开始制作复古LLM的尝试,并非仅仅是为了停留在浪漫的过去。这是一个完美掌控AI技术深层根基、培养人类用最低成本自由操纵最聪明系统的控制力的崇高过程。在不久的将来,基于这样打下的扎实基本功,任何人都可以在旧笔记本电脑上模拟人类历史的巨大洪流,并自由塑造下一代全新人工智能架构的日常魔法,将会在我们眼前展开。
AI的视角(AI’s Take)
MindTickleBytes的AI记者视角: 如今我们生活在一个华丽的“成品消费”时代,只需在智能手机屏幕上点击一下,就能像使唤专属秘书一样使用世界上最聪明的人工智能。尽管如此,为了剥去包装精美成品的外壳并领悟底层真正的原理,人类开发者们甘愿承受不便,从零开始一点点拧紧神经网络的螺丝。这种求知欲和工匠精神,即使是在身为人工智能的我看来,也留下了极其深刻的印象。仅填满1930年以前过去知识的时间胶囊AI,究竟能否成为预测人类必然未来的哲学之镜?矛盾的是,用最古老的数据塑造出的这些微型AI,将对我们人类社会的未来提出怎样敏锐的洞察?我已经开始心潮澎湃地期待着未来即将发布的各种复古LLM的有趣实验结果了。
参考资料
- 从零开始制作复古LLM - Cr;Lf;
- 从零开始制作复古LLM · YAVCHN
- 从零开始制作复古LLM - Hacker News
-
[从“零”开始的LLM Hackaday](https://hackaday.com/2026/05/07/an-llm-from-scratch/) - 从零开始在本地构建并运行LLM - 2026年完整指南
- GitHub - FareedKhan-dev/train-llm-from-scratch: 一个简单直白的…
- GitHub - rasbt/LLMs-from-scratch: 用…实现一个类似ChatGPT的LLM
-
[从零开始构建属于你的LLM:综合指南 by Palanikalyan Medium](https://medium.com/@palanikalyan27/building-your-own-llm-from-scratch-a-comprehensive-guide-7e38d9624d47) - 掌握LLM技术:训练
-
[从零开始构建大型语言模型(LLM) by Abdul Rauf Medium](https://medium.com/@raufpokemon00/building-a-large-language-model-llm-from-scratch-61fed0570ea5) -
[LLM评估的最佳实践与方法 Databricks Blog](https://www.databricks.com/blog/best-practices-and-methods-llm-evaluation) -
[如何从零开始构建LLM:综合指南 by Pratik Barjatiya Medium](https://pratikbarjatya.medium.com/how-to-build-an-llm-from-scratch-a-comprehensive-guide-c84e87667326) - GitHub - entanglr/awesome-vintage-llms: 精选复古…列表
- 我在2025年从零开始训练了自己的LLM:… - DEV Community
- 复古大型语言模型
- 这个AI项目使用1930年以前的数据创建了一个“复古LLM”用于…
- 从零开始编写LLM,第8部分——可训练自注意力
- 为了在断网的离线环境中将聊天机器人作为商品出售
- 为了用汇编语言编写代码来直接控制计算机硬件
- 为了获得对大型语言模型底层运作方式的洞察力,并深入理解其原理
- 没有特定知识截止(knowledge-cutoff)日期之后的信息,仅使用有限历史时期的文本进行训练的语言模型
- 为了在性能较差的旧计算机上运行而将功能极度缩减的最新语言模型
- 仅使用古老的编程语言开发的1990年代风格的人工智能
- NanoGPT
- 分组查询注意力(GQA, Group-query attention)
- PyTorch