荷兰没有依赖美国大型IT企业,而是将在现实生活中引入仅使用完全合法数据训练的自主公共AI‘GPT-NL’,提出了欧洲数字主权的新模式。
想象一下。早上醒来,你因为即将搬家而登录所在城市的市政厅网站,提问道:“我们社区的房屋改造许可证要怎么办理?垃圾分类规定又是怎样的?”换作平时,你可能需要在复杂的民政办事公告板和搜索框里翻找半天,但现在,一个友好的聊天窗口弹了出来,用完美的本地语言,结合当地法规当场为你给出了解答。
然而令人惊讶的是,这个既聪明又友好的人工智能(AI)助手并不是我们熟知的美国大型IT企业所打造的系统。如果它完全是在你所居住的国家,用市民的税收透明化地打造出来的“我们社区专属AI”,感觉会怎样?而且,它还是一个完全没有任何版权争议,只靠“喂食”绝对干净且安全的数据成长起来的助手。
如今在荷兰,这种令人愉快的美好想象正在成为现实。荷兰拒绝了依赖科技巨头便捷系统这条容易走的路,直接构建了自己独有的语言模型“GPT-NL”,在欧洲人工智能历史上树立了新的里程碑[GPT-NL:荷兰的主权语言模型]。到底为什么他们不使用别人已经花天文数字的钱做好的、类似ChatGPT的AI,而是非要下定决心走这条辛苦的路呢?这里面隐藏着我们必须了解的深远意义。
这为什么重要? (Why It Matters)
如今,我们每天都在使用的智能手机语音助手、翻译软件,以及能一口气总结复杂文章的大型语言模型(LLM,一种通过学习海量文本,像人类一样理解上下文并进行对话的AI技术),大多被少数几家美国跨国企业所掌控。确实,他们的技术实力惊人且带来了极大的便利。但如果稍微深入思考一下,就会发现其中令人不寒而栗的地方。因为,将国家重要的公共服务或处理机密的业务,以及与普通市民生活息息相关的核心行政基础设施,完全托付给其他国家企业的服务器和系统,在国家层面上是一件极其令人不安的事情。
在这种不安感之中,最近全球最受瞩目且最重要的议题便是“数字主权(Digital Sovereignty)”。数字主权,不仅仅是进口并使用最新技术,它更意味着国家或市民自身牢牢掌握对技术和数据的控制权,不被外部力量所动摇的独立权利。简单来说,这就像是我们自己保管自家大门的钥匙,还是将其永远交给大洋彼岸的外国安保公司的区别。
用这样的比喻就容易理解多了。想象一下,你所在村庄唯一的饮用水源被大洋彼岸的一家庞大的跨国矿泉水公司垄断了。眼下他们提供的水味道甜美,而且只要打开水龙头就会哗哗流出,非常方便。但是,如果那家公司某天突然通知要把矿泉水价格涨十倍,或者因为不明原因净水系统出了问题,导致流出了泥水,那该怎么办?村民们将束手无策,要么忍受干渴,要么只能含泪接受不合理的要求。
因此,村民们决定凑钱在自己的土地上挖一口自家的水井,并建立一套透明管理的、属于自己的净水系统。这正是荷兰投入巨大努力和资金开发GPT-NL所想要实现的终极目标[荷兰开始实现GPT-NL..]。荷兰政府为了降低对美国大型科技系统的依赖,并自行设计能够替代它的真正欧洲式方案,做出了“数字独立”这一勇敢的选择[荷兰项目GPT-NL可能改变欧洲对AI的看法]。
为了这个巨大的“挖井”项目,荷兰政府(经济部下属的RVO)果断投入了1350万欧元(约合200亿韩元,这笔预算足以建造一座最先进的大型图书馆)的巨额公共预算[荷兰将GPT-NL从实验室带入现实:首批试点正在进行…]。并且,联合起来的不是追求企业利润的商业公司,而是将公共利益放在首位的非营利研究机构。荷兰应用科学研究院(TNO)、致力于教育与研究的IT网络机构SURF,以及荷兰法医研究所(NFI)携手合作,正一步一个脚印地从基础开始构建这个独立的荷兰语AI生态系统[GPT-NL:荷兰的主权语言模型]。终于,在2025年2月,他们向世界扬起了开发自主语言模型这面盛大的风帆[GPT-NL:荷兰构建主权AI语言模型…]。
轻松理解 (The Explainer)
那么,荷兰打造的这个GPT-NL与现有的著名对话型AI在技术上有什么不同呢?最根本、最决定性的差异就在于填充AI大脑的“食谱(数据)”的纯度。
如今那些让我们赞叹不已并广泛使用的大型AI,为了变得更加聪明,必须不断吞噬海量的文本Token(Token是语言模型阅读和书写文本的最小单位,就像乐高积木或拼图碎片一样)。为此,它们往往会毫无顾忌地吸纳并学习游荡在全球互联网空间里的数以百万计的新闻报道、个人博客文章、图片,甚至别人倾注心血创作的小说。这样一来,未经原作者同意的版权侵权争议必然如影随形,并且常常出现连开发者都不知道AI是从哪里、如何获取知识的漆黑“黑匣子”现象。
然而,荷兰的GPT-NL从起跑线开始就完全不同。该项目的创始人曾自豪地宣称GPT-NL是“首个合法的语言模型”[GPT-NL创始人:“首个符合法律规定的语言模型”]。对于通过暗网渠道或未经原作者允许而抓取的数据,GPT-NL连一行都不会学习。这是首个仅使用经过明确同意程序并合法获取的所谓“干净数据”进行训练的大型荷兰语AI模型,这一点正是他们最大的武器和骄傲所在[荷兰新闻出版商助力开发GPT-NL]。
简单来说,如果现有的巨型AI是无论餐厅后巷的垃圾桶,还是别人家墙上挂着的秘密食谱笔记,都不加挑选地随便捡来生硬学习厨艺的“杂食性厨师”,那么GPT-NL就是正式花钱从当地可靠的有机农场直接采购新鲜安全的食材,从烹饪基础开始扎实学习的“诚实且透明的厨师”。
事实上,为了帮助这位诚实厨师的诞生,荷兰代表性的新闻媒体(新闻出版商)都纷纷挺身而出。他们甘愿提供自己合法拥有的海量高质量新闻报道合集作为训练数据并进行合作,以便AI能够使用正确、准确的荷兰语,并完美理解当地的时代背景和文化[[荷兰AI语言模型新闻机构的大型数据集…](https://www.tno.nl/en/newsroom/2025/07/
参考资料
- GPT-NL:荷兰的主权语言模型
- GPT-NL:荷兰的主权语言模型
- GPT-NL开放内幕:荷兰争取主权AI的努力
-
[主权AI与数字自治:海牙的GPT-NL模型 AetherLink](https://aetherlink.ai/en/blog/sovereign-ai-digital-autonomy-gpt-nl-model-in-den-haag) - GPT-NL创始人:“首个符合法律规定的语言模型”
- GPT-NL:荷兰语言模型简介
- 荷兰开始实现GPT-NL..
- 荷兰项目GPT-NL可能改变欧洲对AI的看法
- 荷兰AI语言模型新闻机构的大型数据集…
- 荷兰将GPT-NL从实验室带入现实:首批试点正在进行…
- GPT-NL:荷兰构建主权AI语言模型…
- 荷兰新闻出版商助力开发GPT-NL
-
[新闻 安全三角洲(HSD)](https://securitydelta.nl/news/overview/gpt-nl-a-sovereign-language-model-for-the-netherlands)
- 随机收集并学习了互联网上的所有数据。
- 是首个仅使用彻底合法获取的数据训练的大型模型。
- 是专门为了军事防御目的而开发的。
- 为了不依赖海外大型IT企业,完整保障国家的‘数字主权’
- 为了打造比美国最新ChatGPT更擅长解数学题的世界级万能AI
- 作为文化政策的一部分,目的是让荷兰语取代英语成为全球通用语
- 在海牙市政厅协助解答地方法规、许可要求及政策的公共行政助手
- 全球社交媒体平台的实时自动视频翻译器
- 连接欧洲全境的自动驾驶汽车核心导航系统