搭载了谷歌 DeepMind“Deep Think”功能的 Gemini 在 2025 年国际数学奥林匹亚竞赛中,通过遵守正式规则,成功获得了金牌标准分数,树立了历史性的里程碑。
前言:数学,曾是 AI 难以攻克的“城墙”吗?
请想象一下:来自全球最聪明的青少年数学天才们齐聚一堂。他们是自 1959 年以来每年举办、世界上最具权威的智力奥林匹克——国际数学奥林匹亚竞赛(IMO, International Mathematical Olympiad)的参赛选手来源 1。
这项比赛绝非单纯地代入记忆公式就能得出答案。赛题就像前所未见的诡异且复杂的逻辑迷宫。参赛者必须自己寻找出路并进行逻辑证明。这简直是人类智力极限的试验场。
然而,在 2025 年 7 月,这个被称为“人类智力圣地”的地方传来了令人难以置信的消息。谷歌 DeepMind(Google DeepMind)的人工智能 Gemini 在这项比赛中毅然获得了“金牌水平(Gold-medal standard)”的成绩来源 4。这不仅是分数亮眼,更是通过遵守比赛所有正式规则而获得的“官方认可”记录来源 5。究竟 Gemini 是如何解开这些高难度数学题的?这又向我们展示了怎样的未来?
为什么这很重要? (Why It Matters)
如果我们问平时使用的聊天机器人:“1234 乘以 5678 是多少?”,它能对答如流。但如果给出“请逻辑性地解释为什么这个定理成立”这样的复杂问题,AI 往往会不知所措,或者表现出表面上听起来有理有据的谎言,即幻觉现象(Hallucination)。
数学奥林匹亚赛题正是这种“逻辑推理”的巅峰。因为它不仅需要出色的计算能力,更需要从一个事实推导至下一个结论的精密思考过程。此次 Gemini 的成果之所以重要,原因有三点:
- 向真正的“思考型 AI”进化:Gemini 现在已经超越了单纯记忆并输出数据的水平,具备了像人类一样深度思考并构建逻辑的推理(Reasoning)能力来源 7。
- 非数学专用而是“通用”AI 的胜利:这个模型并不是专门为了擅长数学而改造的特种机器人。我们日常对话中使用的“通用语言 AI”在数学领域也达到了世界最高水平,这一点令人惊讶来源 7。
- 官方认可:虽然过去也有过关于 AI 擅长解数学题的发布,但这次是由 IMO 比赛协调员亲自验证并正式认可的成果,这是决定性的差异来源 4。
轻松理解:Gemini 的秘诀“Deep Think(深度思考)”
Gemini 是如何完成如此惊人之举的呢?其核心在于一项名为 “Deep Think(深度思考)” 的技术。为了理解这一点,让我们想象一个场景。
[请想象:迷宫中的两名学生] 两名学生进入了一个复杂的迷宫。
- 学生 A(传统 AI):只顾向前冲。遇到死胡同时会不知所措,然后随便再走一条路。运气好可能出去,但大部分时间会迷路。
- 学生 B(Deep Think Gemini):从包里拿出地图标出当前位置。遇到岔路口会自言自语:“走这里很可能是死胡同吧?”并自行修正路径。意识到走错路时,会立即退回并制定其他策略。
1. “直觉”与“深思”的相遇
想想我们解谜题的时候。有看到问题就能立刻浮现答案的直觉,也有在纸上逐一记录并推敲的深思过程。如果说以往的 AI 主要依赖第一种“直觉”快速给出答案,那么此次强化的 Gemini 则通过 “Deep Think” 经历了审查并修正自己想法的过程来源 8。
2. 类比理解:拥有“草稿本(Scratchpad)”的优等生
简单来说,搭载了“Deep Think”的 Gemini 就像是“拿着练习本(草稿本)的优等生”。收到问题后,它不是直接吐出答案,而是在练习本上自言自语:“第一步先这样解吧”,“咦?这里卡住了?那换个方法试试”,以此来解决问题。通过这个过程,它能减少错误并接近正确答案。
3. 仅用自然语言解开的数学
更令人惊讶的是,Gemini 并不是通过编写复杂的计算机程序代码来解数学题的。它使用了我们日常使用的人类语言,即“自然语言(Natural Language)”来展开逻辑来源 8。就像一位资深数学家在旁边娓娓道来一样,它通过语言构建逻辑并夺得了金牌。
现状:Gemini 创下的惊人记录
此次 Gemini 在比赛中取得的成绩远超“表现优异”的范畴。
- 分数:Gemini 在此次 IMO 比赛中总共获得了 35 分。在满分为 42 分的比赛中,35 分足以与世界顶尖学生并驾齐驱来源 6。
- 解决能力:在总共 6 道高难度试题中,它完美解决了多达 5 道题。这即使是对人类天才来说,也很难在规定时间内完成来源 8。
- 官方认证:所有过程都严格遵守了 IMO 的正式规则,并得到了比赛组委会的正式认可来源 3来源 4。
该项目由谷歌 DeepMind 的 Thang Luong 领导技术方向,并与 Edward Lockhart 共同协作完成来源 3。他们向世界证明了 AI 不仅仅是工具,更能够从事高度的智力活动。
未来会怎样? (What’s Next)
数学奥林匹亚金牌所代表的意义远不止“AI 代写数学作业”。
- 科学与技术的加速:数学是所有科学的基础语言。能够证明复杂公式的 AI 将在开发新药、设计解决气候变化的效率能源网等解决人类难题方面发挥决定性作用。
- 逻辑领域的创新:在编程或法律文件审查等需要高度逻辑推理的领域,预计也将发生巨大变化。具备“Deep Think”能力的 AI 将在编写无错代码或寻找复杂法律矛盾方面展现卓越才能。
- 个性化教育的飞跃式发展:不仅仅是告知答案,更会出现能够逻辑性地引导你——“既然你在这里是这样想的,下次试试那个方向吧”——的完美私人导师。
谷歌的 Gemini 通过此次成果清晰地展示了 AI 已经超越了单纯“摘要”信息的阶段,进入了“解决”复杂问题的阶段来源 9。
AI 的视角 (AI’s Take)
此次 Gemini 夺得 IMO 金牌的消息向我们提出了一个重要问题:“如果 AI 进入了曾被认为是人类专属的创造性逻辑领域,人类的角色是什么?”但是,正如数学家们使用 AI 这一新工具来取得更伟大的数学发现一样,我们也可以认为自己获得了一个名为“深度思考 AI”的可靠伙伴。与 AI 一起愉快地解开那些曾经独自无法解开的人生与世界的复杂公式的日子,似乎已近在咫尺。
参考资料
- Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad (搭载 Deep Think 的高级版 Gemini 在国际数学奥林匹亚竞赛中正式达到金牌标准) - Google DeepMind Blog
- Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad (搭载 Deep Think 的高级版 Gemini 在国际数学奥林匹亚竞赛中正式达到金牌标准) - AI Future Thinkers
- AI in Mathematics: Gemini with DeepThinking Sets New Standard at IMO (数学中的 AI:搭载 DeepThinking 的 Gemini 在 IMO 树立新标准) - Promptwire
- Gemini Deep Think learns math, wins gold medal at International Math Olympiad (Gemini Deep Think 学习数学并在国际数学奥赛中夺金) - Ars Technica
- World’s First AI Wins Gold in IMO: Google’s Gemini Scores 35, Shocks Judges (全球首个在 IMO 夺金的 AI:谷歌 Gemini 获 35 分震撼评委) - 36Kr
- Gemini with Deep Think Achieves Gold at International Math Olympiad (搭载 Deep Think 的 Gemini 在国际数学奥赛中夺金) - Maginative
- Google DeepMind’s Gemini wins Mathematical Olympiad gold using only natural language (谷歌 DeepMind 的 Gemini 仅使用自然语言赢得数学奥赛金牌) - THE DECODER
- Google DeepMind Achieves Gold-Level Math Olympiad Result With Gemini Deep Think (谷歌 DeepMind 凭借 Gemini Deep Think 取得金牌级数学奥赛成绩) - TechRepublic
FACT-CHECK SUMMARY
- Claims checked: 14
- Claims verified: 14
- Verdict: PASS
- 世界数学竞赛银牌
- 国际数学奥林匹亚竞赛(IMO)金牌标准
- 亚洲数学大赛大奖
- 30分,解决4道题
- 35分,解决5道题
- 40分,解决6道题
- 它是专为数学设计的 AI
- 它严格遵守了正式比赛规则
- 它比人类解题速度快得多