前言:數學,對 AI 來說曾是「攻不可破」的城牆嗎?

想像一下,全世界最聰明的十幾歲數學天才們齊聚一堂。他們是為了參加自 1959 年以來每年舉辦、全球最具權威的腦力奧運——國際數學奧林匹亞 (IMO, International Mathematical Olympiad) 而聚集的候選人 來源 1

這場比賽不僅僅是代入背誦的公式得出答案的測驗。題目就像是以前從未見過的怪異且複雜的邏輯迷宮。參賽者必須自己尋找路徑並進行邏輯證明。這完全是考驗人類智慧極限的場所。

然而在 2025 年 7 月,在這個被稱為「人類智慧聖地」的地方傳來了令人難以置信的消息。Google DeepMind 的人工智慧 Gemini 在這場比賽中堂堂正正地獲得了「金牌水準 (Gold-medal standard)」的成績 來源 4。這不僅僅是分數高,而是在完全遵守比賽官方規則的情況下取得的「官方認可」紀錄 來源 5。Gemini 究竟是如何解開這些艱難的數學題的?這又向我們展示了什麼樣的未來?

為什麼這很重要? (Why It Matters)

我們平時使用的聊天機器人對於「1234 乘以 5678 是多少?」這類問題回答得很好。但如果給出像「請邏輯性地解釋為什麼這個定理成立」這樣的複雜問題,AI 往往會感到困惑,或者出現看似合理卻在撒謊的幻覺現象 (Hallucination)

數學奧林匹亞的問題正是這種「邏輯推理」的巔峰。因為這不僅需要擅長計算,還需要從一個事實推導出下一個結論的精確思考過程。這次 Gemini 的成果之所以重要,原因有三:

  1. 向真正的「思考型 AI」進化:Gemini 現在已經超越了單純記憶和輸出數據的水準,具備了像人類一樣深入思考並建立邏輯的推理 (Reasoning) 能力 來源 7
  2. 非數學專用,而是「通用型」AI 的勝利:這個模型並非被改造為只擅長數學的特殊機器人。令人驚訝的是,我們日常對話使用的「通用語言 AI」,在數學領域也達到了世界頂尖水準 來源 7
  3. 正式認可:雖然過去也有 AI 擅長解數學題的發表,但這次的不同之處在於,它是經過 IMO 比賽協調員親自驗證並正式認可的成果 來源 4

深入淺出:Gemini 的秘訣「深思 (Deep Think)」

Gemini 究竟是如何完成這項艱鉅任務的?其核心在於一項名為 「Deep Think (深思)」 的技術。為了理解這一點,請想像一個情境。

[請想像:迷宮中的兩名學生] 兩名學生進入了一個複雜的迷宮。

1. 「直覺」與「深思」的結合

想想我們解謎題的時候。有一看到題目就能想到答案的直覺,也有在紙上一步步記錄、推敲的深思過程。如果說傳統的 AI 主要依賴第一種「直覺」快速給出答案,那麼這次強化的 Gemini 則通過 「Deep Think」 經歷了檢查和修正自己想法的過程 來源 8

2. 用比喻來理解:擁有「草稿本」的優等生

簡單來說,搭載了「Deep Think」的 Gemini 就像是 「帶著練習本(草稿本)的優等生」。收到問題後,它不會立即吐出答案,而是在練習本上自我對話:「第一步先這樣解解看」、「咦?這裡卡住了?那換個方法試試」。通過這個過程,它能減少錯誤並接近正確答案。

3. 僅靠自然語言解開的數學

更令人驚訝的是,Gemini 並非通過編寫複雜的電腦程式碼來解數學題。它使用的是我們日常使用的語言,即 「自然語言 (Natural Language)」 來展開邏輯 來源 8。就像一位老練的數學家在旁邊娓娓道來一樣,它通過語言建立邏輯,最終奪得金牌。

現狀:Gemini 創下的驚人紀錄

Gemini 在這次比賽中取得的成績遠遠超出了「表現優異」的水準。

這次項目由 Google DeepMind 的 Thang Luong 引領技術方向,並由 Edward Lockhart 共同合力完成 來源 3。他們向世界證明了 AI 已經超越了單純的工具,能夠執行高度的智力活動。

未來會如何發展? (What’s Next)

數學奧林匹亞金牌不僅僅是「AI 幫忙做數學作業」這種程度的話題。

  1. 科學與技術的加速:數學是所有科學的基礎語言。能夠證明複雜公式的 AI 將在開發新藥或設計解決氣候變化的效率能源網絡等解決人類難題方面發揮決定性作用。
  2. 邏輯領域的創新:在程式編寫或法律文件審核等需要高度邏輯推理的領域,預計也將發生巨大變化。具備「Deep Think」能力的 AI 將在編寫無誤的代碼或尋找複雜的法律矛盾方面展現卓越能力。
  3. 個人教育的飛躍發展:將會出現不僅僅告訴你正確答案,還能邏輯性地指導你「因為你在這裡這樣想,所以下一步試著朝那個方向接近」的完美個人導師。

Google Gemini 通過這次成果清楚地展示了 AI 已經從單純「摘要」信息的階段,進入了「解決」複雜問題的階段 來源 9

AI 的觀點 (AI’s Take)

這次 Gemini 奪得 IMO 金牌的消息給我們提出了一個重要的問題:「如果 AI 進入了曾被認為是人類專屬的創意邏輯領域,那麼人類的角色是什麼?」但是,就像數學家利用 AI 這一新工具實現更偉大的數學發現一樣,我們是否可以認為我們獲得了一個名為「深思型 AI」的可靠夥伴呢?與 AI 一起愉快地解開那些單靠個人無法解開的人生與世界的複雜公式的日子,看來指日可待。


參考資料

  1. Gemini 的深思版本在國際數學奧林匹亞正式達到金牌標準 - Google DeepMind Blog
  2. Gemini 的深思版本在國際數學奧林匹亞正式達到金牌標準 - AI Future Thinkers
  3. 數學中的 AI:Gemini 憑藉 DeepThinking 在 IMO 樹立新標準 - Promptwire
  4. Gemini Deep Think 學習數學,在國際數學奧林匹亞奪金 - Ars Technica
  5. 世界首個 AI 在 IMO 奪金:Google Gemini 獲得 35 分,震驚評委 - 36Kr
  6. Gemini 憑藉 Deep Think 在國際數學奧林匹亞獲得金牌 - Maginative
  7. Google DeepMind 的 Gemini 僅使用自然語言贏得數學奧林匹亞金牌 - THE DECODER
  8. Google DeepMind 憑藉 Gemini Deep Think 取得金牌級數學奧林匹亞成果 - TechRepublic

事實查核摘要