AI在「數學奧林匹亞」奪金？Gemini 證明的邏輯思考力量

AI Summary

Google 全新的 AI 模型「Gemini Deep Think」在世界最高權威的數學競賽 IMO 中完美解決了 6 題中的 5 題，成為 AI 歷史上首個獲得官方認可的金牌級表現。

AI 向數學天才的領域發出挑戰書

想像一下。 來自世界各地、數學最出色的十幾歲天才們聚集在一起。為了在兩天內解決僅有的 6 道題目，他們奮力揮動鉛筆，甚至快要把紙磨穿了。這項競賽正是自 1959 年起每年舉辦、世界上最具權威的青少年數學競賽：國際數學奧林匹亞 (International Mathematical Olympiad，以下簡稱 IMO) Gemini Deep Think 進階版本正式達到金牌標準 …。

長期以來，AI 雖然擅長複雜計算，但在需要高度創造力與邏輯推理 (Reasoning，根據已知資訊推導結論的思考過程) 的 IMO 題目面前，始終難以突破。然而在 2025 年夏天，傳來了令人震驚的消息：Google DeepMind 的最新 AI 模型 「Gemini Deep Think」 打破了這道如鐵壁般的牆，獲得了金牌水準的成績 Gemini Deep Think 進階版本在國際數學奧林匹亞正式達到金牌標準 - Google DeepMind。

這不僅僅是「擅長解題」的程度，更是一個正式證明了人工智慧在被稱為人類智慧精華的數學思考能力上，已經達到了巔峰的事件。現在，我們該把 AI 視為共同思考的夥伴，而不僅僅是單純的計算工具。

為什麼這很重要？「從計算機進化為思想家」

我們常用的計算機或一般 AI 專注於快速尋找答案。但解決數學難題就像是在迷霧森林中尋路。在無數的分岔路中，你必須逐一建立邏輯根據，說明為什麼選擇這條路。

Gemini Deep Think 在這次 IMO 中取得的成果之所以特別，原因如下：

官方認可：這次成果是 IMO 協調員首次在這種精英級別的競爭中正式認可 AI 系統數學領域中的 AI：具備 DeepThinking 的 Gemini 在 IMO 創下新標準 …。以往 AI 的挑戰更像是「參考用」，而現在則是以與人類天才相同的標準進行評估，其實力得到了理所當然的認可。
自然語言的勝利：Gemini 並非只透過特殊的數學符號或程式碼進行溝通。它像人類一樣使用自然語言 (Natural Language，我們日常使用的語言) 來解決複雜的數學問題 Google DeepMind 憑藉在世界最難數學競賽中奪金創下 AI 歷史 …。打個比方，這意味著它不只是用公式解題，而是用語言細緻地解釋「為什麼會得出這個結論」。這顯示了 AI 將數學概念視為人類的邏輯體系來理解，而不僅僅是數字的排列。
智慧衡量的變遷：現在 AI 的效能不再是衡量「背誦了多少數據」，而是轉向「能思考和推理到多深的程度」。

輕鬆理解：「Gemini Deep Think」的魔力

簡單來說，可以將 Gemini Deep Think 理解為從「急著交出答案的學生」轉變為「仔細檢查解題過程並深入思考的學生」。

一般的 AI 在接到提問時，會試圖在不到一秒的時間內給出答案。這在心理學中被稱為「系統 1 思考（直覺且快速的反應）」。相反地，Gemini Deep Think 在接到問題後，會自主建立多個假設，確認是否存在邏輯矛盾，並在遇到困難時尋找其他路徑。這正是「系統 2 思考（緩慢但具備邏輯的推理）」，Google 將其稱為 「Deep Think」。

例如，對於「這顆蘋果為什麼會掉到地上？」的問題，如果一般 AI 立即回答「因為重力」，那麼應用了 Deep Think 的 Gemini 則會展現「計算物體質量與地球間的引力，檢查空氣阻力有多少，是否存在其他變數，自我檢視後再得出結論」的過程。

事實上，在這次競賽中，Gemini 完美解決了 6 題中的 5 題 (Flawlessly)，並獲得了 35 分的總分，達到了金牌水準的成果 Gemini Deep Think 進階版本在國際數學奧林匹亞正式達到金牌標準 - Google DeepMind, Gemini Deep Think 進階版本正式達成…。這是只有前 1% 的數學天才才能達到的領域。

現狀：堂堂正正的對決

這次成果之所以更具價值，是因為 Google DeepMind 團隊嚴格遵守了官方 IMO 規則進行競賽 Gemini Deep Think 學習數學，在國際數學奧林匹亞奪金 …。雖然其他研究機構的一些模型也聲稱取得了類似的成績，但 Google 明確表示，他們是在與實際賽場最相似的限制條件下達成此紀錄的 Google DeepMind 的 AI 在國際數學奧林匹亞奪金…。

此外，這個專案是 Google DeepMind 內部眾多團隊與研究人員協作達成的巨大成果 Gemini Deep Think 進階版本正式達到金牌標準 …。如 Thang Luong 和 Edward Lockhart 等核心研究人員強調，這項成果將成為 AI 加速科學發現的重要里程碑 Gemini Deep Think 進階版本正式達到金牌標準 …。

未來會如何？超越數學，邁向科學

擅長解數學題的 AI 對我們的生活有什麼幫助？數學是所有科學的基本語言。用於解決 IMO 題目的「推理能力」，將成為未來解決我們社會中最困難問題的鑰匙。

開發新藥：在數億種分子組合中，能透過邏輯推理找出無副作用且能治療疾病的組合。不再只是嘗試所有的可能性，而是透過「思考」尋找可能性最高的道路。
解決氣候變遷：分析複雜的氣象數據，提出能減緩全球暖化的最佳能源政策方案。
程式設計：Gemini Deep Think 的進階版本已在國際大學生程式設計競賽 (ICPC) 全球總決賽中獲得金牌水準的成績，預示著軟體製作方式的革新 Gemini 在國際大學生程式設計競賽全球總決賽達到金牌水準 — Google DeepMind。

DeepMind 自 2025 年夏天的這項成果以來一直持續改進模型，現在一般用戶也可以透過 Gemini 應用程式直接體驗「Deep Think」功能的一部分在 Gemini 應用程式中嘗試 Deep Think。

參考資料

Share this article:

測試你的理解

Q1. Gemini Deep Think 在 2025 年國際數學奧林匹亞 (IMO) 中共獲得了多少分？

30分
35分
42分

Gemini 完美解決了 6 題中的 5 題，獲得總分 35 分，達到了金牌水準的成績。

Q2. 這次 Gemini 的成果與以往 AI 研究相比，最核心的特徵是什麼？

解題速度最快
使用了數學專用計算機程式
作為 AI 系統首次獲得競賽協調員的官方認可

這次成果是國際數學奧林匹亞 (IMO) 協調員首次官方認可 AI 系統具備精英級別的表現。

Q3. 國際數學奧林匹亞 (IMO) 是從哪一年開始每年舉辦的競賽？

1959年
1990年
2000年

IMO 是自 1959 年起每年舉辦，世界上最具權威的青少年數學競賽。