超越巨頭 Google 的「無名 AI 騎士」，登上終端機之王座

AI Summary

搭載 Google Gemini 3 的開源 AI 代理 Dirac，在電腦專家領域的「終端機」控制測試中刷新了世界紀錄。

想像一下，你突然被獨自留在一個充滿複雜機械裝置的巨大工廠控制室裡。四面八方有數千個開關，螢幕上不斷閃過難以理解的加密程式碼。這裡是驅動整座工廠運行的核心，但如果不是極為熟練的技術人員，恐怕連碰都不敢碰。

在我們每天使用的電腦中，也存在著這樣一個「秘密控制室」。那就是充滿黑色畫面與白色文字的 終端機（Terminal，直接輸入指令來控制電腦的視窗）。一般使用者透過滑鼠點擊漂亮的圖示來使用電腦，但真正的專家則透過終端機這個工具，直接操作電腦的骨架並設計複雜的系統。

然而最近，在這個曾是專家聖域的終端機領域，發生了一件令世界震驚的事件。一個由個人開發者打造的「無名開源 AI」，擊敗了由 Google 等科技巨頭製作的官方 AI，登上了世界最強終端機專家的寶座。這就像是一位巷弄小店的廚師，在米其林三星主廚雲集的料理大賽中堂堂正正地奪冠一樣，充滿了戲劇性的反轉。

為何這很重要？「從會說話的 AI 進化到會行動的 AI」

直到目前為止，我們接觸到的 ChatGPT 或 Gemini 等 AI，主要是以「擅長說話」著稱。對於「幫我寫首詩」、「幫我翻譯英文」、「幫我摘要長文」等要求非常熟練。但若要委託它們進行實質性的工作，例如「幫我按內容整理電腦中散亂的 1,000 個檔案，並自動安裝必要的程式」，目前仍有許多令人不安的地方。

這次成為話題、名為 Dirac 的 AI 代理則完全不同。根據 Dirac 開源代理在 TerminalBench 擊潰 Google 的基準紀錄的報導，Dirac 證明了它能直接進入電腦最深處的終端機，下達複雜指令、管理檔案並自行解決問題。

簡單來說，這意味著 AI 已經超越了單純提供資訊的「善於言辭的秘書」，進化為能代替我管理電腦、俐落地執行複雜技術任務的 「能幹的代理人（Agent）」。特別是這次奪冠的並非投入數兆韓元資金的大企業付費服務，而是任何人都能研究其設計圖並免費使用的 開源（Open Source，將軟體的原始碼向大眾公開） 模型，這一點讓全球開發者感到熱血沸騰。

簡單理解：AI 的「駕照考試」——TerminalBench

為了衡量 AI 有多聰明，專家們會讓它們參加各種「考試」。這次 Dirac 登上王座的考試是 TerminalBench 2.0。開源 AI 代理在 TerminalBench 2.0 排行榜奪冠

這項考試可以比喻為 「專為 AI 準備的高難度駕駛路考」。只是這次駕駛的不是汽車，而是非常棘手且複雜的裝置——「電腦終端機」。考試項目包含連專家都會感到棘手的難題：開源代理搭配 Gemini-3 登上 TerminalBench 榜首 - PromptZone

殼層腳本 (Shell Scripting)：按順序編寫下達給電腦的多步驟指令（比喻來說，就像是毫無誤差地寫出供數萬人食用的複雜料理食譜）。
檔案管理：在數萬個檔案中找出微小差異，並進行篩選、移動及修改等細膩作業。
系統設定：根據目的完全改造電腦內部環境的高難度任務。

開發者「umair24171」評價道：「大多數 AI 考試往往只是詢問知識的表面功夫，但 TerminalBench 是能衡量 AI 是否真的能『幹活』的實力測試。」Gemini-3-Flash：我的 AI 代理基準測試 TerminalBench 獲勝與三項修正

現況：大衛擊敗歌利亞的驚人分差

這次對決的結果對整個 IT 業界造成了巨大的衝擊。因為這就像是一位靠自己尋找學習方法的學生，以壓倒性的分差擊敗了長期包辦全校第一的富家優等生。讓我們來看看實際的成績單：

Dirac：65.2%（基於任何人都能使用的開源技術）Reddit 上的 r/GoogleGeminiAI：我建立的開源代理在 Gemini-3-flash-preview 的 TerminalBench 2.0 奪冠
Junie CLI：64.3%（原本排名第一的昂貴付費商業模型）
Google 官方紀錄：47.8%（Google 親自用自家模型測試的結果）

令人驚訝的是，Dirac 紀錄的分數比 Google 創下的官方紀錄高出整整 17.4 個百分點。如果以學校考試來換算，當 Google 拿 48 分時，Dirac 已經超過了 65 分。Reddit 上的 r/GoogleGeminiAI：我建立的開源代理在 Gemini-3-flash-preview 的 TerminalBench 2.0 奪冠

這次勝利的幕後功臣，其實是 Google 打造的最新 AI 大腦——Gemini-3-flash-preview 模型。Dirac 開源代理在 TerminalBench 擊潰 Google 的基準紀錄 Gemini-3 Flash 是 Google 的野心之作，旨在執行複雜程式碼和系統任務時，比既有模型運行得更快、更聰明。Gemini-3-Flash — Google DeepMind

但重點在於，Google 自身未能妥善利用這個優秀的引擎，成績停留在 40 多分；反觀開發者 Max Trivedi 則透過精密的調優與優化，發揮出世界頂尖的效能。而且這是在不耍任何花招、公開所有設計圖的情況下完成的。ShowHN：我建立的開源代理在 TerminalBench 奪冠…

未來會如何？來到我們身邊的「萬能修理工」 AI

Dirac 的成功鮮明地展示了我們即將迎來的兩個未來。

第一，AI 將成為我們家中的「電腦萬能修理工」。 想像一下，當電腦速度突然變慢或彈出不明原因的錯誤視窗時，你不再需要支付昂貴的維修費請專家，而是對 AI 代理說：「幫我在終端機找出這個問題的原因並修好它。」AI 在黑色畫面上掃描數萬行程式碼並在 1 分鐘內完成維修的時代已近在咫尺。

第二，「集體創作的力量」擊敗了巨頭企業的壟斷。 因為這次證實了，即便借用 Google 製作的引擎，如果全世界的人一起思考並改進使用該引擎的更好方法（代理結構），產出的成果將遠比企業獨自秘密研發的要優秀得多。

當然，前方仍有挑戰。65.2% 的分數意味著每 10 次中仍可能有 3 次出錯。在終端機中出錯，可能面臨誤刪珍貴家庭照片或重要工作檔案的風險。因此，開發者們今天仍在不斷研究，為了打造更完美的「安全裝置」，確保 AI 絕不出錯。

AI 的視線：MindTickleBytes 的 AI 記者視角

「Dirac 的勝利不單純是數字的對決。它證明了 AI 這種強大的工具並非特定大企業的專屬物，當我們所有人的智慧與好奇心匯聚時，它能綻放出最強烈的光芒。現在，我們已經渡過了思考『要問 AI 什麼』的時代，正站在思考『要委託 AI 幫我電腦處理哪些難事』的真正『代理人時代』門檻上。」

參考資料

事實查核摘要 (FACT-CHECK SUMMARY)

查核聲明數：15
已證實聲明數：15
裁定：通過 (PASS)

Share this article:

測試你的理解

Q1. 這次刷新世界紀錄的開源 AI 代理名稱為何？

Gemini CLI
Dirac
Junie CLI

Dirac 是由 Dirac Delta Labs 的 Max Trivedi 開發的開源 AI 代理。

Q2. 評估 AI 終端機作業能力的這項測試名稱是？

TerminalBench 2.0
Gemini 測試
Hacker News 基準測試

TerminalBench 是評估 AI 在命令列介面執行檔案管理或腳本編寫能力的一項標準。

Q3. Dirac 在這次測試中紀錄的答對率是多少？

47.8%
64.3%
65.2%

Dirac 創下了 65.2% 的成功率，大幅領先 Google 的官方紀錄（47.8%）。