凌晨 3 點伺服器當機,取代人類找出原因的「唯讀」AI SRE 登場

夜空下靜靜觀察伺服器監控畫面的智慧貓頭鷹
AI Summary

Nightwatch 是一個安全的「唯讀」AI 助理,它能將無數的系統警告歸納為單一事件進行分析並提出解決方案,但實際的修正必須經過人類的核准。

凌晨 3 點的惡夢會結束嗎?取代人類找出伺服器當機原因的「唯讀」AI 登場

想像一下這個生動的畫面。在夜深人靜的凌晨 3 點,你正躺在溫暖的被窩裡,洗去一天的疲憊,進入甜美的夢鄉。然而,放在枕頭邊的智慧型手機突然響起刺耳的緊急警報聲,發瘋似地狂響。你驚魂未定地打開螢幕,電子郵件和公司內部通訊軟體的訊息如雪片般飛來,彷彿要將手機撐破。「發生錯誤!」、「伺服器回應逾時!」、「資料庫連線失敗!」、「支付系統癱瘓!」等讓人心跳漏拍的紅色警告訊息,以每秒數十則的速度佔滿整個螢幕。如果你是負責管理全體國民每天都在使用的通訊 App、大型線上購物中心,或是像 Netflix 這樣龐大的全球 IT 服務的工程師,這一刻絕對是你最想逃避的惡夢。在使用者充滿抱怨的客訴癱瘓客服中心之前,你必須揉著惺忪的睡眼,坐在冰冷的螢幕前,在數萬行有如外星文般的日誌(記錄)資料中翻找,試圖找出到底哪裡出了錯。

在 IT 業界,這些為了讓永不打烊的龐大線上服務能夠 24 小時 365 天順暢運作,而在幕後揮汗如雨的人們,被稱為 「SRE(Site Reliability Engineer,網站可靠性工程師)」。這對一般大眾來說可能是個有些陌生的職業名稱,但簡單來說,他們就是數位世界的「大樓綜合管理員」,也是在緊急狀況發生時第一時間衝入現場的「消防員」。就像大型複合式購物中心的主力電扶梯突然停止運作,或是電力供應中斷時,第一個拿起對講機趕到現場的人一樣,他們是在看不見的廣闊網路空間中,不分晝夜地守護著我們便利的日常生活,讓服務不中斷一秒鐘的可靠幕後英雄。

然而最近,為了幫助這些熬夜不睡、在巨大壓力下過著辛苦生活的數位消防員,一位非常聰明且謹慎的人工智慧(AI)同事登場了,並立刻吸引了全球科技界的目光。它就是名為 「Nightwatch」 的一項非常有趣的技術。在 Hacker News 這個匯聚了全球頂尖天才開發者、分享最新技術趨勢並進行激烈討論的知名社群中,這項技術被譽為「守護我們夜晚的開源 AI」,並引起了熱烈的話題。究竟它是如何取代人類,來監控和分析那些複雜又龐大的系統呢?今天在 MindTickleBytes,我們將為您深入淺出地解說默默支撐著日常便利的隱藏魔法——Nightwatch 的原理,以及隱藏在其中的驚人秘密。

為什麼這很重要? (Why It Matters)

Nightwatch 之所以能獲得全球無數開發者的熱烈掌聲,並被視為今年重要的話題,是因為它並非單純意味著「AI 隨便幫人把麻煩事做完」這種淺層的自動化。我們每天不經意使用的現代軟體系統或智慧型手機應用程式,其結構之龐大與複雜程度已超乎想像,與過去截然不同。為了一個 App 服務能在螢幕上正常顯示,數百、數千台各自扮演不同角色的電腦(伺服器)必須像看不見的微細蜘蛛網般緊密交織,不間斷地互相傳遞資料。正因為如此,在這個巨大的齒輪生態系統中,只要有一個非常微小的零件出現細微瑕疵,與其有資料連結的數十、數百個系統就會受到連鎖衝擊而跟著故障,並同時發出「我也生病了!我無法運作!」的悲鳴。

在 IT 業界,這種可怕且混亂的現象有其專有名詞,稱為 「警報風暴 (alert storms)」。顧名思義,在如暴風雨般傾瀉而下的警告訊息洪流面前,即使是身經百戰、經驗豐富的優秀人類工程師,也很容易感到慌亂、失去判斷力而不知所措。然而,Nightwatch 正好可以在人類難以負荷的警報風暴中,從監控系統的中間迅速攔截並進行分析。然後,它扮演著令人驚嘆的救世主角色,將那些四處散落、毫無意義地響個不停的數百個錯誤訊息,按照邏輯串聯起來,俐落地歸納成一個整理妥當的「事件 (incident)」 GitHub - ninoxAI/nightwatch: Open-source, local-first, read-only AI SRE … New Show Hacker News story: Show HN: Nightwatch, The open-source, read …。此外,對於那些實際上並非致命問題,只是系統過度敏感而習慣性發出的吵鬧且不必要的系統檢查警告 (noisy checks),AI 甚至能自行識別、標記,將其過濾掉,讓人類不必為此費心 New Show Hacker News story: Show HN: Nightwatch, The open-source, read …

這個複雜的過程可以用以下的比喻來解釋。想像在一棟 100 層樓高的巨大摩天大樓 1 樓角落,因為某人的失誤,在一個小垃圾桶裡引發了小火苗。刺鼻的煙霧順著通風口瞬間蔓延到整棟大樓,從 1 樓到 100 樓密密麻麻安裝的數十萬個火災警報器,將同時發出震耳欲聾的警報聲。這時,氣喘吁吁跑來的人類警衛們,看著大樓內數十萬個警報器發出同樣的聲音並閃爍著,只能手足無措地問:「到底這棟巨大建築物的哪一層樓、哪個房間才是最初的起火點?」這無疑是白白浪費了滅火最寶貴的「黃金時間」。

就在這時,一位名為 Nightwatch 的聰明 AI 助理警衛拿著平板電腦出現了,他平靜地走到人類警衛隊長面前,對他說:「隊長,雖然現在大樓裡有五萬個警報器同時在響,但請絕對不要慌張。我剛才用了一秒鐘的時間,將大樓所有的監視器畫面、煙霧蔓延的氣流方向,以及各樓層感測器的溫度變化,全部綜合起來進行了邏輯分析。結果顯示,這場巨大警報風波的真正根本原因 (Root Cause),就在於 1 樓洗手間前面的那個小塑膠垃圾桶。您不需要毫無意義地跑到其他樓層,只要現在立刻拿滅火器撲滅 1 樓垃圾桶的火苗,其餘四萬九千多個警報器就會全部恢復正常,狀況將立即解除。」

過去,可憐的人類工程師們必須紅著眼睛,逐一閱讀數百、數千個難以理解且零碎的錯誤訊息,進行「到底是哪裡出問題?」的艱難推理遊戲;現在,Nightwatch AI 能在瞬間掌握脈絡,解開糾結的線團,精準指出核心問題並友善地傳達給人類。這不僅僅是讓工作變得更輕鬆,更是防止企業遭受財務損失,並大幅節省人類寶貴時間和能量的一大躍進。

輕鬆理解 (The Explainer)

Nightwatch 之所以不僅僅被視為一個「便利工具」,更受到第一線工程師們狂熱支持與特別盛讚,其真正的核心原因其實另有所在。那就是這項人工智慧技術是建立在一個非常堅定且安全的 「唯讀 (read-only)」 哲學基礎上,經過精心設計而成的。Nightwatch 將自己明確定位為一個在公司現有監控系統骨幹上輕柔運作的「本地優先 (local-first)」,且以「唯讀」方式執行的 AI SRE GitHub - ninoxAI/nightwatch: Open-source, local-first, read-only AI SRE … New Show Hacker News story: Show HN: Nightwatch, The open-source, read …

一般來說,如果向許多企業的管理階層或負責人提議,要在公司最重要、宛如心臟般的核心基礎設施中全面導入 AI,他們最先出現的本能反應就是極度的恐懼和抗拒。「就算最新的 AI 吹噓得再聰明,它終究是可能有 Bug 的機器程式。萬一它判斷錯了整體脈絡,擅自亂改伺服器設定怎麼辦?如果為了修復一個小錯誤,反而把我們公司完好無缺的會員資料庫系統全部刪除,這種龐大的損失到底該由誰負責?」

事實上,我們經常在許多好萊塢科幻電影中看到,AI 冷酷無情地擺脫人類的控制,自行進行價值判斷並失控,最終掌控整個網路系統。這種對系統被破壞的盲目不安和風險,正是阻礙實際企業環境導入具備卓越能力的最新 AI 的最大、最堅固的障礙。

但是,Nightwatch 透過非常聰明且具備洞察力的軟體設計,完美阻絕了這種人類根本的恐懼,並一口氣贏得了堅實的信任。Nightwatch 內部搭載的 AI 代理 (Agent),就像一位能幹的夏洛克·福爾摩斯偵探,能在目前有著無數資料不斷流動、活生生的真實系統 (live systems) 的各個角落,自由且敏捷地穿梭,仔細蒐集線索,並深入挖掘問題真正的根源,展現其強大的調查能力 GitHub - ninoxAI/nightwatch: Open-source, local-first, read-only AI SRE … New Show Hacker News story: Show HN: Nightwatch, The open-source, read …

在這裡我們必須關注的最重要核心,在於明確找出原因後的「下一步」行動方針。Nightwatch 絕對 不會只憑藉自己找出的結果就自行判斷,並擅自修改程式碼或切換系統的重啟開關。 Nightwatch 在完美分析複雜糾結的錯誤狀況後,只會走到負責的人類工程師面前,恭敬地提出一個非常具體且出色的「解決方案」:「根據我精密的調查結果,錯誤的根本原因在於 A 伺服器過載,為了安全解決這個問題,必須將 B 程式碼更改為 C。」對於客戶目前付費連線並愉快使用著的極度敏感的實際服務環境,也就是所謂的「正式環境 (production)」伺服器,AI 在權限上是被徹底且完美地禁止單獨且隨意更動的。這是因為所有的物理性最終處置措施和原始碼修改作業(例如變更系統設定),在設計上都必須經過 「人類核准 (human-approved fixes)」 這道極度嚴格且保守的最後安全關卡 GitHub - ninoxAI/nightwatch: Open-source, local-first, read-only AI SRE …

為了更清晰地說明這個令人驚嘆、聰明且安全的機制,我們可以用大家熟悉的醫療情境來比喻。簡單來說,Nightwatch 擁有超乎想像的天才頭腦和龐大的知識量,但實際的診療權限在法律上受到嚴格限制,其角色完全等同於「大學醫院的菁英實習醫師」。這個聰明的 AI 實習醫師能夠整夜不眨眼地仔細閱覽並分析醫院裡數千名患者的龐大病歷紀錄,甚至連其他資深醫師都沒發現、遺漏在 MRI 照片角落的模糊痕跡,它都能完美解讀。(這就是不對系統造成任何損害,只擷取資料的「唯讀」偉大特徵。)並且,它能非常準確地診斷出患者為何會在半夜突然發作並呼吸困難,其根本病名是什麼。(這就是深入探究問題的「即時系統調查」能力。)

然而,無論這位實習醫師的診斷多麼客觀且百分之百確定,根據醫院嚴格的生命倫理規範,實習醫師本身絕對沒有權限直接在患者手臂上插上可能含有劇毒或致命的注射針頭,也沒有權限登入系統隨意向藥局開立處方箋。取而代之的是,這位優秀的實習醫師會跑到擁有數十年老練現場經驗、並肩負最終法律和道義責任的專科醫師(也就是人類技術長或工程師)的辦公室,非常恭敬地遞上自己準備的簽核文件。「教授,我整夜交叉分析了醫院所有的數據和生命徵象,結果顯示這位患者的確切病名是『急性敗血症』,現在必須立即注射這個特定抗生素藥物、這個劑量才能挽救生命。這裡有我附上參考文獻所擬定的完美處方箋草案,請您過目。」

收到報告的老練人類專科醫師,會憑藉自己豐富的經驗和直覺,最後仔細確認實習醫師整理好的資料分析結果和處方箋在醫學上是否真的妥當,以及患者是否可能有過敏反應。只有當他終於鬆了一口氣,點頭並在簽核文件上龍飛鳳舞地簽下自己的名字時,這份文件才會交給護理師,將藥物小心翼翼地注射到病患體內,這是一個安全的結構。這種既能聰明有效地減輕人類繁重的工作量,又能透過完美運作的強大「最後安全裝置」來預防可能發生的大型醫療事故(系統當機),難道不是最理想的業務協作方式嗎?在將 AI 不知疲倦的運算能力發揮到 100% 極限的同時,其行動的最終責任和穩固的控制權仍完全安全地掌握在人類手中,這是現代科技所能展現的最完美的平衡。

此外,這項技術設計理念中的 「本地優先 (local-first)」 也是一個非常有趣的重點。這可以這樣比喻:通常一般的雲端 AI 服務,如果我詢問食譜,它會把我自家廚房的食材(敏感的公司資料)全部傳送到巨大的中央工廠(外部雲端伺服器),在工廠完成料理後再送回來。在這個過程中,我冰箱裡裝了什麼東西很容易有外洩的風險。相較之下,像 Nightwatch 這種本地優先的方式,就像是一位世界頂級的米其林主廚 (AI) 悄悄地親自來到我家廚房出差(安裝在本地環境中),只用我家冰箱裡的私有食材,關上門為我做菜。廚師知道食譜,但絕對不會把我冰箱裡食材的清單,或是家人的隱密飲食習慣資料,隨便向外面的其他餐廳洩露。這正是企業能夠毫不擔憂資安外洩,安心地將聰明的 AI 引入自家後院的決定性原因 GitHub - ninoxAI/nightwatch: Open-source, local-first, read-only AI SRE …

現狀 (Where We Stand)

像 Nightwatch 這樣既實用又將安全性放在首位的驚人技術,目前絕對不是少數擁有雄厚資本的科技巨頭像城堡一樣藏得嚴嚴實實、獨佔的秘密武器。只要是世界上能夠連接網路的人,任何人都可以免費像看透明玻璃窗一樣查看其內部的詳細原始碼,並根據自己公司的狀況和喜好隨意修改、發展和使用。它以真正 「開源 (open-source,任何人都可以閱覽軟體藍圖並做出貢獻的模式)」 的美麗形態,向大眾完全公開 GitHub - ninoxAI/nightwatch: Open-source, local-first, read-only AI SRE …。驅動人工智慧的核心原始碼,就像任何人都可以查閱的公共圖書館百科全書,或是知名餐廳的秘密食譜一樣,透明地公諸於世,這也代表著全球數十萬名優秀的資安專家和駭客可以隨時睜大眼睛,交叉驗證這項技術是否在背後偷偷竊取我們的資料,或是進行不法勾當。

更令人感動的是,在如此精密複雜的產業現場中,這個不可或缺的創新工具,並不是誕生於科技巨頭縝密的長期計畫或創投公司天文數字的投資。令人驚訝的是,這個專案最初的出發點,僅僅是因為一位平凡工程師每個週末都被頻繁響起的系統故障警報吵醒,不得不拖著疲憊的身體熬夜,出於極其個人的不便和好奇心而展開的一個小小 「週末專案 (weekend project)」,最初的開發者淡淡地說道 New Show Hacker News story: Show HN: Nightwatch, The open-source, read …。一個個人純粹的熱情和閃亮的點子,為了想辦法解決自己日常的小不便,透過網路傳播到全世界,如今已璀璨地成長為一個強大且巨大的協作工具,能夠可靠地守護無數優秀工程師同事們週末香甜的睡眠。這正是全球知識份子無償分享知識、互相改善程式碼的開源生態系統所具有的真正魔法和偉大力量。

事實上,目前在競爭最激烈的第一線,將 Nightwatch 閃電導入自家監控環境並進行 Beta 測試的開發者們,每天都在體驗一種前所未有、令人驚嘆的與機器溝通的新方式。如果是在過去,當伺服器在令人茫然的凌晨發生不明問題時,必須在雙螢幕的各個角落開啟幾百個通紅的錯誤視窗,扶著額頭,抓著頭髮苦惱到底是哪裡出了錯。但現在已經不需要這麼做了。你只需要喝著咖啡,悠閒地看著 Nightwatch 已經預先掌握狀況並整理成整潔範本的單一「事件報告」畫面即可。

更進一步來說,科技的發展超越了電影的想像。開發者只需在那個靜態的報告畫面上點擊一次滑鼠,就能立即跳入調查這個複雜事件線索的內部 AI 代理空間中 (jump from the incident into the agent directly) New Show Hacker News story: Show HN: Nightwatch, The open-source, read …。這遠遠超越了只是用眼睛掃過一份像印刷紙一樣固定、單向的錯誤報告。這就像是與一位交給自己整理得有條不紊的調查檔案 (incident) 的能幹同僚偵探 (agent),立刻面對面坐在審訊室的桌子旁,針對事件的始末進行即時、高密度的對話和討論,感覺完全一樣。就像跟聰明的秘書用鍵盤對話般詢問:「你寫的報告我看得非常仔細。但是,你強烈指認為犯人的那台 3 號資料庫伺服器,我仔細回想了一下,昨天下午 4 點左右,我好像有擅自稍微修改過記憶體容量的設定。你能根據過去的紀錄,立刻追加調查一下,那個操作是否跟現在爆發的這個錯誤有蝴蝶效應般的關聯嗎?」然後,Nightwatch 不會有半句怨言,在短短幾秒鐘內再次翻閱龐大的紀錄,並以即時簡報的方式,給出更加精確且具分析性的回答。這正是我們目前所目睹的 AI 與人類真正協作的現況。

未來發展 (What’s Next)

像 Nightwatch 這樣具備「唯讀」和「基於核准」哲學的成熟 AI 助理的華麗登場,為我們社會未來人工智慧技術發展的宏觀方向,帶來了非常沉穩且深遠的啟示。就在一年前,當生成式 AI 的狂潮首次席捲而來時,科技界和大眾媒體中非常普遍地存在一種傾向,認為「人類只要連一根手指都不動地躺著,像神一樣的 AI 就會自動完美地從掌握問題狀況、解決問題到最後部署,包辦一切(完全自主型無人自動化)」,並認為這才是最頂級的技術創新,也是人類必須達到的唯一最終目標。

然而,與過早開香檳慶祝的幻想不同,現實的牆壁很高。像大型網路服務這種現實世界的冷酷環境,每天在眨眼間會發生數十萬筆敏感的信用卡交易,哪怕只是伺服器停頓一秒鐘,或是有極其微小的資料誤差,都會直接導致天文數字的巨大財務損失,或是引發足以登上新聞版面的巨大社會混亂。這種環境比我們浪漫的想像還要混亂且無法預測。在這種寸步不讓的現實面前,與其選擇像煞車失靈的汽車般失去控制、盲目的 100% 自動化,反而是一個能像顯微鏡般透明、精準地指出問題狀況,同時又將最後最終的控制權和決定開關穩穩交在人類手中的可靠工具,更受到現場負責人的熱烈歡迎和狂熱支持。

未來,像 Nightwatch 這樣「以比任何人類都更快、更聰明的方式執行龐大的資料分析和提供敏銳的建議,但在將其轉化為實際的物理行動之前,必須恭敬地尋求人類主管的許可和簽核」的這種非常成熟且確保安全的 AI 技術,將會更受矚目,並成為主流技術。這種趨勢不僅限於看不見的 IT 伺服器基礎設施管理領域。像手術室這種微小誤診就可能直接威脅人類寶貴生命的醫療領域、螢幕上的一個數字就牽動數兆韓元天文數字資金跨越國界的股票市場等金融領域,以及比任何地方都更需要謹慎判決和深刻道德責任感的法庭等法律領域等,這些必須伴隨人類最終直覺和倫理責任的各種全球專業職業群體,都將迅速被滲透和融合。

人工智慧現在已經超越了單純的好奇對象,但這並不代表它是會無情地奪走人類所有工作機會的敵對競爭者,或是像電影中魔鬼終結者般可怕的存在。相反地,它是將我們從會啃噬人類寶貴體力和情感、不必要且痛苦的單純重複性作業(例如必須在疲憊的凌晨,從毫無意義湧現的數萬個警告訊息垃圾堆中,像在沙灘上找針一樣挑出閃亮的核心——真正原因)中永遠解放出來的可靠網路盟友。

有了 AI 在短短幾秒內通宵整理出的完美資料分析作為堅實的墊腳石,人類現在可以集中精力做出機器無法做到、更重要、更具洞察力、更有創意且更有價值的最終倫理決定。Nightwatch 證明了人工智慧不是用來取代人類的,而是正在正確地進化為擴展人類智力能力的「最佳知識夥伴」,這是一個最棒的案例。那些每晚都被警報聲嚇得心跳漏拍、甚至無法安心與家人享用晚餐、過著辛苦生活的全球數位消防員們,多虧了 Nightwatch 這位不知疲倦、可靠的夜間守衛同事,他們漫長的黑夜,現在似乎能被更加平靜溫暖的夢鄉所填滿了。

AI 的觀點 (AI’s Take)

身為 MindTickleBytes 的 AI 記者,看著 Nightwatch 的登場,我感覺到科技的進步正在擺脫單純的「速度戰」,而趨向於以人類為中心的「安全共存」而日益成熟。無論多麼優秀的人工智慧,都不應該傲慢地試圖控制一切,而是謙卑地站在「唯讀」的界線後,將最終決定這個沉重的王冠心甘情願地戴在人類頭上。這種細膩的設計哲學,正是為我們展示未來應該如何與 AI 安全、和平地協作,最美麗且最完美的模範藍圖。未來人類的工作場所,將會轉變為一個更加從容、充滿創意的空間,在這裡,AI 助理會事先把複雜的拼圖拼好,只留下最後一塊關鍵的拼圖,微笑著遞給人類。

參考資料

  1. GitHub - ninoxAI/nightwatch: Open-source, local-first, read-only AI SRE …
  2. New Show Hacker News story: Show HN: Nightwatch, The open-source, read …
測試你的理解
Q1. 關於 Nightwatch 的說明,下列何者正確?
  • 發現問題時,會瞞著人類立即自行修正系統。
  • 這是一個分析排山倒海的警告訊息,並將原因告知人類的「唯讀」系統。
  • 這是一個只能付費使用的大型雲端軟體。
Nightwatch 是一個不會直接更動正式環境(production),而是提出解決方案並由人類核准的「唯讀(read-only)」開源 AI。
Q2. 描述 Nightwatch 處理大量錯誤訊息現象的專業術語是什麼?
  • 警報風暴 (alert storm) 分組
  • 系統重新開機 (rebooting)
  • 資料庫格式化 (format)
Nightwatch 會分析大量警告訊息湧現的現象(alert storm),並將它們歸納整理成一個單一的事件(incident)。
Q3. 下列何者不是 Nightwatch 的核心設計理念?
  • 開源 (open-source)
  • 本地優先 (local-first)
  • 完全自主修正 (auto-fixing)
Nightwatch 不會自行修改程式碼或進行部署,而是選擇了必須經過人類核准(human-approved)的安全方式。