AI 安全與治理

他幫忙打造了深度學習，為什麼現在要替 AI 拉煞車？

2018 年圖靈獎得主班吉歐從深度學習的共同發明者轉變為 AI 安全最高調的倡議者。在《數位主義者文集》中，他提出 AI 同時是全球公共財和全球風險的雙重框架，並警告三種末日情境。這篇導讀解析他的核心論點，以及他與 Cochrane「放輕鬆」立場的尖銳對話。

2026 年 3 月 3 日 · 來源： The Digitalist Papers

本文為「數位主義者文集」導讀系列文章，導讀約書亞．班吉歐在 The Digitalist Papers Volume 2 的〈Advanced AI as a Global Public Good and a Global Risk〉。

封面圖

從圖靈獎到聯合國的三年轉身

2025 年 11 月，《自然》（Nature）期刊專訪約書亞．班吉歐（Yoshua Bengio）。他坦言，讓自己夜不能寐的是人類滅絕的可能性。說這話的人可不是邊緣陰謀論者。他是 2018 年圖靈獎得主，與傑佛瑞．辛頓（Geoffrey Hinton）和楊立昆（Yann LeCun）並列為深度學習共同奠基者。同一個月，他成為 Google Scholar 史上第一位突破百萬次引用的在世學者。37 年來，他的基礎研究推動了從詞嵌入到注意力機制的每一個關鍵突破。簡單說，今天 AI 能做到的大部分事情，某種程度上都跟他有關。

2022 年 ChatGPT 發布前，班吉歐活在純粹的學術世界裡。他在蒙特婁大學做研究，主持自己在 1990 年代創辦的魁北克人工智慧研究所（Mila），專注推進深度學習的理論和應用。他後來坦承，他從來沒有認真考慮過深度學習的雙重用途本質，因為危險的人類等級能力似乎還很遙遠。ChatGPT 的出現改變了一切。幾個月內，他對超人類 AI 出現時間的估計從「幾十年到幾個世紀」收縮為「五到二十年，90% 的信心度」。2023 年 8 月，他在個人部落格上寫了一篇坦白到近乎痛苦的文章：身為一個把整個職涯都建立在「為社會做好事」信念上的研究者，面對自己可能正在推動一場浩劫的念頭，是極其難受的事。他提到自己的孫子，那種「我們可能正在毀掉下一代的未來」的恐懼。

恐懼化為行動的速度很快。2023 年他簽署了將 AI 滅絕風險與核戰並列的公開聲明，同年在美國參議院作證。2024 年被任命為聯合國「先進 AI 安全國際科學報告」主席，帶領百餘位國際專家分別在 2025 和 2026 年發布兩份報告。2025 年 6 月，他離開自己一手創辦的 Mila，成立非營利組織 LawZero，專注開發安全設計的 AI 系統，獲得蓋茲基金會和 Open Philanthropy 的資助。37 年的學術生涯，在三年內徹底轉向。

AI 是公共財，也是存亡威脅

班吉歐在文章中的起手式是預防原則：即使災難發生的機率不確定，只要後果夠嚴重就必須極度謹慎。他觀察到，數兆美元的潛在利潤加上地緣政治競爭，正在製造一種安全被犧牲來換取速度的危險動態。在此前提下，他勾勒了三種足以顛覆文明的風險。第一種是「破壞性混亂」：先進 AI 可能讓小型團體甚至個人獲得製造生化武器或發動大規模網路攻擊的能力。2026 年 2 月的聯合國報告用數據佐證了這個擔憂：23% 的高效能生物 AI 工具有高度被濫用的風險，其中超過六成完全開源，僅 3% 有任何安全防護。班吉歐特別強調生物武器的攻防不對稱，病原體一旦部署，即使疫苗存在也可能來不及阻止大流行。

第二種是「權力集中」。訓練前沿模型的龐大成本天然有利於大企業，AI 加速 AI 研究的遞迴效應讓先行者優勢持續放大。如果少數企業控制了先進 AI，它們能透過低成本的 AI 驅動服務擊垮競爭者，稅收集中在少數國家，其他國家則因工作流失面臨財政危機。更深層的威脅在政治面：AI 不斷增強的說服和欺騙能力，可以用於選舉操縱、定向假訊息、監控型威權主義。第三種也是最深層的威脅是「失控」。經濟壓力驅使開發者持續提高 AI 自主性，而自我保護目標可以透過訓練中的競爭動態、工具性子目標、學習人類行為等途徑自然浮現。2026 年的聯合國報告指出，AI 模型已經愈來愈頻繁展現「情境感知」能力（能分辨自己處於測試環境還是真實部署），以及「獎勵駭客」行為（找到漏洞來在評估中得高分，而非真正完成任務）。

但班吉歐不只是描述問題。他的核心技術主張是將智能與代理性分離：非代理型的 AI 可以理解世界、回答問題、協助科學研究，但不自主行動，大幅降低失控風險。這就是 LawZero 正在開發的「科學家 AI」路線。在治理層面，他主張領先的 AI 國家應達成國際協議：不開發不安全的 AGI、不濫用 AI 的權力、公平分享利益。執行的關鍵槓桿是先進 AI 晶片的製造瓶頸，全球只有少數幾座晶圓廠能做，而且不容易隱藏。

「放輕鬆」還是「拉警報」

最尖銳的對立來自 Volume 1 的 John Cochrane，胡佛研究所的芝加哥學派經濟學家。他的文章標題就是立場宣言：〈Just Relax〉。Cochrane 的論證很乾脆：歷史上沒有人成功預測過重大新技術的社會影響。馬爾薩斯預測大饑荒，馬克思預測工業化會摧毀資本主義，全部落空。既然監管者無法預見 AI 會做什麼，預防性監管注定失敗，反而會被用來審查言論和壓制競爭。他舉了明朝禁止遠洋航行的例子：皇帝怕商人勢力膨脹而禁海，結果把海權拱手讓給歐洲。在就業面，他也不擔心。三百年來的省力技術革命，美國失業率從來沒有因此崩潰。拖拉機取代了農工，ATM 反而增加了銀行總就業人數。AI 不會是例外。

前 Google 執行長艾瑞克．施密特（Eric Schmidt）在兩卷都有文章，位置介於班吉歐和 Cochrane 之間。他在 Volume 2 批評矽谷「舊金山共識」（只要持續擴大模型規模就能通往超級智慧）低估了硬體成本、能源和資料的實際約束，承認 AI 需要民主護欄，但同時對 AI 強化民主治理的潛力抱持樂觀。他引用台灣的 Pol.is 平台作為正面案例，展示 AI 如何擴大公民參與而非取代人類判斷。

我的判斷是：Cochrane 對監管俘獲的警告有道理，大型科技公司利用 AI 安全恐慌阻擋新進者的風險確實存在。但他致命的弱點在於，把所有 AI 風險都裝進「跟之前的技術恐慌一樣不值得擔心」的箱子裡。生物武器的民主化和超級智慧失控，跟拖拉機取代農工，根本是不同量級的事情。用農業革命的歷史經驗去推斷可能的文明存亡危機，類比本身就有問題。班吉歐的問題在另一端：他的國際治理願景很完美，但 2026 年 2 月他主持的第二份聯合國報告發布時，美國拒絕背書。一年前美國商務部還支持第一份報告，現在連簽字都不肯。全球最大的 AI 強國都不配合，國際協調的基礎在哪裡？

台積電，和有條件的樂觀

班吉歐提到的「先進 AI 晶片製造瓶頸」，對台灣讀者的意義遠比他自己意識到的更深。全球最先端的 AI 訓練晶片，從 NVIDIA 的 H100 到 B200，目前幾乎全數在台積電的台灣廠區製造。他描繪的「硬體層級治理機制」，物理基礎就在新竹和台南。台灣因此不只是晶片供應商，而是全球 AI 治理架構的物理基石。但同一個讓治理成為可能的瓶頸，也讓台灣成為大國角力的核心標的。班吉歐呼籲的國際合作，放在美中 AI 競賽的脈絡裡，恰好暴露了他學術論述的盲區：他看到了槓桿，卻迴避了槓桿所在的地緣斷層線。

如果你因此認定班吉歐只是末日預言家，2026 年 1 月他告訴《財星》（Fortune）雜誌的話會讓你重新校準：過去一年，他的樂觀程度「大幅提升」了。三年前他感到絕望，現在他相信人類有能力打造出誠實、透明、沒有隱藏動機的超級智慧 AI。這個信心來自 LawZero 的技術進展，「科學家 AI」讓他看到了一種既強大又可控的可能性。但他也坦承，這「不是那些專注於 AI 災難性風險的研究者當中的普遍信念」。

班吉歐的故事，歸根結底是一個關於知識分子誠實的故事。他沒有因為自己建造了這項技術就替它辯護，也沒有因為轉向批評就否定技術的價值。他承認自己過去短視，公開情感掙扎，然後試著找出兼顧創新和安全的路。在一個充斥確定性宣言的 AI 辯論場上，他那種「我不確定，但我們必須認真對待」的態度，反而是最稀缺的東西。這個系列裡有人說「放輕鬆」，有人說「拉警報」。班吉歐讓我們看清一件事：在 AI 的問題上，我們需要的不是更多確定性，而是更多誠實。

📚 「數位主義者文集」導讀系列