AI 安全與治理

為什麼 Anthropic 把最強模型鎖起來？從社群媒體的教訓到「激進責任」

Anthropic 總裁 Daniela Amodei 在史丹佛演講中解釋公司為什麼延遲釋出 Mythos 模型。她提出的「激進責任」框架，以社群媒體的前車之鑑為出發點，正在重新定義 AI 公司該如何面對自己創造的技術。

2026 年 5 月 13 日 · 來源： Stanford GSB View from the Top

本文整理自 Stanford GSB《View from the Top》2026 年 5 月播出的單集。

封面圖

在所有 AI 公司都在比誰更快、更強、更大的時候，Anthropic 在 2026 年 4 月做了一件違反商業直覺的事：把自家最強大的模型鎖起來，不賣給任何人。這個名為 Mythos 的新型模型，在內部測試中展現出自主發現零日漏洞的能力，Anthropic 判斷在做好充分防護前不能對外釋出。客戶想要，對手在追，但 Anthropic 總裁 Daniela Amodei 說：我們選擇等。

這不是一個容易的決定。Anthropic 身處的是一場燒錢速度驚人的競賽，每一天的延遲都意味著讓對手拉開距離。但在 5 月初的史丹佛商學院演講中，Daniela 解釋了這個決策背後的邏輯，以及她所謂的「激進責任」（radical responsibility）到底意味著什麼。

「我們不想重蹈 Facebook 的覆轍」

「AI 安全」這個詞在過去幾年已經被用到快失去意義了。每家 AI 公司都說自己重視安全，但多數時候這只是公關說詞。Daniela Amodei 對此很坦白：這個詞確實已經「有點超載了」。她試圖重新定義它。

在她的框架裡，AI 安全的核心是「對你開發的技術承擔一種激進的責任」。這不只是防止 AI 被用來製造生化武器或發動網路攻擊這類極端場景，也包括使用者身心健康、兒童安全、假訊息，以及選舉公正。範圍很廣，但她認為這正是前一個世代的科技公司沒做到的事。

Daniela 用社群媒體做對比。她指出，創造 Facebook、Instagram、Snapchat 的人，沒有人一開始就打算「製造青少女飲食障礙的流行病」。他們只是在追求成長指標，快速擴張，然後發現事情已經失控。「當時沒有人覺得需要想這些，因為沒有人見過一個平台可以這麼快地觸及這麼多人。」

AI 公司的特權在於：它們是站在社群媒體的廢墟上蓋房子。Daniela 說得很直接：「我們有這個巨大的特權，可以說：你們犯了這個錯，我們不會再犯。」但她也承認這有點不公平，因為 AI 公司等於是拿前人的失敗當免費教材。這句話的誠實程度，在矽谷的公關辭令中並不常見。

Mythos 與 Project Glasswing：鎖住模型的決策

把抽象的「激進責任」化為具體的商業決策，就是 Project Glasswing。2026 年 4 月 7 日，Anthropic 宣布推出 Claude Mythos Preview，但同時宣布不會對外全面釋出。原因是這個模型在內部測試中展現出一項驚人的能力：它可以自主發現主流作業系統和瀏覽器中的零日漏洞。內部團隊找到了數千個高嚴重度漏洞，其中 99% 尚未被修補。

如果這個模型落入惡意行為者手中，後果可想而知。Anthropic 選擇了一條中間路線：透過 Project Glasswing，把 Mythos 提供給大約 50 家產業夥伴，包括微軟、Google、蘋果、AWS、CrowdStrike 等，讓它們用這個模型來主動找出並修補自家系統的漏洞。Anthropic 為此承諾了最高一億美元的使用額度。

Daniela 在演講中坦言，這個決定讓客戶不太高興。「跟客戶說你們得等一等，這是不舒服的。他們都相信網路防禦的重要性，但他們也真的很想用那個模型。」她的回應是回到使命本身：「在我們確信所有必要的修補都已完成之前，釋出這個模型是不負責任的。」

安全和賺錢不矛盾，但時間是新的張力

一個常見的質疑是：AI 安全公司真的能賺錢嗎？安全不就是拖慢開發的煞車？Daniela 的回答可能出乎很多人意料：在多數時候，這兩件事根本不衝突。

她指出，Anthropic 的營收主要來自企業客戶。企業要的不是最激進、最不可預測的模型，而是穩定、可靠、不會突然產生有害輸出的工具。「沒有企業會說：太好了，我們希望 Claude 多產生一些幻覺。」在這個邏輯下，做好安全反而是最好的商業策略。企業是風險趨避的，他們要的是可以信賴的技術夥伴，而不是一個隨時可能爆炸的黑盒子。

但她也坦承，隨著模型能力快速進步，新的張力正在浮現。「問題不再是模型能不能做到厲害的事，而是我們還沒完全理解風險有多大、要怎麼控制。」這種張力的本質是時間：市場等不了，但安全評估需要時間。Mythos 的延遲釋出就是這種張力的具體展現，也是 Anthropic 在「速度」和「責任」之間做出的一次公開抉擇。

監管不該被政治化

談到政府監管，Daniela 的立場比多數科技公司高管溫和得多。她明確表示「合理的監管是 AI 發展故事的必要環節」，不認為創新和監管是非此即彼的關係。她最擔心的反而是這個議題被政治化：一邊喊「監管扼殺創新」，另一邊喊「創新失控需要管制」。這種對立讓真正有建設性的對話變得不可能。

她描述的理想狀態是科技公司和監管機構攜手合作。科技公司有第一手資訊，知道技術正在被如何使用和濫用，因為他們每天都在處理這些案例。監管機構則有能力建立可執行的框架和法律效力。兩邊各有對方缺少的東西。

「我仍然抱持希望，兩邊可以找到共同點，」Daniela 說，同時承認這個希望「可能過於樂觀」。但這段話的價值在於它的務實。多數科技公司在談監管時，不是全面擁抱（通常是為了設置有利自己的門檻）就是全面抵制。Daniela 的態度更接近：我們確實需要規則，但規則要聰明，不要被政治對立綁架。

我的觀察

Daniela Amodei 的「激進責任」框架建立在一個未經驗證的假設上：AI 公司比社群媒體公司有更強的自我約束能力，因為它們「學到了教訓」。這個假設目前還沒有被時間考驗。社群媒體公司在早期也有很多關於「連結世界」的理想主義宣言，後來在成長壓力下一一妥協。AI 公司說的話比較好聽，但壓力只會更大。

Project Glasswing 是一個有說服力的案例，因為它涉及真實的商業犧牲：延遲釋出一個客戶渴望的產品，同時承擔上億美元的成本。這不是只寫在白皮書裡的承諾，而是寫在損益表上的決定。但真正的考驗不是單一事件，而是這種決策模式能否在長期的競爭壓力下持續。當 OpenAI 或 Google 推出同等級的模型，Anthropic 還能堅持「等一等」嗎？

AI 產業和社群媒體有一個關鍵差異：社群媒體的傷害是漸進的、難以量化的（心理健康、社會極化），而 AI 安全的威脅（網路攻擊、生化武器）是突發的、可以明確歸因的。這意味著 AI 公司犯錯的代價更高、更可見，這反而可能成為維持安全承諾的外部壓力。Daniela 說得對，AI 公司站在社群媒體的肩膀上有巨大的特權。問題是，特權帶來的是真正的改變，還是更精緻的公關？目前看來，Project Glasswing 屬於前者。但這個答案需要時間來證明。