為什麼 Anthropic 把最強模型鎖起來?從社群媒體的教訓到「激進責任」

Anthropic 總裁 Daniela Amodei 在史丹佛演講中解釋公司為什麼延遲釋出 Mythos 模型。她提出的「激進責任」框架,以社群媒體的前車之鑑為出發點,正在重新定義 AI 公司該如何面對自己創造的技術。

為什麼 Anthropic 把最強模型鎖起來?從社群媒體的教訓到「激進責任」

本文整理自 Stanford GSB《View from the Top》2026 年 5 月播出的單集。

{{< youtube FDjrDeIZAk4 >}}


封面圖

在所有 AI 公司都在比誰更快、更強、更大的時候,Anthropic 在 2026 年 4 月做了一件違反商業直覺的事:把自家最強大的模型鎖起來,不賣給任何人。這個名為 Mythos 的新型模型,在內部測試中展現出自主發現零日漏洞的能力,Anthropic 判斷在做好充分防護前不能對外釋出。客戶想要,對手在追,但 Anthropic 總裁 Daniela Amodei 說:我們選擇等。

這不是一個容易的決定。Anthropic 身處的是一場燒錢速度驚人的競賽,每一天的延遲都意味著讓對手拉開距離。但在 5 月初的史丹佛商學院演講中,Daniela 解釋了這個決策背後的邏輯,以及她所謂的「激進責任」(radical responsibility)到底意味著什麼。

「我們不想重蹈 Facebook 的覆轍」

「AI 安全」這個詞在過去幾年已經被用到快失去意義了。每家 AI 公司都說自己重視安全,但多數時候這只是公關說詞。Daniela Amodei 對此很坦白:這個詞確實已經「有點超載了」。她試圖重新定義它。

在她的框架裡,AI 安全的核心是「對你開發的技術承擔一種激進的責任」。這不只是防止 AI 被用來製造生化武器或發動網路攻擊這類極端場景,也包括使用者身心健康、兒童安全、假訊息,以及選舉公正。範圍很廣,但她認為這正是前一個世代的科技公司沒做到的事。

Daniela 用社群媒體做對比。她指出,創造 Facebook、Instagram、Snapchat 的人,沒有人一開始就打算「製造青少女飲食障礙的流行病」。他們只是在追求成長指標,快速擴張,然後發現事情已經失控。「當時沒有人覺得需要想這些,因為沒有人見過一個平台可以這麼快地觸及這麼多人。」

AI 公司的特權在於:它們是站在社群媒體的廢墟上蓋房子。Daniela 說得很直接:「我們有這個巨大的特權,可以說:你們犯了這個錯,我們不會再犯。」但她也承認這有點不公平,因為 AI 公司等於是拿前人的失敗當免費教材。這句話的誠實程度,在矽谷的公關辭令中並不常見。

Mythos 與 Project Glasswing:鎖住模型的決策

把抽象的「激進責任」化為具體的商業決策,就是 Project Glasswing。2026 年 4 月 7 日,Anthropic 宣布推出 Claude Mythos Preview,但同時宣布不會對外全面釋出。原因是這個模型在內部測試中展現出一項驚人的能力:它可以自主發現主流作業系統和瀏覽器中的零日漏洞。內部團隊找到了數千個高嚴重度漏洞,其中 99% 尚未被修補。

如果這個模型落入惡意行為者手中,後果可想而知。Anthropic 選擇了一條中間路線:透過 Project Glasswing,把 Mythos 提供給大約 50 家產業夥伴,包括微軟、Google、蘋果、AWS、CrowdStrike 等,讓它們用這個模型來主動找出並修補自家系統的漏洞。Anthropic 為此承諾了最高一億美元的使用額度。

Daniela 在演講中坦言,這個決定讓客戶不太高興。「跟客戶說你們得等一等,這是不舒服的。他們都相信網路防禦的重要性,但他們也真的很想用那個模型。」她的回應是回到使命本身:「在我們確信所有必要的修補都已完成之前,釋出這個模型是不負責任的。」

安全和賺錢不矛盾,但時間是新的張力

一個常見的質疑是:AI 安全公司真的能賺錢嗎?安全不就是拖慢開發的煞車?Daniela 的回答可能出乎很多人意料:在多數時候,這兩件事根本不衝突。

她指出,Anthropic 的營收主要來自企業客戶。企業要的不是最激進、最不可預測的模型,而是穩定、可靠、不會突然產生有害輸出的工具。「沒有企業會說:太好了,我們希望 Claude 多產生一些幻覺。」在這個邏輯下,做好安全反而是最好的商業策略。企業是風險趨避的,他們要的是可以信賴的技術夥伴,而不是一個隨時可能爆炸的黑盒子。

但她也坦承,隨著模型能力快速進步,新的張力正在浮現。「問題不再是模型能不能做到厲害的事,而是我們還沒完全理解風險有多大、要怎麼控制。」這種張力的本質是時間:市場等不了,但安全評估需要時間。Mythos 的延遲釋出就是這種張力的具體展現,也是 Anthropic 在「速度」和「責任」之間做出的一次公開抉擇。

監管不該被政治化

談到政府監管,Daniela 的立場比多數科技公司高管溫和得多。她明確表示「合理的監管是 AI 發展故事的必要環節」,不認為創新和監管是非此即彼的關係。她最擔心的反而是這個議題被政治化:一邊喊「監管扼殺創新」,另一邊喊「創新失控需要管制」。這種對立讓真正有建設性的對話變得不可能。

她描述的理想狀態是科技公司和監管機構攜手合作。科技公司有第一手資訊,知道技術正在被如何使用和濫用,因為他們每天都在處理這些案例。監管機構則有能力建立可執行的框架和法律效力。兩邊各有對方缺少的東西。

「我仍然抱持希望,兩邊可以找到共同點,」Daniela 說,同時承認這個希望「可能過於樂觀」。但這段話的價值在於它的務實。多數科技公司在談監管時,不是全面擁抱(通常是為了設置有利自己的門檻)就是全面抵制。Daniela 的態度更接近:我們確實需要規則,但規則要聰明,不要被政治對立綁架。

我的觀察

Daniela Amodei 的「激進責任」框架建立在一個未經驗證的假設上:AI 公司比社群媒體公司有更強的自我約束能力,因為它們「學到了教訓」。這個假設目前還沒有被時間考驗。社群媒體公司在早期也有很多關於「連結世界」的理想主義宣言,後來在成長壓力下一一妥協。AI 公司說的話比較好聽,但壓力只會更大。

Project Glasswing 是一個有說服力的案例,因為它涉及真實的商業犧牲:延遲釋出一個客戶渴望的產品,同時承擔上億美元的成本。這不是只寫在白皮書裡的承諾,而是寫在損益表上的決定。但真正的考驗不是單一事件,而是這種決策模式能否在長期的競爭壓力下持續。當 OpenAI 或 Google 推出同等級的模型,Anthropic 還能堅持「等一等」嗎?

AI 產業和社群媒體有一個關鍵差異:社群媒體的傷害是漸進的、難以量化的(心理健康、社會極化),而 AI 安全的威脅(網路攻擊、生化武器)是突發的、可以明確歸因的。這意味著 AI 公司犯錯的代價更高、更可見,這反而可能成為維持安全承諾的外部壓力。Daniela 說得對,AI 公司站在社群媒體的肩膀上有巨大的特權。問題是,特權帶來的是真正的改變,還是更精緻的公關?目前看來,Project Glasswing 屬於前者。但這個答案需要時間來證明。