沉默十個月後首度開口:Alex Wang 揭露 Meta 如何在九個月內從零重建前沿模型

Scale AI 共同創辦人汪滔加入 Meta 後首次長篇受訪,詳述他如何診斷 Meta AI 的根本問題、用三大原則從頭打造超級智慧實驗室,以及為什麼 MuseSpark 只是「開胃菜」。

沉默十個月後首度開口:Alex Wang 揭露 Meta 如何在九個月內從零重建前沿模型

本文整理自《Core Memory Podcast》2026 年 5 月播出的單集。

{{< youtube bYM_VMs7EO0 >}}


十個月的沉默

2025 年夏天,Meta 以約 143 億美元投資 Scale AI 並取得近五成股份,同時把共同創辦人暨執行長汪滔(Alex Wang)挖到 Meta,領導全新成立的超級智慧實驗室(Meta Superintelligence Labs, MSL)。消息一出,矽谷譁然。此後,Alex 幾乎從公眾視野消失了十個月。

直到 2026 年 4 月 MuseSpark 模型發布後不久,他才坐到 Core Memory Podcast 的麥克風前,接受主持人 Ashlee Vance 和 Kylie Robison 的長篇訪問。這是他加入 Meta 後的第一次深度對談,也是外界首次得以窺見 MSL 的真實面貌。訪談中,Alex 對自己為何離開一手創辦的公司、Meta AI 過去到底出了什麼問題、MuseSpark 的定位與野心,都給出了坦率到令人意外的回答。

離開 Scale AI:算力決定一切

Alex 和祖克柏(Mark Zuckerberg)其實認識多年。他在經營 Scale AI 期間,就常向祖克柏請教經營問題。大約一年前,兩人開始認真討論更緊密的合作可能。當時祖克柏已經徹底被 AGI 說服,但也清楚意識到 Llama 4「不在公司需要的軌道上」。

促使 Alex 做出跳槽決定的,是兩個越來越清晰的產業判斷。第一,隨著模型能力加速提升,建造模型的人在整個生態系中取得的經濟與產品主導權越來越大。早期關於「模型層 vs 應用層誰會贏」的辯論,正因為研究推進的速度太快而迅速收斂。處在模型建造端,就是處在整個生態系最核心的位置。

第二個判斷更根本:算力正在把科技公司劈成兩個完全不同的物種。「你應該用完全不同的方式看待有大量算力的公司和沒有算力的公司,」Alex 在訪談中直言,「因為有算力的公司能做到的事,沒算力的公司根本做不到。」Meta 恰好是全球算力儲備最龐大的公司之一。對一個相信超級智慧即將來臨的人來說,這就是最合理的去處。

診斷:Meta AI 少了什麼

進入 Meta 後,Alex 開始做的第一件事不是招人、不是寫程式碼,而是找出根本問題。他的診斷直白到幾乎不像在談自己的新東家:Meta 的 AI 團隊缺乏一種信念,一種他認為 OpenAI 和 Anthropic 從創立第一天就具備的信念,就是超級智慧即將到來,而且非常近。

「很多領先的實驗室,它們是把整個組織建構在一個前提上:超級智慧正在到來,而且非常接近,」Alex 解釋。大公司裡不是沒有聰明的 AI 研究者,但大公司 AI 部門的基因和那些「從一個瘋狂想法出發、從零開始的新創公司」有著根本性的不同。當你不相信超級智慧是真實且迫切的,你就不會用那種急迫感去組織整個研究計畫。

這個診斷直接定義了 MSL 的四條核心原則:認真看待超級智慧、讓技術聲音最響亮、堅持科學嚴謹性、下大注。其中「認真看待超級智慧」聽起來像廢話,但 Alex 認為這恰恰是最關鍵的起點。一旦整個組織真正內化這個前提,後續所有決策的優先順序都會改變。

追趕前沿的三把鑰匙

光有信念不夠,Alex 還需要具體的結構性優勢來追趕甚至超越前沿。他歸納出三個加速器。

第一是每位研究者能分配到的算力。大型實驗室算力雖多,但分散在太多方向上,反而拖慢個別研究者的速度。一支更小、更聚焦的團隊,讓每個人手上的算力遠高於業界平均值,就能在研究進展上跑得更快。

第二是人才密度。Alex 用了一個在矽谷流傳已久但不斷被重新驗證的觀點:「一支每個人都很強的超小團隊,永遠會跑得比一個責任分散的大組織更快。」這不是什麼新道理,但多數大公司依然在反覆學習這個教訓。

第三是敢下大注的研究賭局。除了建造具競爭力的前沿模型之外,MSL 把大量資源和算力投入高風險、高報酬的研究方向。這些賭局一旦成功,有可能徹底改變整個 AI 的技術範式。Alex 沒有透露具體是哪些方向,但他明確表示,這才是真正可能帶來決定性跳躍的來源。

MSL 的四根支柱

訪談中,Alex 首次完整描述了 MSL 的組織架構。整個實驗室由四個主要單元組成。TBD 是大型模型研究實驗室,聚集了頂尖研究者和基礎架構工程師,全部直接匯報給 Alex。PAR(Product and Applied Research)由 Nat Friedman 領導,負責所有產品開發和模型部署。FAIR 則繼續從事探索性的基礎科學研究,包括用 AI 理解大腦、計算化學,以及一個名為 UMA 的原子通用模型。

第四個單元是 Daniel Gross 領導的 Meta Compute,專注於長期 GPU 和資料中心基礎建設的規劃。首席科學家 Shengjia Zhao 則負責統籌 MSL 整體的科學議程。Alex 特別提到,Nat Friedman 是他在 Scale AI 還沒完成 Y Combinator 之前就投資的天使投資人,兩人合作已經超過十年。

MuseSpark:開胃菜,不是主菜

過去九個月,MSL 從零重建了預訓練堆疊、強化學習堆疊和資料處理流程。Alex 形容這是一場「全面翻修」。MuseSpark 就是這個全新基礎建設的第一個產出,但他反覆強調,這只是「開胃菜,不是主菜」。

這個定位不是謙虛,而是策略性的期望管理。Alex 在 X 上回覆質疑者時反覆說「等下一個」,因為更大的前沿模型正在訓練中,而且他們對可預測的規模化充滿信心。MSL 的整個研發計畫建立在四個維度的可預測擴展之上:預訓練擴展、強化學習擴展、推理時間擴展,以及多代理人擴展。MuseSpark 的 16 個平行代理人協作的「contemplating mode」,就是第四個維度的早期驗證。

儘管只是開胃菜,MuseSpark 的實際表現還是超出了內部預期。它在視覺程式碼生成方面展現出令人驚訝的能力,可以直接產生網站和遊戲,這是強大的多模態能力與代理人能力結合後「湧現」出的副產品。不過 Alex 也坦承,MuseSpark 在代理人程式碼撰寫方面還沒有競爭力,這是下一代模型要解決的問題。

乾淨堆疊的意外收穫

讓 MSL 團隊自己都感到驚喜的,是 MuseSpark 的 Token 效率。在 Artificial Analysis 等基準測試上,MuseSpark 用遠少於競爭對手的 Token 數量達到了相近的結果。Alex 把這歸功於從零開始建造乾淨堆疊的好處。

他的推論頗為大膽:其他模型之所以需要更多的思考 Token,可能是因為它們的底層堆疊存在根本性的低效率,而延長思考鏈只是在「打補丁」。MSL 因為有機會拋開所有歷史包袱重頭來過,反而避開了這些效率陷阱。如果這個判斷正確,那麼當他們繼續擴大模型規模時,效率優勢只會更加明顯。

祖克柏煮湯與「傭兵」敘事

2025 年夏天的挖角風潮是科技媒體最愛的話題。報導中充斥著天價薪水的數字,還有一個廣為流傳的傳聞:祖克柏親自煮湯招待被挖角的研究者。Alex 對湯的問題採取了巧妙的迴避策略。「我不確定我們有沒有煮湯,」他說,但接著解釋真正重要的是,每一場招募都是高度個人化的對話,目的是讓每位研究者知道 Meta 認真對待這項技術,也認真對待他們的研究方向。

對於「Meta 用錢買下了團隊」的敘事,Alex 反駁得相當直接。他指出,這些研究者留在原本的公司,財務前景同樣很好。真正吸引他們的是三件事:遠高於其他實驗室的每人算力、極高的人才密度,以及從零開始做大膽研究的自由。有趣的是,來自其他實驗室的訪客經常告訴他,MSL 的氛圍讓他們想起早期的 OpenAI 或早期的 Anthropic。

與奧特曼決裂、楊立昆的公開質疑

這次跳槽也帶來了個人代價。Alex 和 OpenAI 執行長奧特曼(Sam Altman)曾經是室友,但 Ashlee Vance 在訪談中透露,他傳訊息告訴奧特曼要訪問 Alex 時,「他說的話不太好聽」。Alex 對此沒有正面回擊,只是表達了一個近乎理想主義的願望:隨著超級智慧越來越近,他真心希望業界的敵意能逐漸消退。

另一個公開的衝突來自 Meta 首席 AI 科學家楊立昆(Yann LeCun),他在離開 MSL 後公開批評 Alex「年輕且缺乏經驗」。Alex 透露,幾週後他在印度見到楊立昆時,對方反而祝賀他 MuseSpark 發布成功。至於「不是工程師」的批評,Alex 直接反駁:他在矽谷的起點就是軟體工程師。

被問到如何面對這些批評時,Alex 引用了賈伯斯(Steve Jobs)的一句話:「多數公司僱人然後告訴他們做什麼,但我們僱人是讓他們告訴我們該做什麼。」這不只是回應質疑,更是在定義自己的領導風格。他不打算當那個指揮研究者的老闆,而是要創造一個讓頂尖研究者做出畢生最好工作的環境。

九個月從零開始重建前沿模型堆疊,聽起來像是一個關於工程速度的故事,但 Alex 真正在講的其實是一個關於信念的故事。當一個組織真正相信超級智慧即將到來,它的決策速度、資源分配方式、容忍風險的程度,都會跟著徹底改變。MuseSpark 只是第一個證據。接下來幾個月會發布的更大模型,才是 MSL 真正要讓世界看到的東西。