從微型廚房到 Gemini:Jeff Dean 如何用一頁備忘錄改變 Google AI
Google 首席 AI 科學家 Jeff Dean 回顧他在 Google 微型廚房遇見吳恩達、創立 Google Brain、訓練 20 億參數模型的故事,以及他如何用一頁備忘錄說服 Google 停止分裂資源,催生出統一的 Gemini 計畫。本文為系列文第三篇。

本文整理自 Latent Space 2026 年 2 月播出的單集。本文為系列文第三篇,另見蒸餾策略篇與硬體經濟學篇。
{{< youtube F_1oDPWxpFQ >}}
{{< spotify "episode/57STph5rgiPiagKvfR1zNH" >}}
{{< apple-podcast "tw/podcast/owning-the-ai-pareto-frontier-jeff-dean/id1674008350?i=1000749498954" >}}
Google 首席 AI 科學家傑夫.迪恩(Jeff Dean)在 Latent Space 的訪談中,罕見地從個人歷史的角度串起了 Google AI 過去十五年的關鍵轉折點。從 2011 年在公司微型廚房裡和吳恩達(Andrew Ng)的一次偶遇,到多年後用一頁備忘錄促成 Google 最重要的組織合併,迪恩的故事揭示了一件事:技術突破固然重要,但決定技術能走多遠的,往往是組織決策和個人判斷力。
微型廚房裡的偶遇:當一個系統工程師重新愛上神經網路
2011 年,迪恩在 Google 的微型廚房(Google 園區內隨處可見的小型休息區)裡撞見了吳恩達。吳恩達當時是史丹佛大學的教授,剛開始以顧問身份一週花一天時間待在 Google,還不確定要做什麼。但他提到一件事:他在史丹佛的學生開始用神經網路做語音辨識,並且在單顆 GPU 上看到了不錯的結果。
這個細節點燃了迪恩的直覺。他 1990 年的大學畢業論文就是關於平行神經網路訓練的,當時他就覺得神經網路是正確的抽象方式,只是那個年代的運算能力遠遠不夠。系上的 32 顆平行處理器只能訓練出比玩具稍微有趣一點的模型。但 2011 年的 Google 坐擁全球最龐大的運算基礎設施,如果吳恩達的學生在一顆 GPU 上就能看到成果,那把同樣的想法放大到 Google 的規模會怎樣?
有趣的是,Google 當時的資料中心裡連一顆 GPU 都沒有,全是 CPU。但迪恩認為這不是障礙。他決定建一套軟體系統,讓神經網路能用模型平行和資料平行的方式分散到大量 CPU 上訓練。這套系統後來就是 Google Brain 的技術基礎。
16,000 顆 CPU、20 億參數:scaling 信仰的起點
Google Brain 的第一個大型實驗是在 16,000 顆 CPU 核心上訓練一個 20 億參數的視覺模型。按迪恩的估計,這個模型比當時已知的所有神經網路大了 50 倍。訓練跑了好幾週,結果令人震撼:在 ImageNet-22K(包含 22,000 個類別的影像分類任務)上,相較於先前最佳成績,錯誤率下降了 70%。
這個實驗建立了一個信念:更大的模型加上更多的資料等於更好的結果。迪恩坦承他們當時沒有寫出像後來 Scaling Laws 論文那樣的嚴謹分析,但團隊有了一句內部口號:「bigger model, more data, better results」。這個口號指導了 Google Brain 接下來六、七年的研究方向。每一次他們把模型做大、把資料做多,都在語音、語言、視覺等不同領域看到了更好的結果。
回頭看,這個口號就是 Scaling Laws 的非正式版本,只是比正式的 Scaling Laws 論文早了好幾年。更重要的是,這個信念讓 Google Brain 團隊在其他人還在爭論神經網路是否實用時,就已經在系統性地推進規模化。迪恩從 1990 年的畢業論文到 2011 年的 Google Brain,中間隔了超過 20 年,但核心信念從未改變:神經網路需要的不是更聰明的演算法,而是更多的運算和更大的規模。
那份一頁備忘錄:「我們在做蠢事」
Gemini 的起源也跟一次組織判斷有關。在 Gemini 之前,Google 的 AI 能量被分散在多個互相獨立的團隊中。Brain 團隊有自己的大型語言模型計畫,也有獨立的多模態模型計畫。與此同時,DeepMind 團隊在做 Chinchilla 和 Flamingo 等模型。每個團隊各自握著一部分運算資源、一部分頂尖人才、一部分好的想法。
當主持人 swyx 提到前 Google 員工 David Juan 曾批評 Google 的「Brain 市集」模式(運算配額分散導致無法像 OpenAI 一樣全力押注單一計畫),迪恩在一定程度上同意了這個批評。他直言自己寫了一份一頁備忘錄,核心訊息非常直白:「我們在做蠢事(we were being stupid)。」
備忘錄的論點是:Google 不只在分裂運算資源,更在分裂最優秀的人才和最好的想法。三個獨立團隊各自訓練各自的模型,意味著三份各自低效的運算投入,三組各自不完整的團隊配置,以及三套各自無法互相學習的技術路線。如果把所有資源集中到一個統一的多模態模型計畫上,效果會是乘法而不是加法。
這份備忘錄奏效了。Google 決定將 Brain 的語言模型團隊、多模態團隊,以及 DeepMind 的相關團隊全部合併成一個統一的計畫。迪恩為這個計畫取了名字:Gemini。他選這個名字有兩層含義:Gemini 在拉丁文裡是「雙胞胎」的意思,象徵兩個組織的合併;而 NASA 的 Gemini 計畫是通往 Apollo 登月計畫的關鍵過渡步驟,暗示這只是更大目標的起點。
統一模型的勝利:IMO 金牌與專家系統的終結
組織合併的成效在 Gemini 的實際表現上得到了驗證。迪恩拿國際數學奧林匹克(IMO)當例子。2025 年 Google 用 AlphaProof 和 AlphaGeometry 這兩個專門系統來解 IMO 題目,得先把數學問題翻譯成 Lean 定理證明語言,還需要一個專門的幾何模型。但到了 2026 年,Google 直接用一個統一的 Gemini 模型(大致就是正式版產品,只多給了一點推理預算)就拿到了金牌,不需要任何專門的符號系統。
迪恩認為這個結果完全合理。人類確實在操作符號,但大腦裡可能沒有一個獨立的「符號處理器」。我們靠的是分散式的神經表徵,不同的神經元和激發模式讓我們能推理、規劃、做鏈式思考、在路線行不通時回頭。純神經網路模型做的事情,本質上就是在模擬這個過程。把符號推理和神經網路分成兩個獨立系統,在他看來從來就不是正確方向。
這個思路和他對垂直領域模型的看法一致。迪恩不認為垂直模型沒有價值,但他認為它們應該是基礎模型的「擴充」而不是「替代」。做一個醫療模型,應該先從一個強大的通用模型出發,再用醫療資料做進一步訓練。做一個機器人模型也是同理。未來的理想狀態是「可安裝的知識模組」:200 種語言的支援、機器人控制、醫療診斷,這些能力以模組化的方式被拼接到一個基礎模型上,在需要時被呼叫。一部分知識可以透過檢索來提供,另一部分則需要用一千億甚至一兆個 token 的領域資料來訓練。
50 個虛擬 agent 和寫規格的技藝
訪談最後,迪恩聊到 AI coding agent 正在改變軟體工程的工作方式。他觀察到一個歷史諷刺:軟體工程教育一直強調寫清楚規格的重要性,但從來沒有人真的認真對待。工程師們寧可直接開寫程式碼,規格文件只是走過場。
但 AI coding agent 讓規格寫作變成了核心技能。迪恩的邏輯很清楚:當你把任務委派給 coding agent,它的輸出品質直接取決於你的規格品質。沒說明某個邊界情況很重要?agent 就不會處理。沒指定效能需求?agent 就不會優化。你越模糊,agent 的輸出就越可能偏離期待。
迪恩還預見了一個更遠的未來:每個人管理 50 個虛擬 agent。要讓這麼多 agent 有效率地運作,不可能逐一管理,而是讓它們自己組成小組,你只需要跟五個小組的代表互動。有趣的是,迪恩認為在這個模式下,人類之間反而能有更高頻寬的溝通。傳統的 50 人軟體團隊裡,五個經理每天忙著協調人事和進度;但如果那 50 個人變成虛擬 agent,五個人類反而可以把精力集中在設計討論和策略對齊上。
這個觀察和他的整體思維框架一致:組織效率的瓶頸不是個別人的能力,而是資源和注意力的分配方式。十五年前,他在微型廚房裡看到了規模化神經網路的機會;幾年前,他用一頁備忘錄打破了 Google 內部的資源分裂。現在,他在思考人類和 AI agent 之間的分工時,用的還是同一套邏輯:把人類從低頻寬的實作任務中解放出來,讓他們專注在高頻寬的判斷和溝通上。從 Google Brain 到 Gemini,再到 50 個虛擬 agent 的協作未來,這條線索從未斷過。