領袖思維

從微型廚房到 Gemini：Jeff Dean 如何用一頁備忘錄改變 Google AI

Google 首席 AI 科學家 Jeff Dean 回顧他在 Google 微型廚房遇見吳恩達、創立 Google Brain、訓練 20 億參數模型的故事，以及他如何用一頁備忘錄說服 Google 停止分裂資源，催生出統一的 Gemini 計畫。本文為系列文第三篇。

2026 年 2 月 20 日 · 來源： Latent Space

從微型廚房到 Gemini：Jeff Dean 如何用一頁備忘錄改變 Google AI

本文整理自 Latent Space 2026 年 2 月播出的單集。本文為系列文第三篇，另見蒸餾策略篇與硬體經濟學篇。

{{< apple-podcast "tw/podcast/owning-the-ai-pareto-frontier-jeff-dean/id1674008350?i=1000749498954" >}}

Google 首席 AI 科學家傑夫．迪恩（Jeff Dean）在 Latent Space 的訪談中，罕見地從個人歷史的角度串起了 Google AI 過去十五年的關鍵轉折點。從 2011 年在公司微型廚房裡和吳恩達（Andrew Ng）的一次偶遇，到多年後用一頁備忘錄促成 Google 最重要的組織合併，迪恩的故事揭示了一件事：技術突破固然重要，但決定技術能走多遠的，往往是組織決策和個人判斷力。

微型廚房裡的偶遇：當一個系統工程師重新愛上神經網路

2011 年，迪恩在 Google 的微型廚房（Google 園區內隨處可見的小型休息區）裡撞見了吳恩達。吳恩達當時是史丹佛大學的教授，剛開始以顧問身份一週花一天時間待在 Google，還不確定要做什麼。但他提到一件事：他在史丹佛的學生開始用神經網路做語音辨識，並且在單顆 GPU 上看到了不錯的結果。

這個細節點燃了迪恩的直覺。他 1990 年的大學畢業論文就是關於平行神經網路訓練的，當時他就覺得神經網路是正確的抽象方式，只是那個年代的運算能力遠遠不夠。系上的 32 顆平行處理器只能訓練出比玩具稍微有趣一點的模型。但 2011 年的 Google 坐擁全球最龐大的運算基礎設施，如果吳恩達的學生在一顆 GPU 上就能看到成果，那把同樣的想法放大到 Google 的規模會怎樣？

有趣的是，Google 當時的資料中心裡連一顆 GPU 都沒有，全是 CPU。但迪恩認為這不是障礙。他決定建一套軟體系統，讓神經網路能用模型平行和資料平行的方式分散到大量 CPU 上訓練。這套系統後來就是 Google Brain 的技術基礎。

16,000 顆 CPU、20 億參數：scaling 信仰的起點

Google Brain 的第一個大型實驗是在 16,000 顆 CPU 核心上訓練一個 20 億參數的視覺模型。按迪恩的估計，這個模型比當時已知的所有神經網路大了 50 倍。訓練跑了好幾週，結果令人震撼：在 ImageNet-22K（包含 22,000 個類別的影像分類任務）上，相較於先前最佳成績，錯誤率下降了 70%。

這個實驗建立了一個信念：更大的模型加上更多的資料等於更好的結果。迪恩坦承他們當時沒有寫出像後來 Scaling Laws 論文那樣的嚴謹分析，但團隊有了一句內部口號：「bigger model, more data, better results」。這個口號指導了 Google Brain 接下來六、七年的研究方向。每一次他們把模型做大、把資料做多，都在語音、語言、視覺等不同領域看到了更好的結果。

回頭看，這個口號就是 Scaling Laws 的非正式版本，只是比正式的 Scaling Laws 論文早了好幾年。更重要的是，這個信念讓 Google Brain 團隊在其他人還在爭論神經網路是否實用時，就已經在系統性地推進規模化。迪恩從 1990 年的畢業論文到 2011 年的 Google Brain，中間隔了超過 20 年，但核心信念從未改變：神經網路需要的不是更聰明的演算法，而是更多的運算和更大的規模。

那份一頁備忘錄：「我們在做蠢事」

Gemini 的起源也跟一次組織判斷有關。在 Gemini 之前，Google 的 AI 能量被分散在多個互相獨立的團隊中。Brain 團隊有自己的大型語言模型計畫，也有獨立的多模態模型計畫。與此同時，DeepMind 團隊在做 Chinchilla 和 Flamingo 等模型。每個團隊各自握著一部分運算資源、一部分頂尖人才、一部分好的想法。

當主持人 swyx 提到前 Google 員工 David Juan 曾批評 Google 的「Brain 市集」模式（運算配額分散導致無法像 OpenAI 一樣全力押注單一計畫），迪恩在一定程度上同意了這個批評。他直言自己寫了一份一頁備忘錄，核心訊息非常直白：「我們在做蠢事（we were being stupid）。」

備忘錄的論點是：Google 不只在分裂運算資源，更在分裂最優秀的人才和最好的想法。三個獨立團隊各自訓練各自的模型，意味著三份各自低效的運算投入，三組各自不完整的團隊配置，以及三套各自無法互相學習的技術路線。如果把所有資源集中到一個統一的多模態模型計畫上，效果會是乘法而不是加法。

這份備忘錄奏效了。Google 決定將 Brain 的語言模型團隊、多模態團隊，以及 DeepMind 的相關團隊全部合併成一個統一的計畫。迪恩為這個計畫取了名字：Gemini。他選這個名字有兩層含義：Gemini 在拉丁文裡是「雙胞胎」的意思，象徵兩個組織的合併；而 NASA 的 Gemini 計畫是通往 Apollo 登月計畫的關鍵過渡步驟，暗示這只是更大目標的起點。

統一模型的勝利：IMO 金牌與專家系統的終結

組織合併的成效在 Gemini 的實際表現上得到了驗證。迪恩拿國際數學奧林匹克（IMO）當例子。2025 年 Google 用 AlphaProof 和 AlphaGeometry 這兩個專門系統來解 IMO 題目，得先把數學問題翻譯成 Lean 定理證明語言，還需要一個專門的幾何模型。但到了 2026 年，Google 直接用一個統一的 Gemini 模型（大致就是正式版產品，只多給了一點推理預算）就拿到了金牌，不需要任何專門的符號系統。

迪恩認為這個結果完全合理。人類確實在操作符號，但大腦裡可能沒有一個獨立的「符號處理器」。我們靠的是分散式的神經表徵，不同的神經元和激發模式讓我們能推理、規劃、做鏈式思考、在路線行不通時回頭。純神經網路模型做的事情，本質上就是在模擬這個過程。把符號推理和神經網路分成兩個獨立系統，在他看來從來就不是正確方向。

這個思路和他對垂直領域模型的看法一致。迪恩不認為垂直模型沒有價值，但他認為它們應該是基礎模型的「擴充」而不是「替代」。做一個醫療模型，應該先從一個強大的通用模型出發，再用醫療資料做進一步訓練。做一個機器人模型也是同理。未來的理想狀態是「可安裝的知識模組」：200 種語言的支援、機器人控制、醫療診斷，這些能力以模組化的方式被拼接到一個基礎模型上，在需要時被呼叫。一部分知識可以透過檢索來提供，另一部分則需要用一千億甚至一兆個 token 的領域資料來訓練。

50 個虛擬 agent 和寫規格的技藝

訪談最後，迪恩聊到 AI coding agent 正在改變軟體工程的工作方式。他觀察到一個歷史諷刺：軟體工程教育一直強調寫清楚規格的重要性，但從來沒有人真的認真對待。工程師們寧可直接開寫程式碼，規格文件只是走過場。

但 AI coding agent 讓規格寫作變成了核心技能。迪恩的邏輯很清楚：當你把任務委派給 coding agent，它的輸出品質直接取決於你的規格品質。沒說明某個邊界情況很重要？agent 就不會處理。沒指定效能需求？agent 就不會優化。你越模糊，agent 的輸出就越可能偏離期待。

迪恩還預見了一個更遠的未來：每個人管理 50 個虛擬 agent。要讓這麼多 agent 有效率地運作，不可能逐一管理，而是讓它們自己組成小組，你只需要跟五個小組的代表互動。有趣的是，迪恩認為在這個模式下，人類之間反而能有更高頻寬的溝通。傳統的 50 人軟體團隊裡，五個經理每天忙著協調人事和進度；但如果那 50 個人變成虛擬 agent，五個人類反而可以把精力集中在設計討論和策略對齊上。

這個觀察和他的整體思維框架一致：組織效率的瓶頸不是個別人的能力，而是資源和注意力的分配方式。十五年前，他在微型廚房裡看到了規模化神經網路的機會；幾年前，他用一頁備忘錄打破了 Google 內部的資源分裂。現在，他在思考人類和 AI agent 之間的分工時，用的還是同一套邏輯：把人類從低頻寬的實作任務中解放出來，讓他們專注在高頻寬的判斷和溝通上。從 Google Brain 到 Gemini，再到 50 個虛擬 agent 的協作未來，這條線索從未斷過。