蒸餾的藝術:Jeff Dean 解釋 Google 如何用一個大模型養活十億人
Google 首席 AI 科學家 Jeff Dean 在 Latent Space 節目中,深入解釋蒸餾技術如何讓 Gemini Flash 以極低成本達到前一代 Pro 的水準,並揭示 Google 同時維持前沿模型與經濟模型的 Pareto Frontier 策略。本文為系列文第一篇。

本文整理自 Latent Space 2026 年 2 月播出的單集。本文為系列文第一篇,另見硬體經濟學篇與Google Brain 起源篇。
{{< youtube F_1oDPWxpFQ >}}
{{< spotify "episode/57STph5rgiPiagKvfR1zNH" >}}
{{< apple-podcast "tw/podcast/owning-the-ai-pareto-frontier-jeff-dean/id1674008350?i=1000749498954" >}}
Google 同時擁有業界最強和最便宜的 AI 模型,這件事聽起來矛盾,但 Google 首席 AI 科學家傑夫.迪恩(Jeff Dean)在 Latent Space 節目上解釋了為什麼這兩件事不但不衝突,而且互為前提。在這場由主持人 Alessio Fanelli 和 swyx(Shawn Wang)主持的深度訪談中,迪恩從蒸餾技術的歷史講到 Gemini Flash 如何服務超過 50 兆個 token,勾勒出 Google 在 AI 模型策略上的核心邏輯:你必須先有最強的模型,才能做出最便宜的模型。
蒸餾不是新技術,而是十年前就種下的種子
蒸餾(distillation)這個詞在 2024、2025 年突然變成業界熱詞,但迪恩指出,這個技術的根源可以追溯到 2014 年。當時 Google 手上有一個包含三億張影像、兩萬個類別的龐大資料集,研究人員發現,如果針對不同影像類別訓練 50 個專家模型,再把它們當成一個大型的集成模型來使用,辨識效果會好得多。但問題來了:你不可能在生產環境中同時部署 50 個模型。
蒸餾就是為了解決這個實際問題而誕生的。核心想法是:讓一個較小的模型反覆學習大模型輸出的 logits(軟標籤),而不是只看正確答案(硬標籤)。軟標籤包含了大模型對每個類別的「信心程度」,這些微妙的機率分布攜帶了大模型學到的知識結構。小模型可以在訓練資料上跑很多遍,每一遍都被大模型的 logits「引導」出它靠自己學不到的行為。用迪恩的說法,大模型的 logits 能「哄」(coax)小模型做出靠自己學不到的行為。
今天的蒸餾流程和 2014 年在本質上沒有不同,只是規模天差地別。2014 年是把 50 個影像專家模型壓縮成一個可部署的模型;2026 年是把一個 Pro 等級的前沿模型蒸餾成 Flash 等級的經濟模型。迪恩表示,Google 已經連續好幾個世代的 Gemini 做到了一件事:下一代的 Flash 模型在能力上能追平甚至超越上一代的 Pro 模型。這個模式已經被反覆驗證,而且團隊打算持續推進。
50 兆 token 背後的 Flash 經濟學
當主持人 swyx 提到 Gemini Flash 已經服務超過 50 兆個 token 時,他自己都感到驚訝。這個數字的規模代表 Flash 已經不是實驗性產品,而是 Google 整個產品線的基礎設施。它被部署在 Gmail、YouTube、Google 搜尋的 AI Overviews 等核心產品中,每天服務數十億使用者。
但 Flash 的優勢不只是價格低,延遲同樣關鍵。迪恩強調,模型的使用情境已經從回答簡單問題演變為生成整套軟體專案和執行 agentic 任務,低延遲比以往更重要。使用者不再只是要求模型寫一個 for 迴圈,而是要求它寫一整個軟體套件。在這種場景下,每一毫秒的延遲都會累積,Flash 的低延遲讓它成為 agentic coding 的理想選擇。
這裡有一個微妙的策略邏輯:Flash 的大規模部署不是目的,而是蒸餾策略的「收割」階段。Google 投入巨大資源訓練前沿的 Pro 模型,再透過蒸餾把 Pro 的能力壓縮進 Flash。Flash 的部署規模越大、場景越多,蒸餾的投資報酬率就越高。前沿模型不是為少數需要深度推理的使用者而存在的奢侈品,而是整條產品線的「能力來源」。迪恩直白地說:蒸餾需要前沿模型作為前提,這不是二選一的問題,你必須同時做兩件事。
需求不是靜態的:為什麼前沿模型永遠有經濟正當性
主持人 Alessio 問了一個尖銳的問題:如果蒸餾讓每一代 Flash 都能追上前一代 Pro 的能力,那終有一天 Flash 會好到夠用了,前沿模型不就失去了經濟意義嗎?
迪恩的回答很乾脆:這個推論只有在使用者需求固定不變的前提下才成立,但需求從來不是靜態的。模型能力一提升,人們就會開始要求更複雜的任務。他拿自己的經驗舉例:一年前他只會用模型做一些簡單的程式碼任務,因為模型在複雜任務上表現不好;但現在模型進步了,他開始要求模型分析全球再生能源部署資料並產出報告。這是一年前沒有人會提出的請求,因為一年前的模型根本做不到。
這個觀察揭示了 AI 產業的一個根本動態:能力創造需求,需求證明投資。Flash 在某些任務上飽和了?那只代表人們會把更困難的任務丟給 Pro 模型。前沿永遠在擴張,因為人類的野心會追著模型能力跑。迪恩的言下之意很清楚:擔心前沿模型「沒有經濟價值」是一種靜態思維的陷阱,它忽略了使用者行為會隨模型能力共同演化。
基準測試的有效期限:10% 到 95% 的生命週期
談到如何衡量模型進步,迪恩對基準測試有很明確的看法。他認為最有價值的基準測試,是那些模型初始得分在 10% 到 30% 之間的測試。在這個範圍內,每一次進步都反映了真實的能力提升,團隊可以據此判斷需要什麼樣的資料、架構或訓練策略。
但當模型在某個基準測試上達到 95% 以上時,信號就變得非常弱了。迪恩指出兩個原因:第一,模型可能真的已經掌握了這項能力;第二,公開基準測試有訓練資料洩漏的風險,很難確定高分是來自真正的泛化能力還是對題目的記憶。正因如此,Google 高度依賴內部保留的基準測試,這些測試的資料完全不在訓練集中,用來評估模型真實的能力差距。
迪恩舉了長上下文能力作為例子。Google 目前在 200 萬 token 的上下文長度上領先業界,但他坦言,常用的「大海撈針」基準測試在 128k 上下文長度就已經飽和了。真正需要的是更複雜的多針檢索測試,或是真實場景的長文本理解任務。基準測試的飽和不代表問題被解決了,只代表你需要更難的測試。
這個思維方式和蒸餾策略一脈相承:不滿足於現狀,不斷追求更高的能力上限,然後把新的上限蒸餾成經濟可用的產品。整個循環的推動力不是某一項技術突破,而是一種系統性的工程哲學:永遠同時在前沿和效率兩條線上推進,因為這兩件事本質上是同一件事。