「模型吃掉了鷹架」:Google I/O 2026 揭露的 AI 平台新戰略

Google DeepMind 兩位核心成員在 I/O 前夕揭露 Gemini 3.5 Flash、Omni、Spark 等新產品背後的戰略邏輯:不再只賣模型,而是把模型與 agent harness 共同訓練、一起出貨。這個「模型吃掉鷹架」的典範轉移,正在改變 AI 競爭的維度。

「模型吃掉了鷹架」:Google I/O 2026 揭露的 AI 平台新戰略

本文整理自《The Cognitive Revolution》2026 年 5 月播出的單集。

{{< youtube _0vFE4Ti1Gs >}}


No Moats 備忘錄三年後,Google 帶著從容走進 I/O

2023 年 5 月 5 日,一份 Google 內部備忘錄外流,標題直白到讓人緊張:「We Have No Moat」。匿名作者斷言 Google 在 AI 領域沒有持久的護城河,開源社群正以驚人速度追趕,Google 的領先優勢隨時可能蒸發。這份備忘錄在矽谷引起了巨大迴響,一度成為唱衰 Google 的最佳素材。

三年過去了。Google 不但沒有被追上,反而跑得更遠。市值增加了 3.5 兆美元,這個數字比全球除了 NVIDIA 和蘋果之外的所有公司都大。從 2024 到 2025 年,Google 年營收成長了 500 億美元,這個增量大約等於 Anthropic 目前的整體年營收規模。Google 依然掌控全球約 25% 的算力,擁有 AI 領域最深厚的研究人才庫,在語言模型、自駕車(Waymo)、醫療 AI、機器人等領域同時佔據領先位置。

The Cognitive Revolution 主持人 Nathan Labenz 形容他走進 Google 總部時感受到的氛圍是「從容的自信」。這是這個節目開播 340 多集以來首次面對面錄製,地點是 Google 總部的 Gradient Canopy 圖書館,時間在 I/O 開幕前兩天。坐在他對面的是兩位 Google DeepMind 的核心成員:Logan Kilpatrick,負責開發者生態策略的技術人員;Tulsee Doshi,Gemini 模型的產品資深總監,掌管從模型訓練到產品落地的完整鏈路。兩人一個擅長講故事、一個擅長講數據,這場近一小時的對話,拆解了 Google 在 I/O 2026 上看似繁雜的產品佈局背後,一套清晰的戰略邏輯。

I/O 2026 的主旋律:Agent、Agent、Agent

Doshi 先從模型講起。今年的主角是 Gemini 3.5 Flash,她用一句話定位這個模型在 Google 產品矩陣中的角色:「夠聰明、夠快、夠便宜的甜蜜點。」具體數字是,3.5 Flash 的速度是同級大型模型的三倍,在 Artificial Analysis 基準測試上跑出每秒約 280 個 token 的成績,快到在 Anti-Gravity 開發環境裡,你還沒來得及按取消按鈕,回應就已經跑完了。成本也大幅下降,讓 Google 有底氣把同一個模型同時部署到 Gemini app、Search 的 AI Mode、Anti-Gravity、AI Studio 等多個產品線上。

影片生成領域也有動作。Gemini Omni Flash 是一個原生影片生成與編輯模型,Doshi 用了一個 Google 內部術語來形容它的定位:「影片的 nano-banana moment」。這個詞源自先前 Google 展示的一個圖像編輯 demo,畫面中一位女性、她的早餐和一杯咖啡被無縫合成在同一張圖片裡,沒有經過語言中介的失真,模型是真的在像素空間裡理解了物件之間的關係。Omni 要把這個能力帶進影片,讓你可以把自己的虛擬分身插入生成的影片中,或是把多張圖片組合成連貫的影片場景。首發平台是 Gemini app、Flow 和 YouTube,API 暫時不開放,取樣參數等技術細節仍在敲定中。

消費端的 Gemini app 也將迎來一個重要升級。Gemini Spark 預計在 I/O 結束後一到兩週內推出,這是在消費端加入 agent 功能的產品,底層跑的是 3.5 Flash,架構和開發者端的 Anti-Gravity 共用同一套基礎設施。Kilpatrick 特別強調,今年 I/O 的主旋律不是皮查伊(Sundar Pichai)前幾年喊的「AI、AI、AI」,而是「Agent、Agent、Agent」。他認為 2026 年是業界第一次出現「模型、harness、產品」三者共生演化的完整生態。

Anti-Gravity 本身也有值得注意的升級,其中最有意思的是「Gemini Mic」。這個功能讓你可以用語音對著模型漫無目的地碎碎唸,模型會把你的散亂思緒整理成結構化的行動方案。Doshi 說她自己就是靠說話來思考的人,這個功能讓她可以從模糊的想法直接跳到完成的簡報或分析報告,不需要打字。Kilpatrick 則觀察到一個更大的趨勢:語音輸入轉程式碼可能是目前成長最快的輸入模態。在 Google 總部,工程師們已經開始對著筆電碎碎唸來寫程式,只不過旁邊有人的時候,大家還是會乖乖打字。

為什麼沒有 Ultra?Flash-First 的戰略邏輯

每次 Google 發新模型,社群裡最常被問的問題就是:Ultra 在哪裡?Gemini 家族最初宣布時承諾三個等級,結果上面那個始終沒出現,反而多了一個更小的 Flashlight。有人猜是技術做不到,有人猜是計算資源不夠。答案比這些猜測都更實際。

Doshi 的解釋直指 Google 獨有的規模難題:在服務 20 多億人的產品上,延遲比品質更重要。她透露了一個很少被外界看到的內部邏輯:即使一個模型在品質上大幅提升,只要回應速度變慢,Google 的即時 A/B 測試資料就會顯示使用者互動率明顯下滑。搜尋和 Gemini app 的使用者不會為了更好的答案多等幾秒鐘,他們就是會離開。OpenAI 和 Anthropic 可以專注在「單一最強模型」的賽道上,因為他們的使用者規模和產品形態允許這樣做。但 Google 有八個使用者數超過 20 億的產品,延遲的代價被放大到完全不同的量級。

Kilpatrick 補充了一個耐人尋味的細節:其實 Pro 模型一直在持續變大、變強,每次新版本出來,團隊內部都會討論「要不要叫它 Ultra?」但最後總是決定不改名,部分原因是要維持系列命名的一致性。所以 Ultra 不是「做不出來」,而是 Google 不覺得需要這個品牌標籤。Deep Think 推理模式也提供了第四個擴展維度,讓 Pro 等級的模型可以透過推理時間計算來進一步提升表現。

蒸餾的方向也比外界想像的複雜。一般假設蒸餾是單向的:大模型訓練完,把知識蒸餾到小模型。但 Doshi 說 Google 的做法是雙向的。Pro 的知識流向 Flash,Flash 的知識再流向 Flashlight;同時,Flash 等級的訓練配方也會被放大到 Pro 等級來使用。做出好的 Flash 模型需要好的 Pro 模型,反之亦然。這打破了「一定有一個隱藏的超大模型在幕後」的猜測,實際情況更像是不同尺寸的模型互相餵養的生態系統。

「模型吃掉了鷹架」:從賣模型到賣全棧 Agent 系統

整場對話最有價值的概念,是 Kilpatrick 提出的「模型吃掉了鷹架」(the model eats the scaffolding)。

過去幾年,Google 的做法是訓練好模型,交給各個產品團隊,讓他們自己想辦法整合。每個團隊都得獨立搭建工具呼叫的迴圈、記憶管理、agent 邏輯等外圍程式碼。Kilpatrick 把這些統稱為「鷹架」。問題是,AI 的範式每 12 到 18 個月就劇烈翻轉一次,每次翻轉都等於要從頭重寫所有鷹架。如果你有 N 個產品團隊,就是 N 倍的重寫成本。

現在的做法不同了。DeepMind 不再只出貨「裸模型」,而是把模型和 agent harness 一起訓練、一起交付。harness 處理工具呼叫、多步推理、上下文管理等基礎設施層的工作,產品團隊在這個基礎上做差異化。Spark 和 AI Studio 底層跑的是同一套 Anti-Gravity harness,只是面向不同的使用者群做了不同的延伸。Kilpatrick 用一個精確的比喻描述這個動態:「模型飛輪每轉一圈,就會吃掉一批鷹架。」那些原本需要手工搭建的功能,逐漸被吸收進模型本身或它的 harness 裡。

Doshi 從模型團隊的角度補充了飛輪的另一半。產品團隊拿到新版本的模型後投入實作,過程中一定會發現模型的不足之處。第一步是嘗試用提示工程繞過問題,如果繞不過,就分析模型到底在哪裡跌倒,把回饋轉化成新的評估指標和訓練資料,餵回下一版模型。她舉了 NotebookLM 當例子:讓大家愛上的那個音頻對話功能,底層用的就是基本版 Gemini 配上精心設計的提示詞。NotebookLM 團隊對模型的理解極深,能快速原型、快速測試、快速迭代,這才是做出好產品的關鍵,而不是等一個更強的模型出現。

不過,模型和 harness 綁得越緊,會不會形成廠商鎖定?Kilpatrick 自己提了這個問題,然後提出了一個解方的概念:「harness bench」。他認為如果一個模型真的接近通用智慧,它應該能在不同的 harness 環境裡都表現良好,而不是只在自家的 Anti-Gravity 裡才跑得順。做不到的話,那就是「鋸齒狀智慧」(jagged intelligence)的又一個證據。Doshi 也強調 Google 刻意維持「harness 多樣性」的設計原則,讓企業客戶和外部開發者都能在非 Google 的編排框架裡有效使用 Gemini。

在熱水浴缸裡跑 Ablation:遞迴自我改進的務實路線

Labenz 問了一個尖銳的問題:Google DeepMind 對遞迴自我改進有多認真?Anthropic 的態度幾乎是信仰層級的堅定,OpenAI 則給出了明確時間表:今年要做出「ML 實習生」等級的 AI、2028 年要達到「正式 AI 研究員」水準。Google 有類似的里程碑嗎?

Doshi 的回應出乎意料地坦率。Gemini 已經不只是「幫研究員提升生產力」的輔助工具了。它現在能自己提交程式碼變更、執行模型評估、甚至主動提出研究方向的改進建議。她講了一個讓人印象深刻的故事:安全與對齊團隊的負責人 Anka 有天從熱水浴缸裡用手機啟動了一整套 ablation 實驗,讓 Gemini 測試不同安全介入方法和資料組合的效果差異,一個小時後就收到了完整的分析報告。這種工作在兩年前需要一位工程師坐在電腦前花好幾天才能完成。

但 Kilpatrick 的語氣明顯比 Anthropic 和 OpenAI 的公開表態冷靜得多。他的核心論點是經濟學:大規模預訓練一次要燒掉巨量資源,走錯方向的機會成本極高。在這種條件下,你不太可能真的放手讓 AI 自己決定要跑什麼預訓練。「把大規模預訓練任務交給 ML 實習生去啟動,在短中期看來不太現實,」他直說。Google 走的是深度人機協作路線。人類負責策略判斷和結果詮釋,AI 負責加速執行和擴展實驗規模。

Doshi 做了一個有意思的補充:這種分工本身就在改變研究人員的日常。重心正在從「動手跑實驗」轉向「思考結果代表什麼意義」和「決定下一步往哪走」。這不是科幻小說裡那種 AI 自主進化的場景,但它確實讓 AI 研究的迭代速度加快了一個量級。

被坦白承認的技術瓶頸

對話尾段進入了一輪坦率的技術問答,回應了社群裡兩個高頻問題。

第一個是上下文視窗的停滯。從 4,000 token 到 100 萬 token,擴展只花了幾年。但到了 100 萬之後就幾乎不動了,即使已經有團隊展示了 1,200 萬 token 的次二次方模型。Doshi 的解釋有兩個層次。經濟面:一個 100 萬 token 的請求可能要花好幾美元,願意付這個價格的需求極其有限。技術面:更大的上下文不一定帶來更好的結果。很多塞進去的資訊對模型而言是干擾,反而降低了任務表現。所以 Google 把研究重心放在了「智慧壓縮」上,讓模型能有效存取大量資訊,但只把真正相關的部分帶進有限的視窗裡。Kilpatrick 則明白表示,如果沒有注意力機制的根本性研究突破,讓延伸上下文的計算成本大幅下降,視窗大小短期內不會有明顯突破。

第二個問題更直接:為什麼所有公開的 Gemini 模型知識截止日還停在 2025 年 1 月?距離 I/O 已經超過 16 個月。Labenz 觀察到,考慮到模型的權重對過去一年多的事情完全沒有記憶,Deep Research 的表現其實驚人地好。Doshi 的回應算是半官方的坦承:「把它歸類為一個 bug 吧。」她解釋 Google 的應對策略是訓練模型辨別什麼時候該依賴自己的參數知識、什麼時候該去搜尋即時的網路資訊。Search 和 Gemini 之間有極深的整合,模型可以取得最近一小時內的新鮮資訊。這也解釋了為什麼 Deep Research 和 AI Mode 儘管權重過期,在實際使用中的表現卻依然出色。不過,確切的知識截止日更新時間表,兩人都沒有給出。

AI 競爭的下一個維度

這場對話揭示了一個正在發生的競爭維度轉移。過去幾年,AI 的軍備競賽主要是比誰的模型在基準測試上分數最高,OpenAI 和 Anthropic 衝刺的是絕對能力的頂峰。但 Google 推出了一套不同的計分方式:重要的不只是模型本身,而是模型、harness 和產品三者構成的完整系統。

「模型吃掉鷹架」這個概念,說穿了就是 AI 產品的競爭壁壘已經從「單一模型的能力」轉向「模型與工具共演化的飛輪效率」。Google 有八個超過 20 億人使用的產品當作這個飛輪的引擎,每天產生海量的真實使用回饋,這是目前任何競爭對手都無法複製的結構性優勢。

這不代表 Google 就贏了。No Moats 備忘錄裡指出的威脅沒有消失,開源模型持續進步,獨立開發者對任何形式的廠商鎖定都保持高度警覺。但在 I/O 2026 的這個節點上,Google 展示了一套自洽的戰略邏輯:不追求單一最強模型的王座,而是建立一個讓模型不斷吸收周圍鷹架的生態系統。在這個系統裡,產品端的每一次回饋都讓模型變好,模型的每一次進化都讓原本需要手工搭建的程式碼變得多餘。

這可能才是 AI 競爭的下一個維度。