科技巨頭觀察

「模型吃掉了鷹架」：Google I/O 2026 揭露的 AI 平台新戰略

Google DeepMind 兩位核心成員在 I/O 前夕揭露 Gemini 3.5 Flash、Omni、Spark 等新產品背後的戰略邏輯：不再只賣模型，而是把模型與 agent harness 共同訓練、一起出貨。這個「模型吃掉鷹架」的典範轉移，正在改變 AI 競爭的維度。

2026 年 5 月 22 日 · 來源： The Cognitive Revolution

本文整理自《The Cognitive Revolution》2026 年 5 月播出的單集。

No Moats 備忘錄三年後，Google 帶著從容走進 I/O

2023 年 5 月 5 日，一份 Google 內部備忘錄外流，標題直白到讓人緊張：「We Have No Moat」。匿名作者斷言 Google 在 AI 領域沒有持久的護城河，開源社群正以驚人速度追趕，Google 的領先優勢隨時可能蒸發。這份備忘錄在矽谷引起了巨大迴響，一度成為唱衰 Google 的最佳素材。

三年過去了。Google 不但沒有被追上，反而跑得更遠。市值增加了 3.5 兆美元，這個數字比全球除了 NVIDIA 和蘋果之外的所有公司都大。從 2024 到 2025 年，Google 年營收成長了 500 億美元，這個增量大約等於 Anthropic 目前的整體年營收規模。Google 依然掌控全球約 25% 的算力，擁有 AI 領域最深厚的研究人才庫，在語言模型、自駕車（Waymo）、醫療 AI、機器人等領域同時佔據領先位置。

The Cognitive Revolution 主持人 Nathan Labenz 形容他走進 Google 總部時感受到的氛圍是「從容的自信」。這是這個節目開播 340 多集以來首次面對面錄製，地點是 Google 總部的 Gradient Canopy 圖書館，時間在 I/O 開幕前兩天。坐在他對面的是兩位 Google DeepMind 的核心成員：Logan Kilpatrick，負責開發者生態策略的技術人員；Tulsee Doshi，Gemini 模型的產品資深總監，掌管從模型訓練到產品落地的完整鏈路。兩人一個擅長講故事、一個擅長講數據，這場近一小時的對話，拆解了 Google 在 I/O 2026 上看似繁雜的產品佈局背後，一套清晰的戰略邏輯。

I/O 2026 的主旋律：Agent、Agent、Agent

Doshi 先從模型講起。今年的主角是 Gemini 3.5 Flash，她用一句話定位這個模型在 Google 產品矩陣中的角色：「夠聰明、夠快、夠便宜的甜蜜點。」具體數字是，3.5 Flash 的速度是同級大型模型的三倍，在 Artificial Analysis 基準測試上跑出每秒約 280 個 token 的成績，快到在 Anti-Gravity 開發環境裡，你還沒來得及按取消按鈕，回應就已經跑完了。成本也大幅下降，讓 Google 有底氣把同一個模型同時部署到 Gemini app、Search 的 AI Mode、Anti-Gravity、AI Studio 等多個產品線上。

影片生成領域也有動作。Gemini Omni Flash 是一個原生影片生成與編輯模型，Doshi 用了一個 Google 內部術語來形容它的定位：「影片的 nano-banana moment」。這個詞源自先前 Google 展示的一個圖像編輯 demo，畫面中一位女性、她的早餐和一杯咖啡被無縫合成在同一張圖片裡，沒有經過語言中介的失真，模型是真的在像素空間裡理解了物件之間的關係。Omni 要把這個能力帶進影片，讓你可以把自己的虛擬分身插入生成的影片中，或是把多張圖片組合成連貫的影片場景。首發平台是 Gemini app、Flow 和 YouTube，API 暫時不開放，取樣參數等技術細節仍在敲定中。

消費端的 Gemini app 也將迎來一個重要升級。Gemini Spark 預計在 I/O 結束後一到兩週內推出，這是在消費端加入 agent 功能的產品，底層跑的是 3.5 Flash，架構和開發者端的 Anti-Gravity 共用同一套基礎設施。Kilpatrick 特別強調，今年 I/O 的主旋律不是皮查伊（Sundar Pichai）前幾年喊的「AI、AI、AI」，而是「Agent、Agent、Agent」。他認為 2026 年是業界第一次出現「模型、harness、產品」三者共生演化的完整生態。

Anti-Gravity 本身也有值得注意的升級，其中最有意思的是「Gemini Mic」。這個功能讓你可以用語音對著模型漫無目的地碎碎唸，模型會把你的散亂思緒整理成結構化的行動方案。Doshi 說她自己就是靠說話來思考的人，這個功能讓她可以從模糊的想法直接跳到完成的簡報或分析報告，不需要打字。Kilpatrick 則觀察到一個更大的趨勢：語音輸入轉程式碼可能是目前成長最快的輸入模態。在 Google 總部，工程師們已經開始對著筆電碎碎唸來寫程式，只不過旁邊有人的時候，大家還是會乖乖打字。

為什麼沒有 Ultra？Flash-First 的戰略邏輯

每次 Google 發新模型，社群裡最常被問的問題就是：Ultra 在哪裡？Gemini 家族最初宣布時承諾三個等級，結果上面那個始終沒出現，反而多了一個更小的 Flashlight。有人猜是技術做不到，有人猜是計算資源不夠。答案比這些猜測都更實際。

Doshi 的解釋直指 Google 獨有的規模難題：在服務 20 多億人的產品上，延遲比品質更重要。她透露了一個很少被外界看到的內部邏輯：即使一個模型在品質上大幅提升，只要回應速度變慢，Google 的即時 A/B 測試資料就會顯示使用者互動率明顯下滑。搜尋和 Gemini app 的使用者不會為了更好的答案多等幾秒鐘，他們就是會離開。OpenAI 和 Anthropic 可以專注在「單一最強模型」的賽道上，因為他們的使用者規模和產品形態允許這樣做。但 Google 有八個使用者數超過 20 億的產品，延遲的代價被放大到完全不同的量級。

Kilpatrick 補充了一個耐人尋味的細節：其實 Pro 模型一直在持續變大、變強，每次新版本出來，團隊內部都會討論「要不要叫它 Ultra？」但最後總是決定不改名，部分原因是要維持系列命名的一致性。所以 Ultra 不是「做不出來」，而是 Google 不覺得需要這個品牌標籤。Deep Think 推理模式也提供了第四個擴展維度，讓 Pro 等級的模型可以透過推理時間計算來進一步提升表現。

蒸餾的方向也比外界想像的複雜。一般假設蒸餾是單向的：大模型訓練完，把知識蒸餾到小模型。但 Doshi 說 Google 的做法是雙向的。Pro 的知識流向 Flash，Flash 的知識再流向 Flashlight；同時，Flash 等級的訓練配方也會被放大到 Pro 等級來使用。做出好的 Flash 模型需要好的 Pro 模型，反之亦然。這打破了「一定有一個隱藏的超大模型在幕後」的猜測，實際情況更像是不同尺寸的模型互相餵養的生態系統。

「模型吃掉了鷹架」：從賣模型到賣全棧 Agent 系統

整場對話最有價值的概念，是 Kilpatrick 提出的「模型吃掉了鷹架」（the model eats the scaffolding）。

過去幾年，Google 的做法是訓練好模型，交給各個產品團隊，讓他們自己想辦法整合。每個團隊都得獨立搭建工具呼叫的迴圈、記憶管理、agent 邏輯等外圍程式碼。Kilpatrick 把這些統稱為「鷹架」。問題是，AI 的範式每 12 到 18 個月就劇烈翻轉一次，每次翻轉都等於要從頭重寫所有鷹架。如果你有 N 個產品團隊，就是 N 倍的重寫成本。

現在的做法不同了。DeepMind 不再只出貨「裸模型」，而是把模型和 agent harness 一起訓練、一起交付。harness 處理工具呼叫、多步推理、上下文管理等基礎設施層的工作，產品團隊在這個基礎上做差異化。Spark 和 AI Studio 底層跑的是同一套 Anti-Gravity harness，只是面向不同的使用者群做了不同的延伸。Kilpatrick 用一個精確的比喻描述這個動態：「模型飛輪每轉一圈，就會吃掉一批鷹架。」那些原本需要手工搭建的功能，逐漸被吸收進模型本身或它的 harness 裡。

Doshi 從模型團隊的角度補充了飛輪的另一半。產品團隊拿到新版本的模型後投入實作，過程中一定會發現模型的不足之處。第一步是嘗試用提示工程繞過問題，如果繞不過，就分析模型到底在哪裡跌倒，把回饋轉化成新的評估指標和訓練資料，餵回下一版模型。她舉了 NotebookLM 當例子：讓大家愛上的那個音頻對話功能，底層用的就是基本版 Gemini 配上精心設計的提示詞。NotebookLM 團隊對模型的理解極深，能快速原型、快速測試、快速迭代，這才是做出好產品的關鍵，而不是等一個更強的模型出現。

不過，模型和 harness 綁得越緊，會不會形成廠商鎖定？Kilpatrick 自己提了這個問題，然後提出了一個解方的概念：「harness bench」。他認為如果一個模型真的接近通用智慧，它應該能在不同的 harness 環境裡都表現良好，而不是只在自家的 Anti-Gravity 裡才跑得順。做不到的話，那就是「鋸齒狀智慧」（jagged intelligence）的又一個證據。Doshi 也強調 Google 刻意維持「harness 多樣性」的設計原則，讓企業客戶和外部開發者都能在非 Google 的編排框架裡有效使用 Gemini。

在熱水浴缸裡跑 Ablation：遞迴自我改進的務實路線

Labenz 問了一個尖銳的問題：Google DeepMind 對遞迴自我改進有多認真？Anthropic 的態度幾乎是信仰層級的堅定，OpenAI 則給出了明確時間表：今年要做出「ML 實習生」等級的 AI、2028 年要達到「正式 AI 研究員」水準。Google 有類似的里程碑嗎？

Doshi 的回應出乎意料地坦率。Gemini 已經不只是「幫研究員提升生產力」的輔助工具了。它現在能自己提交程式碼變更、執行模型評估、甚至主動提出研究方向的改進建議。她講了一個讓人印象深刻的故事：安全與對齊團隊的負責人 Anka 有天從熱水浴缸裡用手機啟動了一整套 ablation 實驗，讓 Gemini 測試不同安全介入方法和資料組合的效果差異，一個小時後就收到了完整的分析報告。這種工作在兩年前需要一位工程師坐在電腦前花好幾天才能完成。

但 Kilpatrick 的語氣明顯比 Anthropic 和 OpenAI 的公開表態冷靜得多。他的核心論點是經濟學：大規模預訓練一次要燒掉巨量資源，走錯方向的機會成本極高。在這種條件下，你不太可能真的放手讓 AI 自己決定要跑什麼預訓練。「把大規模預訓練任務交給 ML 實習生去啟動，在短中期看來不太現實，」他直說。Google 走的是深度人機協作路線。人類負責策略判斷和結果詮釋，AI 負責加速執行和擴展實驗規模。

Doshi 做了一個有意思的補充：這種分工本身就在改變研究人員的日常。重心正在從「動手跑實驗」轉向「思考結果代表什麼意義」和「決定下一步往哪走」。這不是科幻小說裡那種 AI 自主進化的場景，但它確實讓 AI 研究的迭代速度加快了一個量級。

被坦白承認的技術瓶頸

對話尾段進入了一輪坦率的技術問答，回應了社群裡兩個高頻問題。

第一個是上下文視窗的停滯。從 4,000 token 到 100 萬 token，擴展只花了幾年。但到了 100 萬之後就幾乎不動了，即使已經有團隊展示了 1,200 萬 token 的次二次方模型。Doshi 的解釋有兩個層次。經濟面：一個 100 萬 token 的請求可能要花好幾美元，願意付這個價格的需求極其有限。技術面：更大的上下文不一定帶來更好的結果。很多塞進去的資訊對模型而言是干擾，反而降低了任務表現。所以 Google 把研究重心放在了「智慧壓縮」上，讓模型能有效存取大量資訊，但只把真正相關的部分帶進有限的視窗裡。Kilpatrick 則明白表示，如果沒有注意力機制的根本性研究突破，讓延伸上下文的計算成本大幅下降，視窗大小短期內不會有明顯突破。

第二個問題更直接：為什麼所有公開的 Gemini 模型知識截止日還停在 2025 年 1 月？距離 I/O 已經超過 16 個月。Labenz 觀察到，考慮到模型的權重對過去一年多的事情完全沒有記憶，Deep Research 的表現其實驚人地好。Doshi 的回應算是半官方的坦承：「把它歸類為一個 bug 吧。」她解釋 Google 的應對策略是訓練模型辨別什麼時候該依賴自己的參數知識、什麼時候該去搜尋即時的網路資訊。Search 和 Gemini 之間有極深的整合，模型可以取得最近一小時內的新鮮資訊。這也解釋了為什麼 Deep Research 和 AI Mode 儘管權重過期，在實際使用中的表現卻依然出色。不過，確切的知識截止日更新時間表，兩人都沒有給出。

AI 競爭的下一個維度

這場對話揭示了一個正在發生的競爭維度轉移。過去幾年，AI 的軍備競賽主要是比誰的模型在基準測試上分數最高，OpenAI 和 Anthropic 衝刺的是絕對能力的頂峰。但 Google 推出了一套不同的計分方式：重要的不只是模型本身，而是模型、harness 和產品三者構成的完整系統。

「模型吃掉鷹架」這個概念，說穿了就是 AI 產品的競爭壁壘已經從「單一模型的能力」轉向「模型與工具共演化的飛輪效率」。Google 有八個超過 20 億人使用的產品當作這個飛輪的引擎，每天產生海量的真實使用回饋，這是目前任何競爭對手都無法複製的結構性優勢。

這不代表 Google 就贏了。No Moats 備忘錄裡指出的威脅沒有消失，開源模型持續進步，獨立開發者對任何形式的廠商鎖定都保持高度警覺。但在 I/O 2026 的這個節點上，Google 展示了一套自洽的戰略邏輯：不追求單一最強模型的王座，而是建立一個讓模型不斷吸收周圍鷹架的生態系統。在這個系統裡，產品端的每一次回饋都讓模型變好，模型的每一次進化都讓原本需要手工搭建的程式碼變得多餘。

這可能才是 AI 競爭的下一個維度。