AI 是壓縮技術:Klarna 執行長與 Michael Burry 的一場思辨

Klarna 執行長在 20VC 提出少有人討論的觀點:AI 的本質是壓縮,不是生成。整個網際網路的知識壓進幾百 GB,因為人類真正的原創知識比我們以為的少。他與大賣空本尊 Michael Burry 的對話,更點出資料中心投資的盲點。

AI 是壓縮技術:Klarna 執行長與 Michael Burry 的一場思辨

本文整理自《20VC with Harry Stebbings》2026 年 2 月播出的單集。

{{< youtube P7vIRAFSXmk >}}

{{< spotify "episode/0HfJOI2rVphjIJSPEgGbKz" >}}

{{< apple-podcast "tw/podcast/20vc-saas-is-dead-why-systems-of-record-will-die-in/id958230465?i=1000749933952" >}}


封面圖

一個讓人尷尬的好問題

Klarna 共同創辦人暨執行長賽巴斯坦.西米亞特科斯基(Sebastian Siemiatkowski)回憶了一場在黃石公園舉辦的科技論壇。那天的舞台上站著他、OpenAI 執行長山姆.奧特曼(Sam Altman)、前 Google 執行長艾瑞克.施密特(Eric Schmidt)。觀眾席裡有人問了一個問題:經過訓練的 ChatGPT 5,整個模型怎麼可能只有幾百 GB?你怎麼把全人類的知識塞進一個 USB 隨身碟裡?

兩位大佬各自給了答案。賽巴斯坦腦中也有一個想法,但他在那個場合覺得不好意思講。那個想法很簡單,卻很根本:AI 是一種壓縮技術。這個觀點後來成為他跟電影《大賣空》的原型人物 Michael Burry 之間一段精彩對話的起點,也是這篇文章想探討的核心。

重複、重複、再重複

賽巴斯坦在 20VC 節目中用一個直覺的例子解釋壓縮的意思。過去企業把資料存進資料庫,你會寫一筆記錄說「Klarna 的客戶是 Sephora」。然後同樣的資訊會出現在 Slack 裡、Salesforce 裡、Google Docs 裡、電子郵件裡。同一件事被重複儲存了五次、十次、五十次。整個企業的資料庫膨脹得巨大,不是因為資訊量真的那麼多,而是因為同樣的東西不斷被複製。

但你去看維基百科,Klarna 的條目有幾篇?一篇。為什麼不是十五篇?因為維基百科有一套極其嚴格的知識管理原則。你不能隨便新增條目,你必須先搜尋,確認這個主題不存在,才被允許創建。這跟企業的運作方式完全相反。企業裡有人想到一個點子,就開一份新文件、寫一段新程式碼,根本不會先去查公司是否已經有類似的東西。結果就是同樣的資訊散落在幾十個系統裡,每個版本都略有不同,沒有人知道哪個是正確的。

賽巴斯坦認為,這正是 AI 模型能把整個網際網路壓進幾百 GB 的原因。當你在訓練一個大型語言模型時,如果你只告訴它一次「Harry Stebbings 不只主持 Podcast,也經營一間創投基金」,它不會記住。但如果你在訓練資料裡反覆看到同樣的資訊,它就會記住。關鍵在於,它不是把同一筆資料存兩次。AI 模型會自動壓縮重複的資訊,只保留結構性的知識。這就是為什麼 ChatGPT 5 的模型大小大約只相當於全球兩到三天的氣象資料,卻能回答涵蓋面極廣的問題。

人類知識沒有我們以為的那麼多

這個壓縮比背後有一個讓人不太舒服的事實。賽巴斯坦在節目中直言:人類社會中真正原創的資訊和知識,比我們願意承認的要少得多。我們看到的大部分內容,都是同樣主題的重複和變體。

他用《羅密歐與茱麗葉》做比喻。這個故事以各種形式存在了上百個版本,從莎士比亞到好萊塢的 West Side Story 再到日本動畫。人類看到的是一個又一個獨立的愛情故事,但 AI 看到的是同一個愛情故事的結構,配上不同的名字和稍微不同的情節設定。當你用數學去壓縮這些故事,它們佔的空間遠比你想像的小。

當然,壓縮會犧牲精確度。你去問 AI「我家巷口那間星巴克幾點開門」,它八成答不出來。因為這種極度特定、極度局部的資訊在訓練資料裡出現的次數太少,不足以讓模型記住。但對於結構性的知識,像是歷史事件的因果、科學原理的推導、商業模式的邏輯,AI 的壓縮效率驚人,因為這些知識在人類的文獻裡被反覆描述了無數次。

這裡有一個容易被忽略的反面數據。賽巴斯坦提到,有數據顯示 Google 每天的搜尋查詢中,有 30% 是全新的、從未被搜過的。如果這是真的,那人類的好奇心和創造力可能比壓縮論暗示的更強。他坦承自己不確定答案,但認為壓縮和生成這兩股力量的拉扯,正是理解 AI 未來最關鍵的框架。

Michael Burry 的問題:還需要那麼多資料中心嗎?

這個壓縮框架引出了一個真金白銀的投資問題,也是賽巴斯坦跟 Michael Burry 對話的核心。Burry 就是 2008 年次貸危機中提前放空房市、被寫進《大賣空》的那位傳奇投資人。他近期也在對科技業的某些過度投資下注。

主持人 Harry Stebbings 先拋出了自己的觀點:他認為資料中心是當前最被低估的投資類別。理由很直覺:如果推論(inference)需要 24 小時不間斷地為所有知識工作者運行,而現在只覆蓋了大約 1% 的知識工作者,那需求缺口明顯巨大。為什麼不把更多錢砸進去?

賽巴斯坦給了一個更細緻的分析。他認為要分兩邊看。在企業端,企業要的是最高品質、最低成本。如果 AI 能幫你把散落在十個系統裡的客戶資訊壓縮成一個單一真相來源,你為什麼還要花錢去重複運算同樣的東西?企業會理性選擇壓縮而非擴張。這不是因為 AI 變聰明了,而是因為壓縮在經濟上合理。你不會花錢重複做你已經做過的事。

但在消費端,故事完全相反。你和朋友看完 Podcast 說「我們來看一場星際大戰電影,但用我們自己的臉,你演 Darth Vader,我演 Luke」。這種個人化的內容生成需要龐大的算力,每一次都是全新的運算。這就是生成的力量。

所以真正的問題變成了:企業端的壓縮力量大,還是消費端的生成力量大?賽巴斯坦自己也坦承不知道答案。他特別說了一句:他不想成為那個說「全世界只需要四台電腦」的人,這是在引用 IBM 前總裁湯瑪斯.華生的名言(雖然這句話到底是不是他說的有爭議)。賽巴斯坦的謹慎不是客套,而是他認知到兩股力量都很真實,押注任何一邊都有風險。

Claude 做到了人類團隊做不到的事

在這段關於壓縮與生成的討論中,賽巴斯坦插入了一段個人經歷,替「生成」的價值做了一個精彩的註腳。

他提到自己上週用 Claude 嘗試解釋一個極其複雜的財務會計概念。經過幾輪對話迭代,Claude 產出了一個漂亮的 HTML 動畫,以視覺化的方式把那個概念講得清清楚楚。賽巴斯坦說,這是他第一次感覺 AI 做到了人類做不到的事。不是因為 AI 比任何單一領域的專家更強,而是因為它同時具備了所有必要的技能。

如果用傳統方式做同一件事,你需要找動畫師、視覺設計師、會計師、財務分析師,讓他們合作。問題是動畫師不懂財務概念,不知道自己在畫什麼;財務專家則覺得數字已經夠清楚了,幹嘛還要什麼視覺化。每個人在自己的領域都很強,但沒有人同時理解所有領域,所以最終的產出永遠有縫隙。而 Claude 把所有技能整合在一個系統裡,產出的結果比任何人類團隊的協作都更完整。

這個故事呼應了壓縮的主題。AI 之所以能做到這件事,正是因為它把跨領域的知識(財務、設計、動畫、教學法)壓縮進同一個模型裡。壓縮不只是讓儲存變小,它讓原本分散在不同人腦中的知識,第一次被整合在一起使用。

我的觀察:被忽略的另一面

多數關於 AI 的討論集中在「生成」:生成文字、生成圖片、生成程式碼、生成影片。但賽巴斯坦提出的壓縮觀點,指向另一個方向。如果 AI 的核心能力之一是壓縮,把散亂的、重複的、冗餘的資訊濃縮成結構化的知識,那它對企業的價值就不只是「做更多」,而是「用更少做同樣的事」。

這對資料中心的投資邏輯有直接影響。過去兩年,全球科技業砸下數千億美元建設 AI 基礎設施,背後的假設是需求只會持續膨脹。但如果企業端的 AI 應用最終導向壓縮而非擴張(把十個系統裡的重複資料壓成一個、把五百個 SaaS 座位壓成五十個、把一千人的工作壓成三百人的工作),那算力需求的成長曲線可能不如市場預期的那麼陡。

當然,消費端的生成需求可能補上這個缺口。個人化影片、即時互動娛樂、虛擬陪伴,這些應用會吃掉大量算力。但這兩股力量的淨效果到底是什麼,目前沒有人能給出確定的答案。

對臺灣來說,這個問題不是抽象的學術討論。臺灣的半導體產業鏈和資料中心投資正在快速擴張,整個產業的投資假設都建立在「AI 算力需求無上限」這個前提上。賽巴斯坦和 Burry 的對話提醒我們:市場上幾乎所有人都在看需求端的成長,但很少有人認真計算壓縮端的力量。這不是說投資會泡沫化,而是說完整的分析應該把兩邊都納入考量。最危險的不是看錯方向,而是只看一邊。