AI 技術前沿

20 年的商家資料才是 AI 時代真正的護城河：Shopify SimGym、HSTU 與 Liquid AI 的押注

Shopify CTO 帕拉欣在 Latent Space 拆解 SimGym 怎麼用數十年商家資料把模擬加購相關性做到 0.7，HSTU 模型把整個商家當 agent 來建模，以及 Liquid AI 這套後 SSM 非 transformer 架構為什麼能讓 300M 參數的搜尋模型在 30ms 內跑完。他直白地說：「沒有歷史資料，agent 只會照你 prompt 的去做」，這句話定義了 AI 時代真正的護城河。

2026 年 5 月 3 日 · 來源： Latent Space

20 年的商家資料才是 AI 時代真正的護城河：Shopify SimGym、HSTU 與 Liquid AI 的押注

本文整理自 Latent Space 2026 年 4 月播出的單集，受訪者為 Shopify 技術長帕拉欣（Mikhail Parakhin）。他在加入 Shopify 前，是微軟（Microsoft）旗下含 Bing、Edge、Ads、Windows 在內事業群的執行長，更早之前在俄羅斯網路巨頭 Yandex 主導機器學習與 Alice 數位助理。原始單集約 110 分鐘。

當 AI 都會了，唯一不會被複製的還是資料

訪談進到下半段時，Swyx 把問題拋向一個多數 AI 創業者都在思考的命題：在所有人都用同樣的基礎模型、同樣的工具的世界裡，到底什麼才是真正的差異化？帕拉欣的回答幾乎不假思索：「如果你沒有歷史資料，所有 agent 能做的就只是照你 prompt 的去做。它們沒有真實世界的回饋，只是在真空裡運作。」

這句話聽起來像是常識，但它指向一個多數人沒看清楚的結構性事實。模型能力會被快速複製，提示詞工程會被快速複製，工具鏈會被快速複製，連工程文化都會被快速複製。唯一不會被複製的，是一家公司過去十年、二十年累積的「使用者做了什麼動作、結果是什麼」的因果資料。Shopify 累積了將近二十年的商家行為資料：每一次商品上架、每一次價格調整、每一次首頁改版，後續都對應到加購率、轉換率、銷售額怎麼變化。這條時間序列，沒有第二家公司有。

帕拉欣在訪談裡用一個很尖銳的句子定調這件事：對於只在「現在」這個時間切片操作的新創，再聰明的 agent 也只是在問你的網站「這個按鈕該不該變紅色」，但它不知道過去一千次類似改動的真實後果。對於有歷史資料的玩家，agent 可以查到「上次有商家把按鈕改紅色，加購率掉了 12%」。這個資訊的不對稱，是 AI 時代護城河的本質。Shopify 把這套資料變成一個對外可見的內部產品，叫做 SimGym。

SimGym：把模擬顧客做到 0.7 加購相關性的一年苦工

SimGym 是 Shopify 的客戶模擬器。它的設計目標很直白：讓 agent 在模擬環境中對著一個虛擬店面做改動，然後預測這個改動如果發生在真實世界，會怎麼影響真實顧客的加購行為。聽起來像是廣告業常見的合成顧客（synthetic customer）研究，但 SimGym 的差別在於它建在 Shopify 的歷史資料之上，預測準確度跨進了一個質變的區間。

要做到這件事，背後是一年的苦工。帕拉欣說團隊花了大約一年時間，反覆做兩件事：一是去除歷史資料中的雜訊，例如季節性、廣告投放波動、外部宏觀事件；二是用協同過濾（collaborative filtering）找出商家之間、商品之間、消費者之間的潛在連結，讓模型在沒看過某個特定商家的情況下，也能借用相似商家的資料推斷。這套組合最後跑出來的成果，是 SimGym 模擬出來的加購事件，跟真實世界的加購事件相關性達到 0.7。

0.7 這個數字值得展開說明。在統計上，相關性 0.7 已經足以支撐商業決策。對應到實務情境，這代表如果 SimGym 預測某個改動會把加購率往上推，那這個預測在真實世界有相當高的機率成立。對於商家而言，這意味著他們可以把 SimGym 當成一個真正的「先試後做」工具，而不是某種粗略的方向感參考。對於沒有這套資料的競爭對手而言，他們即使做出技術相同的模擬器，也只能在合成資料上跑出 0.2、0.3 的相關性，差距之大幾乎無法用更好的演算法補回來。

帕拉欣說這個 0.7 是內部一直追的目標，從一開始的 0.4、0.5 一路爬到 0.6，最後跨進 0.7 那一刻是團隊裡的大事。他特別強調，這不是某個聰明演算法解開的關卡，而是「資料、演算法、工程、領域知識」四件事一起進步出來的結果。少了任何一件，數字就停在某個瓶頸。這套說法暗示了 SimGym 是一個極難被複製的成就，不只因為資料難拿，更因為要把這四件事都做對需要時間。

從「A vs B 比較」轉到「就你這個網站，告訴你該怎麼改」

SimGym 上線之後，Shopify 很快踩到一個經典的大公司偏見陷阱。團隊一開始的設計目標，是讓商家把兩個版本的店面（A 版本與 B 版本）丟給 SimGym 做比較預測，這個流程在大型品牌商身上很合理，他們本來就有 A/B 測試的習慣。但 Shopify 上的多數商家是中小型店家，他們根本沒有 A 和 B，只有「現在這個網站」，他們需要的是「告訴我這個網站該怎麼改」的具體建議。

意識到這個落差之後，Shopify 把 SimGym 的形態做了關鍵翻轉。新的版本只接受單一網站當輸入，輸出的不再是「A 比 B 好幾個百分點」，而是「給你目前這個網站，這裡是預測的轉換率，這幾個改動可能讓它提升」。這個改動讓 SimGym 從一個只服務大型商家的工具，變成一個任何 Shopify 商家都用得起的諮詢顧問，使用人數隨之大幅成長。

帕拉欣承認這個轉變一開始讓團隊很掙扎，因為它改變了問題的數學形態：原本是兩個樣本之間的比較，相對好做；現在是要在單一樣本上預測「對立面」。但這個更難的問題，正是商家真正需要被解決的問題。這個故事對所有 SaaS 工具有同樣的提醒：當你發現產品在大客戶身上的使用模式，跟中小客戶完全不同時，先問自己有沒有掉進「以大客戶推論小客戶」的偏見裡。

當下 SimGym 還在處理的最大問題，已經不是準確度，而是成本。每跑一次完整模擬要在 headless 瀏覽器裡開很多次完整的網站、丟給多模態模型評分，這套運算在規模上很燒錢。帕拉欣說現在團隊的優化重心，是讓單次模擬的成本壓到商家願意天天用的水準。能把這條成本曲線壓下來，SimGym 就會從一個「特殊場合用的高級工具」，變成一個內建在 Shopify 商家後台、隨時能跑的日常功能。

為什麼一定要跑 headless 瀏覽器：圖片大小的反直覺現象

訪談中有個小段落特別精采，因為它揭示了 SimGym 為什麼一定要在真實的瀏覽器裡跑、而不能只在 HTML 層面分析。帕拉欣舉了一個具體的例子：商家頁面上的商品主圖大小，跟銷售數字之間的關係，跟設計師的直覺剛好相反。

設計師往往認為大圖讓商品更顯眼、更有質感，理應推升轉換率。但 Shopify 看到的真實資料是，圖片放大之後，加購率反而往下掉。原因可能是大圖讓頁面看起來像是促銷頁、降低消費者對品牌的信任感；也可能是大圖讓使用者得多滑兩下才看到商品描述。不管原因為何，這個效應從 HTML 層面看不出來，因為 HTML 裡的 <img> 標籤上看到的尺寸數字，跟它在真實渲染後的視覺衝擊完全不是同一回事。

要把這個訊號抓到，模擬器就必須在真正的瀏覽器裡渲染整個頁面，把畫面交給多模態模型去看。SimGym 因此選擇跟 Browser Base 合作，用真實的 headless 瀏覽器渲染商家頁面，再用視覺模型去評分。原始版本跑在 GPT-OSS 上，後來變成多模型混搭的架構，每個任務挑最適合的模型。

這個架構選擇延伸出一個棘手的工程問題：標準的語言模型服務系統，是針對「輸入文字、輸出文字」這種模式設計的，每秒處理多少 token 是主要指標。但 SimGym 的工作流是「跑瀏覽器、截圖、餵給多模態模型、處理視覺輸出」，幾乎每一個假設都跟標準 LM serving 不一樣。帕拉欣說這套東西「違反了標準語言模型服務系統設計時的幾乎每一個假設」，所以 Shopify 必須跟 Fireworks、Together、SentML（已被輝達收購）這些推論優化公司針對 SimGym 這個工作負載做客製優化，才能把成本壓到合理區間。

HSTU：把整個商家當作 agent 來建模

SimGym 之上還有更野心的一層，叫做 HSTU（Hierarchical Sequential Transduction Unit，階層式序列轉換單元）。如果說 SimGym 是模擬顧客行為，HSTU 就是把整個商家當作一個會思考、會做決策的 agent 來建模。Shopify 用它來理解每一家商店在過去一段時間做了什麼動作、這些動作跟它的行業類別、地區、消費族群之間有什麼關聯。

這個建模層級的價值，在於它可以做反事實推論（counterfactual intervention）。帕拉欣舉了一個具體的例子：HSTU 觀察到某個商家在加拿大的銷售曲線跟模型預測的差距太大，模型會推論這個商家可能在加拿大某個設定上出了問題，例如稅率、配送選項、語言版本。系統不只能標記這個異常，還能反過來建議「如果你把這個設定改成 X，預期銷售會回到正常水準」。

這個能力的觸達方式，叫做 Shopify Pals。它是一個內部專案，會把 HSTU 算出來的反事實建議，主動推送給商家。對商家來說，這變成一個會主動找出問題的助理：你不需要去翻那些細節設定，系統發現你的加拿大銷售看起來怪怪的，就會直接告訴你哪裡可能設錯。對 Shopify 來說，這是一個讓平台價值大幅放大的動作，因為它把「商家不知道自己有問題」這層隱形虧損挖了出來。

帕拉欣還順手提到一個讓 Swyx 大笑的彩蛋：Shopify 在做不同商品類別的群集分析時，重新把 21 世紀初的一個冷門技術翻了出來，叫做中國餐館過程（Chinese Restaurant Process，CRP）。這是一種貝氏非參數方法，可以讓群集自然成長，不用事先指定數量。Swyx 反應是「我從 2001 年之後就沒看過 CRP 了！」這個小段落很有意思，因為它說明 LLM 時代的工程師工具箱，正在把更早期、被遺忘的技術重新組合進來，而不是只用最新的方法。

Liquid AI：後 SSM 的非 transformer 架構，30ms 跑完 300M 參數

訪談進到最後的技術段落，帕拉欣花了不少時間講 Liquid AI 這家公司。這是一個值得臺灣讀者認識的押注，因為它代表 Shopify 對「後 transformer 架構」的明確選擇。帕拉欣的判斷很直接：「Liquid + transformer 的混合架構，可能是我所知最好的架構，沒有之一。」這不是行銷話術，而是 Shopify 真金白銀導入後給出的評估。

要理解 Liquid AI，得從 transformer 的限制談起。Transformer 在上下文長度上是平方複雜度，文章越長、運算成本越爆炸。先前一波解方是 SSM（State Space Models，狀態空間模型）家族，最有名的是 Mamba，它把複雜度降到線性甚至次線性。但 SSM 在大規模訓練時遇到一個瓶頸：表達力（expressiveness）總是稍嫌不足，做不到 transformer 在大模型上展現的能力。

Liquid AI 做的事情，是在 SSM 之後再走一步。他們的架構不是 transformer，也不完全是 SSM，而是一種以微分方程為基礎、把方程展開成卷積運算的新型結構。帕拉欣說這套東西寫起來很麻煩、訓練起來工程複雜度很高，但成果是上下文長度次線性、模型壓得很小、表達力不輸 transformer 在同等規模的水準。對於低延遲、小模型、長上下文這個交集點上的應用，這幾乎是完美的形狀。

Shopify 拿 Liquid 用在兩個極端的工作負載上。低延遲那一端，他們用 300M 參數的 Liquid 模型跑搜尋查詢的意圖擴展，端到端延遲壓到 30 毫秒。要達成這個數字，光有 Liquid 還不夠，他們跟輝達、SentML、Liquid AI 三邊一起做底層優化，因為大多數 CUDA 程式碼根本不是為小於 30 毫秒的小模型推論設計的。高吞吐那一端，他們用 7-8B 參數的 Liquid 學生模型，從一個巨大的 teacher 模型蒸餾出來，跑商品目錄整理與 Sidekick Pulse 的隔夜批次任務。在這個規模區間，帕拉欣說 Liquid 經常勝過 Qwen，跟 Kimi 在推理任務上互有勝負。

帕拉欣特別強調 Shopify 在模型選擇上是「雜食而看實力」，他們會不斷測試每一個開源與私有模型，看誰在哪個工作負載上表現最好。Liquid 在他們內部，已經明確「從 Qwen 與 Kimi 那邊吃下了不少佔比」。這對所有評估非 transformer 架構的團隊，是一個值得收下的訊號：在某些利基上，Liquid 不是備選，而是最佳選。

我的觀察：臺灣 SaaS 該從這場押注學什麼

Shopify 這套 SimGym + HSTU + Liquid AI 的組合拳，對臺灣的 SaaS 與電商團隊有三個直接的啟發。第一個啟發是關於資料的時間性。多數臺灣 SaaS 都還在累積資料的早期階段，這是劣勢，但反過來想，每一天運作就是在加厚自己的護城河。重要的不是「現在資料夠不夠」，而是「資料的累積方式有沒有設計好」。Shopify 二十年累積的資料之所以有用，是因為他們很早就把「商家做了什麼動作、後續銷售怎麼變化」這條因果鏈紀錄得乾淨。如果你的 SaaS 紀錄的只是「使用者用了哪些功能」，那十年後這份資料還是只能告訴你功能使用率，沒辦法支撐 SimGym 這種等級的應用。

第二個啟發是「不要只用最熱的架構」。Shopify 在 transformer 一片喊聲之中押注 Liquid AI，不是因為跟風，而是因為他們有一個非常具體的工作負載需求：30 毫秒以內的延遲、小模型、長上下文，正好落在 Liquid 的甜蜜點上。這提醒臺灣的 AI 團隊，當你的應用情境很明確時，應該要去找最適合那個情境的架構，而不是預設用 transformer。Mamba、Liquid 與後續可能出現的更多非 transformer 架構，都應該被放進評估清單。

第三個啟發是關於合作生態。SimGym 跑得起來，靠的不只是 Shopify 內部團隊，還靠 Browser Base、Fireworks、Together、SentML、Liquid AI 這一票合作夥伴的客製化優化。這代表新一代 AI 應用的工程，已經從「我們自己包山包海」變成「精準找出每個層的最強夥伴」。對臺灣的 SaaS 創業者來說，這意味著要主動跟海外的推論優化公司、模型公司、瀏覽器自動化公司建立關係。閉門造車的時代過了，能不能組成一個跨公司的優化鏈，會直接影響產品最終的體驗品質。

最後一句話留給帕拉欣自己說過的那句金句：「沒有歷史資料，agent 只會照你 prompt 的去做。」對臺灣的所有 AI 創業者，這句話應該被釘在白板上。它提醒我們，當這一波 AI 的興奮過去之後，會留下來的是那些真正擁有獨家資料、又有能力把資料變成產品的玩家。模型可以買，工具可以買，提示詞可以抄，唯獨資料不能。從今天開始決定怎麼累積、累積什麼，未來十年才會有自己的 SimGym。