20 年的商家資料才是 AI 時代真正的護城河:Shopify SimGym、HSTU 與 Liquid AI 的押注
Shopify CTO 帕拉欣在 Latent Space 拆解 SimGym 怎麼用數十年商家資料把模擬加購相關性做到 0.7,HSTU 模型把整個商家當 agent 來建模,以及 Liquid AI 這套後 SSM 非 transformer 架構為什麼能讓 300M 參數的搜尋模型在 30ms 內跑完。他直白地說:「沒有歷史資料,agent 只會照你 prompt 的去做」,這句話定義了 AI 時代真正的護城河。

本文整理自 Latent Space 2026 年 4 月播出的單集,受訪者為 Shopify 技術長帕拉欣(Mikhail Parakhin)。他在加入 Shopify 前,是微軟(Microsoft)旗下含 Bing、Edge、Ads、Windows 在內事業群的執行長,更早之前在俄羅斯網路巨頭 Yandex 主導機器學習與 Alice 數位助理。原始單集約 110 分鐘。
{{< youtube RrkGoX3Cw7o >}}
當 AI 都會了,唯一不會被複製的還是資料
訪談進到下半段時,Swyx 把問題拋向一個多數 AI 創業者都在思考的命題:在所有人都用同樣的基礎模型、同樣的工具的世界裡,到底什麼才是真正的差異化?帕拉欣的回答幾乎不假思索:「如果你沒有歷史資料,所有 agent 能做的就只是照你 prompt 的去做。它們沒有真實世界的回饋,只是在真空裡運作。」
這句話聽起來像是常識,但它指向一個多數人沒看清楚的結構性事實。模型能力會被快速複製,提示詞工程會被快速複製,工具鏈會被快速複製,連工程文化都會被快速複製。唯一不會被複製的,是一家公司過去十年、二十年累積的「使用者做了什麼動作、結果是什麼」的因果資料。Shopify 累積了將近二十年的商家行為資料:每一次商品上架、每一次價格調整、每一次首頁改版,後續都對應到加購率、轉換率、銷售額怎麼變化。這條時間序列,沒有第二家公司有。
帕拉欣在訪談裡用一個很尖銳的句子定調這件事:對於只在「現在」這個時間切片操作的新創,再聰明的 agent 也只是在問你的網站「這個按鈕該不該變紅色」,但它不知道過去一千次類似改動的真實後果。對於有歷史資料的玩家,agent 可以查到「上次有商家把按鈕改紅色,加購率掉了 12%」。這個資訊的不對稱,是 AI 時代護城河的本質。Shopify 把這套資料變成一個對外可見的內部產品,叫做 SimGym。
SimGym:把模擬顧客做到 0.7 加購相關性的一年苦工
SimGym 是 Shopify 的客戶模擬器。它的設計目標很直白:讓 agent 在模擬環境中對著一個虛擬店面做改動,然後預測這個改動如果發生在真實世界,會怎麼影響真實顧客的加購行為。聽起來像是廣告業常見的合成顧客(synthetic customer)研究,但 SimGym 的差別在於它建在 Shopify 的歷史資料之上,預測準確度跨進了一個質變的區間。
要做到這件事,背後是一年的苦工。帕拉欣說團隊花了大約一年時間,反覆做兩件事:一是去除歷史資料中的雜訊,例如季節性、廣告投放波動、外部宏觀事件;二是用協同過濾(collaborative filtering)找出商家之間、商品之間、消費者之間的潛在連結,讓模型在沒看過某個特定商家的情況下,也能借用相似商家的資料推斷。這套組合最後跑出來的成果,是 SimGym 模擬出來的加購事件,跟真實世界的加購事件相關性達到 0.7。
0.7 這個數字值得展開說明。在統計上,相關性 0.7 已經足以支撐商業決策。對應到實務情境,這代表如果 SimGym 預測某個改動會把加購率往上推,那這個預測在真實世界有相當高的機率成立。對於商家而言,這意味著他們可以把 SimGym 當成一個真正的「先試後做」工具,而不是某種粗略的方向感參考。對於沒有這套資料的競爭對手而言,他們即使做出技術相同的模擬器,也只能在合成資料上跑出 0.2、0.3 的相關性,差距之大幾乎無法用更好的演算法補回來。
帕拉欣說這個 0.7 是內部一直追的目標,從一開始的 0.4、0.5 一路爬到 0.6,最後跨進 0.7 那一刻是團隊裡的大事。他特別強調,這不是某個聰明演算法解開的關卡,而是「資料、演算法、工程、領域知識」四件事一起進步出來的結果。少了任何一件,數字就停在某個瓶頸。這套說法暗示了 SimGym 是一個極難被複製的成就,不只因為資料難拿,更因為要把這四件事都做對需要時間。
從「A vs B 比較」轉到「就你這個網站,告訴你該怎麼改」
SimGym 上線之後,Shopify 很快踩到一個經典的大公司偏見陷阱。團隊一開始的設計目標,是讓商家把兩個版本的店面(A 版本與 B 版本)丟給 SimGym 做比較預測,這個流程在大型品牌商身上很合理,他們本來就有 A/B 測試的習慣。但 Shopify 上的多數商家是中小型店家,他們根本沒有 A 和 B,只有「現在這個網站」,他們需要的是「告訴我這個網站該怎麼改」的具體建議。
意識到這個落差之後,Shopify 把 SimGym 的形態做了關鍵翻轉。新的版本只接受單一網站當輸入,輸出的不再是「A 比 B 好幾個百分點」,而是「給你目前這個網站,這裡是預測的轉換率,這幾個改動可能讓它提升」。這個改動讓 SimGym 從一個只服務大型商家的工具,變成一個任何 Shopify 商家都用得起的諮詢顧問,使用人數隨之大幅成長。
帕拉欣承認這個轉變一開始讓團隊很掙扎,因為它改變了問題的數學形態:原本是兩個樣本之間的比較,相對好做;現在是要在單一樣本上預測「對立面」。但這個更難的問題,正是商家真正需要被解決的問題。這個故事對所有 SaaS 工具有同樣的提醒:當你發現產品在大客戶身上的使用模式,跟中小客戶完全不同時,先問自己有沒有掉進「以大客戶推論小客戶」的偏見裡。
當下 SimGym 還在處理的最大問題,已經不是準確度,而是成本。每跑一次完整模擬要在 headless 瀏覽器裡開很多次完整的網站、丟給多模態模型評分,這套運算在規模上很燒錢。帕拉欣說現在團隊的優化重心,是讓單次模擬的成本壓到商家願意天天用的水準。能把這條成本曲線壓下來,SimGym 就會從一個「特殊場合用的高級工具」,變成一個內建在 Shopify 商家後台、隨時能跑的日常功能。
為什麼一定要跑 headless 瀏覽器:圖片大小的反直覺現象
訪談中有個小段落特別精采,因為它揭示了 SimGym 為什麼一定要在真實的瀏覽器裡跑、而不能只在 HTML 層面分析。帕拉欣舉了一個具體的例子:商家頁面上的商品主圖大小,跟銷售數字之間的關係,跟設計師的直覺剛好相反。
設計師往往認為大圖讓商品更顯眼、更有質感,理應推升轉換率。但 Shopify 看到的真實資料是,圖片放大之後,加購率反而往下掉。原因可能是大圖讓頁面看起來像是促銷頁、降低消費者對品牌的信任感;也可能是大圖讓使用者得多滑兩下才看到商品描述。不管原因為何,這個效應從 HTML 層面看不出來,因為 HTML 裡的 <img> 標籤上看到的尺寸數字,跟它在真實渲染後的視覺衝擊完全不是同一回事。
要把這個訊號抓到,模擬器就必須在真正的瀏覽器裡渲染整個頁面,把畫面交給多模態模型去看。SimGym 因此選擇跟 Browser Base 合作,用真實的 headless 瀏覽器渲染商家頁面,再用視覺模型去評分。原始版本跑在 GPT-OSS 上,後來變成多模型混搭的架構,每個任務挑最適合的模型。
這個架構選擇延伸出一個棘手的工程問題:標準的語言模型服務系統,是針對「輸入文字、輸出文字」這種模式設計的,每秒處理多少 token 是主要指標。但 SimGym 的工作流是「跑瀏覽器、截圖、餵給多模態模型、處理視覺輸出」,幾乎每一個假設都跟標準 LM serving 不一樣。帕拉欣說這套東西「違反了標準語言模型服務系統設計時的幾乎每一個假設」,所以 Shopify 必須跟 Fireworks、Together、SentML(已被輝達收購)這些推論優化公司針對 SimGym 這個工作負載做客製優化,才能把成本壓到合理區間。
HSTU:把整個商家當作 agent 來建模
SimGym 之上還有更野心的一層,叫做 HSTU(Hierarchical Sequential Transduction Unit,階層式序列轉換單元)。如果說 SimGym 是模擬顧客行為,HSTU 就是把整個商家當作一個會思考、會做決策的 agent 來建模。Shopify 用它來理解每一家商店在過去一段時間做了什麼動作、這些動作跟它的行業類別、地區、消費族群之間有什麼關聯。
這個建模層級的價值,在於它可以做反事實推論(counterfactual intervention)。帕拉欣舉了一個具體的例子:HSTU 觀察到某個商家在加拿大的銷售曲線跟模型預測的差距太大,模型會推論這個商家可能在加拿大某個設定上出了問題,例如稅率、配送選項、語言版本。系統不只能標記這個異常,還能反過來建議「如果你把這個設定改成 X,預期銷售會回到正常水準」。
這個能力的觸達方式,叫做 Shopify Pals。它是一個內部專案,會把 HSTU 算出來的反事實建議,主動推送給商家。對商家來說,這變成一個會主動找出問題的助理:你不需要去翻那些細節設定,系統發現你的加拿大銷售看起來怪怪的,就會直接告訴你哪裡可能設錯。對 Shopify 來說,這是一個讓平台價值大幅放大的動作,因為它把「商家不知道自己有問題」這層隱形虧損挖了出來。
帕拉欣還順手提到一個讓 Swyx 大笑的彩蛋:Shopify 在做不同商品類別的群集分析時,重新把 21 世紀初的一個冷門技術翻了出來,叫做中國餐館過程(Chinese Restaurant Process,CRP)。這是一種貝氏非參數方法,可以讓群集自然成長,不用事先指定數量。Swyx 反應是「我從 2001 年之後就沒看過 CRP 了!」這個小段落很有意思,因為它說明 LLM 時代的工程師工具箱,正在把更早期、被遺忘的技術重新組合進來,而不是只用最新的方法。
Liquid AI:後 SSM 的非 transformer 架構,30ms 跑完 300M 參數
訪談進到最後的技術段落,帕拉欣花了不少時間講 Liquid AI 這家公司。這是一個值得臺灣讀者認識的押注,因為它代表 Shopify 對「後 transformer 架構」的明確選擇。帕拉欣的判斷很直接:「Liquid + transformer 的混合架構,可能是我所知最好的架構,沒有之一。」這不是行銷話術,而是 Shopify 真金白銀導入後給出的評估。
要理解 Liquid AI,得從 transformer 的限制談起。Transformer 在上下文長度上是平方複雜度,文章越長、運算成本越爆炸。先前一波解方是 SSM(State Space Models,狀態空間模型)家族,最有名的是 Mamba,它把複雜度降到線性甚至次線性。但 SSM 在大規模訓練時遇到一個瓶頸:表達力(expressiveness)總是稍嫌不足,做不到 transformer 在大模型上展現的能力。
Liquid AI 做的事情,是在 SSM 之後再走一步。他們的架構不是 transformer,也不完全是 SSM,而是一種以微分方程為基礎、把方程展開成卷積運算的新型結構。帕拉欣說這套東西寫起來很麻煩、訓練起來工程複雜度很高,但成果是上下文長度次線性、模型壓得很小、表達力不輸 transformer 在同等規模的水準。對於低延遲、小模型、長上下文這個交集點上的應用,這幾乎是完美的形狀。
Shopify 拿 Liquid 用在兩個極端的工作負載上。低延遲那一端,他們用 300M 參數的 Liquid 模型跑搜尋查詢的意圖擴展,端到端延遲壓到 30 毫秒。要達成這個數字,光有 Liquid 還不夠,他們跟輝達、SentML、Liquid AI 三邊一起做底層優化,因為大多數 CUDA 程式碼根本不是為小於 30 毫秒的小模型推論設計的。高吞吐那一端,他們用 7-8B 參數的 Liquid 學生模型,從一個巨大的 teacher 模型蒸餾出來,跑商品目錄整理與 Sidekick Pulse 的隔夜批次任務。在這個規模區間,帕拉欣說 Liquid 經常勝過 Qwen,跟 Kimi 在推理任務上互有勝負。
帕拉欣特別強調 Shopify 在模型選擇上是「雜食而看實力」,他們會不斷測試每一個開源與私有模型,看誰在哪個工作負載上表現最好。Liquid 在他們內部,已經明確「從 Qwen 與 Kimi 那邊吃下了不少佔比」。這對所有評估非 transformer 架構的團隊,是一個值得收下的訊號:在某些利基上,Liquid 不是備選,而是最佳選。
我的觀察:臺灣 SaaS 該從這場押注學什麼
Shopify 這套 SimGym + HSTU + Liquid AI 的組合拳,對臺灣的 SaaS 與電商團隊有三個直接的啟發。第一個啟發是關於資料的時間性。多數臺灣 SaaS 都還在累積資料的早期階段,這是劣勢,但反過來想,每一天運作就是在加厚自己的護城河。重要的不是「現在資料夠不夠」,而是「資料的累積方式有沒有設計好」。Shopify 二十年累積的資料之所以有用,是因為他們很早就把「商家做了什麼動作、後續銷售怎麼變化」這條因果鏈紀錄得乾淨。如果你的 SaaS 紀錄的只是「使用者用了哪些功能」,那十年後這份資料還是只能告訴你功能使用率,沒辦法支撐 SimGym 這種等級的應用。
第二個啟發是「不要只用最熱的架構」。Shopify 在 transformer 一片喊聲之中押注 Liquid AI,不是因為跟風,而是因為他們有一個非常具體的工作負載需求:30 毫秒以內的延遲、小模型、長上下文,正好落在 Liquid 的甜蜜點上。這提醒臺灣的 AI 團隊,當你的應用情境很明確時,應該要去找最適合那個情境的架構,而不是預設用 transformer。Mamba、Liquid 與後續可能出現的更多非 transformer 架構,都應該被放進評估清單。
第三個啟發是關於合作生態。SimGym 跑得起來,靠的不只是 Shopify 內部團隊,還靠 Browser Base、Fireworks、Together、SentML、Liquid AI 這一票合作夥伴的客製化優化。這代表新一代 AI 應用的工程,已經從「我們自己包山包海」變成「精準找出每個層的最強夥伴」。對臺灣的 SaaS 創業者來說,這意味著要主動跟海外的推論優化公司、模型公司、瀏覽器自動化公司建立關係。閉門造車的時代過了,能不能組成一個跨公司的優化鏈,會直接影響產品最終的體驗品質。
最後一句話留給帕拉欣自己說過的那句金句:「沒有歷史資料,agent 只會照你 prompt 的去做。」對臺灣的所有 AI 創業者,這句話應該被釘在白板上。它提醒我們,當這一波 AI 的興奮過去之後,會留下來的是那些真正擁有獨家資料、又有能力把資料變成產品的玩家。模型可以買,工具可以買,提示詞可以抄,唯獨資料不能。從今天開始決定怎麼累積、累積什麼,未來十年才會有自己的 SimGym。