Shopify 的 AI 護城河:讓 PM 跑 ML 實驗,讓 AI 模擬三十年的真實顧客行為

Shopify 技術長揭露三套內部 AI 工具如何打造護城河。Tangle 用內容雜湊消除重複運算,Tangent 讓 PM 不寫程式就能跑 ML 實驗,SimGym 用數十年歷史資料模擬顧客行為達 0.7 相關性,加上 Liquid AI 實現 30 毫秒搜尋延遲。

Shopify 的 AI 護城河:讓 PM 跑 ML 實驗,讓 AI 模擬三十年的真實顧客行為

本文整理自 Latent Space: The AI Engineer Podcast 2026 年 4 月播出的單集。

{{< youtube RrkGoX3Cw7o >}}

{{< apple-podcast "tw/podcast/shopifys-ai-phase-transition-2026-usage-explosion-unlimited/id1674008350?i=1000763126873" >}}


三套工具各自厲害,組合起來更厲害

Shopify 技術長 Mikhail Parakhin 在介紹完公司的 AI 採用數據後,話鋒一轉,開始談他真正興奮的東西:三套內部工具的「組合效應」。Tangle 是 ML 實驗平台,Tangent 是自動研究迴圈,SimGym 是顧客行為模擬器。每一套單獨拿出來都很有用,但 Parakhin 強調,三套組合在一起產生的綜效,才是真正讓競爭對手難以複製的東西。

他的說法很到位:回溯五年前,要打造類似的系統組合,可能需要上千人的團隊,而且成本高到不切實際。現在有了 LLM 驅動的自動化,加上 Shopify 本身累積的海量電商資料,這套組合才變得可行。對其他想複製這條路的公司來說,壁壘不在任何一套工具的技術難度,而在資料量、資料品質和三套系統之間的整合深度。

Parakhin 在 2024 年從微軟加入 Shopify 之前,曾在 Yandex 擔任技術長,主導過搜尋引擎、雲端服務和語音助理等產品。他把過去在 Yandex 和微軟累積的資料平台經驗帶到了 Shopify,Tangle 的設計就直接受益於這些前幾代系統的教訓。他自稱 Tangle 是「第三代」系統,第一代是 Yandex 內部的 Ether,第二代是 Nirvana,每一代都吸收了前一代的問題再重新設計。

Tangle:用內容雜湊消滅「數位考古」

做過機器學習的人都知道那種痛苦:跑了一堆實驗,某個結果特別好,但幾個月後回頭一看,完全想不起來當初是怎麼跑出來的。Jupyter Notebook 一大堆,Python 腳本散落在各個資料夾,CSV 檔的命名規則早就忘了。Parakhin 把這種狀況叫做「數位考古」(digital archaeology),然後很直白地說:Tangle 就是為了消滅這件事而設計的。

Tangle 是 Shopify 的第三代資料處理和 ML 實驗平台。它的核心機制是基於內容的雜湊(content-based hashing)。當你執行一個任務時,系統不是看「這個任務的版本有沒有變」,而是看「這個任務的輸出有沒有變」。如果上游元件的版本號更新了,但實際輸出和之前一模一樣,系統就不會重新運算。這聽起來像小事,但在大規模資料處理中,節省的運算量非常可觀。

更有價值的是跨團隊的自動共享機制。如果你在 A 部門跑了一個資料前處理任務,而 B 部門的人在不知情的情況下也需要跑同樣的任務,Tangle 會自動偵測到輸出相同,直接共享結果。對 B 部門的人來說,實驗就像突然「跳」了一大步,因為前面的計算已經被別人做過了。Parakhin 指出,在多數組織裡,你甚至無法知道另一個部門在跑重複的任務,自然也無法衡量浪費了多少運算資源。

Tangle 的另一個關鍵設計是「開發即生產」。在傳統流程中,你先在 Notebook 裡做實驗,得到結果後再想辦法把它搬到生產環境,中間經常出問題:命名對不上、路徑變了、特徵定義不一致。Tangle 把每個元件都包裝成 CLI 呼叫加 YAML 檔案,從第一天開始就是生產等級的格式。你做完實驗,一鍵就能部署到生產環境,不用再經歷痛苦的「翻牆」過程。Tangle 已經在 GitHub 上開源,有興趣的讀者可以直接去看。

Tangent:PM 成為自動研究迴圈的頭號使用者

如果說 Tangle 是基礎設施,Tangent 就是建在上面的殺手應用。Tangent 是一個自動研究迴圈(auto-research loop),可以自動分析程式碼、組合既有元件、修改參數、跑實驗、檢視結果、再調整,不斷迭代直到達成你設定的目標。Parakhin 把它比喻為「AI 開發的 Cloud Code」,意思是你不需要理解底層的演算法細節,只要帶著領域知識和目標,就能讓系統自己爬坡優化。

最讓 Parakhin 驚喜的是使用者組成的變化。Tangent 最初是由 ML 工程師和 AI 工程師使用,但現在用量最大的居然是產品經理。他提到一位叫 Sarthak 的 PM,是整個組織裡 Tangent 的使用冠軍。原因很直觀:PM 擁有最深的領域知識和產品直覺,他們知道要優化什麼目標、知道什麼結果才有商業意義。以前這些知識必須經過 ML 工程師的翻譯才能變成實驗,現在 PM 可以直接跟系統溝通,省掉了中間人。

Andrej Karpathy 最近讓「自動研究」這個概念紅了起來,但 Parakhin 強調 Shopify 其實更早就在做類似的事。不過他也坦承,自動研究有明確的局限:它擅長找到「你沒時間做但本來就該做的明顯優化」,但不擅長做真正跳出分布的創新。他自己做過一個實驗,讓 Tangent 在一個已經被充分優化的問題上跑了好幾週,執行超過 400 個實驗,最後只有一個成功。如果是他自己來做,命中率肯定更高,但他也不可能花三年手動跑 400 個實驗。「我不需要自己做實驗,機器做了,電費買單就好。」

自動研究迴圈在 Shopify 的應用範圍已經遠超 ML 模型優化。他們用它來優化 HTML 模板的渲染效率、降低 Liquid 主題引擎的延遲(同樣的硬體,從 800 QPS 提升到 4200 QPS)、壓縮資料儲存空間。甚至有代理自動發現某張巨大的資料庫表格只是在把一組隨機 ID 映射到另一組隨機 ID,根本不需要存在。Parakhin 的結論很明確:「如果你現在還沒在自己的工作中使用自動研究的方法,你絕對是在錯過重大機會。」

SimGym:用歷史資料模擬顧客,不靠 prompt 憑空猜測

SimGym 是 Parakhin 口中的「個人得意之作」。在他剛提出這個想法時,Shopify 執行長 Toby Lütke 的第一反應是:「但代理不就是照你 prompt 說的去做嗎?」這個質疑完全合理。如果你只是用 LLM 模擬顧客行為,模擬出來的結果就只是 prompt 的鏡射,沒有真正的預測價值。

SimGym 之所以能跨過這個門檻,關鍵在於 Shopify 擁有數十年的電商歷史資料。這些資料記錄了無數商家做了什麼改變、結果對銷售產生了什麼影響。雖然這些資料很「噪」,因為現實中的變化從來不是乾淨的 A/B 測試,但透過去噪處理和協同過濾(collaborative filtering),可以提取出清楚的行為訊號。Parakhin 團隊花了將近一年的時間在校準模型,內部目標是讓模擬結果與真實「加入購物車」事件達到 0.7 的相關性。

技術上有幾個特別之處。首先,SimGym 讓代理在模擬的瀏覽器環境中實際操作,不只是分析 HTML 原始碼。這很重要,因為像「圖片放大對轉換率的影響」這種效果,從 HTML 標籤上看不出來(只是一個 size 數值的差異),但在視覺呈現上差異巨大。設計師的直覺通常是圖片放大會更吸引人,但 Parakhin 說實際測試結果往往相反,轉換率反而下降。要捕捉這種視覺層面的影響,就必須用多模態模型在真實的瀏覽器畫面上做判斷。

更進階的應用是反事實分析(counterfactual analysis)。如果一個顧客正走在某個購買旅程的半途,你在某個時間點給他一張折價券,結果會怎樣?如果不給呢?如果換個時間點給呢?SimGym 可以在顧客旅程的任何節點插入「介入」,然後往前模擬兩條不同的路徑,比較有介入和沒介入的結果差異。這遠遠超越了傳統 A/B 測試只能看平均值的能力,因為它能夠模擬「依賴過去狀態的、隨時間變化的」顧客行為軌跡。

SimGym 最初是設計給大型商家做 A/B 測試替代方案的,但 Parakhin 坦言團隊犯了一個偏誤:他們一開始只想到「比較 A 和 B 哪個更好」,沒想到多數小型商家根本連 A 和 B 都沒有,只有一個現狀,需要的是「告訴我該改什麼」。所以 SimGym 後來轉向,變成可以分析商家的現有網站,直接提出優化建議和預估的轉換率提升。他們每天的使用者人數都在增長,「付得起電費」反而成了目前最大的挑戰。

Liquid AI:30 毫秒搜尋延遲的非 Transformer 架構

在討論完三套核心工具之後,Parakhin 轉到一個技術面更硬的話題:非 Transformer 的神經網路架構。Shopify 在生產環境中使用了 Liquid AI 的模型,這是目前少數真正在商業場景中落地的非 Transformer 架構。

Transformer 是當前 AI 的主流架構,但它有一個根本性的限制:計算量隨上下文長度呈二次方增長。狀態空間模型(State Space Model, SSM)試圖解決這個問題,提供線性複雜度的替代方案,但表達能力一直不足以和 Transformer 競爭。Liquid 神經網路可以理解為「升級版的 SSM」,比 SSM 更複雜(也更難實作),但表達能力更強,而且保持了次二次方的計算效率。

Shopify 在兩個極端場景中使用 Liquid 模型。第一個是超低延遲的搜尋理解:當使用者輸入搜尋查詢時,系統需要在 30 毫秒內完成完整的查詢理解,包含同義詞展開、意圖分類、個人化推薦。他們用一個 3 億參數的 Liquid 模型達成了這個目標,同等規模的 Transformer 模型做不到這個延遲。為了達到這個速度,Shopify 和 NVIDIA、CentML 合作做了大量的 CUDA 層面優化,因為標準的推論框架並沒有針對這種超小模型、超低延遲的場景做最佳化。

第二個場景是大規模的離線批次處理。當新商品上架時,系統需要做分類、屬性提取、正規化、跨商家的商品比對。這是一個計算量極大的問題,而且 Shopify 有數十億件商品。在這個場景下不在意延遲,只在意吞吐量,Liquid 模型在相同硬體上的吞吐量優於同規模的 Transformer 模型。

Parakhin 很謹慎地定位 Liquid 的角色:它不是要取代 GPT 5.4 或 Opus 4.6 這種前沿大模型,而是作為蒸餾(distillation)的優秀目標。你用最大最好的模型訓練,然後蒸餾到 Liquid 架構的小模型上,在生產環境中用小模型高效執行。他觀察到,在 Shopify 內部,Liquid 模型正在穩步搶佔原本屬於 Qwen 等開源 Transformer 模型的工作負載。隨著 Token 使用量持續爆炸,擁有一個高效的蒸餾目標架構正在成為巨大的競爭優勢。

我的觀察:資料就是護城河

回顧 Shopify 的整套工具鏈,一個模式浮現出來:每一層的價值都建立在資料的基礎上。Tangle 的內容雜湊之所以能大量節省運算,是因為有夠多的團隊在做夠多的實驗。Tangent 的自動研究之所以有效,是因為有夠豐富的元件庫和歷史實驗結果可以學習。SimGym 之所以能真正模擬顧客行為而不只是 prompt 幻覺,是因為有數十年的真實交易資料。

這套邏輯和許多 AI 新創公司的路徑恰好相反。多數 AI 新創是先有技術、再找資料、最後希望能累積使用者。Shopify 是先有了十幾年的電商平台、海量的商家和顧客資料,然後在這個基礎上疊加 AI 工具,讓平台產生自我優化的飛輪效應。

對 Shopify 的投資者來說,這意味著 AI 不只是一個功能升級,而是一個結構性的護城河加深。每多一個商家使用 Shopify,SimGym 的模擬就更準確;每多一次 Tangle 上的實驗,下一次實驗就更有可能命中快取。這是一個用越多、越好用的正向循環,而且這個循環的起點門檻極高,因為你需要同時具備資料規模、工程能力和基礎設施投資這三個條件。Parakhin 說得很直接:沒有這些資料,代理在真空中只會做你 prompt 它做的事。