AI 產業動態

Shopify 的 AI 護城河：讓 PM 跑 ML 實驗，讓 AI 模擬三十年的真實顧客行為

Shopify 技術長揭露三套內部 AI 工具如何打造護城河。Tangle 用內容雜湊消除重複運算，Tangent 讓 PM 不寫程式就能跑 ML 實驗，SimGym 用數十年歷史資料模擬顧客行為達 0.7 相關性，加上 Liquid AI 實現 30 毫秒搜尋延遲。

2026 年 5 月 30 日 · 來源： Latent Space: The AI Engineer Podcast

Shopify 的 AI 護城河：讓 PM 跑 ML 實驗，讓 AI 模擬三十年的真實顧客行為

本文整理自 Latent Space: The AI Engineer Podcast 2026 年 4 月播出的單集。

{{< apple-podcast "tw/podcast/shopifys-ai-phase-transition-2026-usage-explosion-unlimited/id1674008350?i=1000763126873" >}}

三套工具各自厲害，組合起來更厲害

Shopify 技術長 Mikhail Parakhin 在介紹完公司的 AI 採用數據後，話鋒一轉，開始談他真正興奮的東西：三套內部工具的「組合效應」。Tangle 是 ML 實驗平台，Tangent 是自動研究迴圈，SimGym 是顧客行為模擬器。每一套單獨拿出來都很有用，但 Parakhin 強調，三套組合在一起產生的綜效，才是真正讓競爭對手難以複製的東西。

他的說法很到位：回溯五年前，要打造類似的系統組合，可能需要上千人的團隊，而且成本高到不切實際。現在有了 LLM 驅動的自動化，加上 Shopify 本身累積的海量電商資料，這套組合才變得可行。對其他想複製這條路的公司來說，壁壘不在任何一套工具的技術難度，而在資料量、資料品質和三套系統之間的整合深度。

Parakhin 在 2024 年從微軟加入 Shopify 之前，曾在 Yandex 擔任技術長，主導過搜尋引擎、雲端服務和語音助理等產品。他把過去在 Yandex 和微軟累積的資料平台經驗帶到了 Shopify，Tangle 的設計就直接受益於這些前幾代系統的教訓。他自稱 Tangle 是「第三代」系統，第一代是 Yandex 內部的 Ether，第二代是 Nirvana，每一代都吸收了前一代的問題再重新設計。

Tangle：用內容雜湊消滅「數位考古」

做過機器學習的人都知道那種痛苦：跑了一堆實驗，某個結果特別好，但幾個月後回頭一看，完全想不起來當初是怎麼跑出來的。Jupyter Notebook 一大堆，Python 腳本散落在各個資料夾，CSV 檔的命名規則早就忘了。Parakhin 把這種狀況叫做「數位考古」（digital archaeology），然後很直白地說：Tangle 就是為了消滅這件事而設計的。

Tangle 是 Shopify 的第三代資料處理和 ML 實驗平台。它的核心機制是基於內容的雜湊（content-based hashing）。當你執行一個任務時，系統不是看「這個任務的版本有沒有變」，而是看「這個任務的輸出有沒有變」。如果上游元件的版本號更新了，但實際輸出和之前一模一樣，系統就不會重新運算。這聽起來像小事，但在大規模資料處理中，節省的運算量非常可觀。

更有價值的是跨團隊的自動共享機制。如果你在 A 部門跑了一個資料前處理任務，而 B 部門的人在不知情的情況下也需要跑同樣的任務，Tangle 會自動偵測到輸出相同，直接共享結果。對 B 部門的人來說，實驗就像突然「跳」了一大步，因為前面的計算已經被別人做過了。Parakhin 指出，在多數組織裡，你甚至無法知道另一個部門在跑重複的任務，自然也無法衡量浪費了多少運算資源。

Tangle 的另一個關鍵設計是「開發即生產」。在傳統流程中，你先在 Notebook 裡做實驗，得到結果後再想辦法把它搬到生產環境，中間經常出問題：命名對不上、路徑變了、特徵定義不一致。Tangle 把每個元件都包裝成 CLI 呼叫加 YAML 檔案，從第一天開始就是生產等級的格式。你做完實驗，一鍵就能部署到生產環境，不用再經歷痛苦的「翻牆」過程。Tangle 已經在 GitHub 上開源，有興趣的讀者可以直接去看。

Tangent：PM 成為自動研究迴圈的頭號使用者

如果說 Tangle 是基礎設施，Tangent 就是建在上面的殺手應用。Tangent 是一個自動研究迴圈（auto-research loop），可以自動分析程式碼、組合既有元件、修改參數、跑實驗、檢視結果、再調整，不斷迭代直到達成你設定的目標。Parakhin 把它比喻為「AI 開發的 Cloud Code」，意思是你不需要理解底層的演算法細節，只要帶著領域知識和目標，就能讓系統自己爬坡優化。

最讓 Parakhin 驚喜的是使用者組成的變化。Tangent 最初是由 ML 工程師和 AI 工程師使用，但現在用量最大的居然是產品經理。他提到一位叫 Sarthak 的 PM，是整個組織裡 Tangent 的使用冠軍。原因很直觀：PM 擁有最深的領域知識和產品直覺，他們知道要優化什麼目標、知道什麼結果才有商業意義。以前這些知識必須經過 ML 工程師的翻譯才能變成實驗，現在 PM 可以直接跟系統溝通，省掉了中間人。

Andrej Karpathy 最近讓「自動研究」這個概念紅了起來，但 Parakhin 強調 Shopify 其實更早就在做類似的事。不過他也坦承，自動研究有明確的局限：它擅長找到「你沒時間做但本來就該做的明顯優化」，但不擅長做真正跳出分布的創新。他自己做過一個實驗，讓 Tangent 在一個已經被充分優化的問題上跑了好幾週，執行超過 400 個實驗，最後只有一個成功。如果是他自己來做，命中率肯定更高，但他也不可能花三年手動跑 400 個實驗。「我不需要自己做實驗，機器做了，電費買單就好。」

自動研究迴圈在 Shopify 的應用範圍已經遠超 ML 模型優化。他們用它來優化 HTML 模板的渲染效率、降低 Liquid 主題引擎的延遲（同樣的硬體，從 800 QPS 提升到 4200 QPS）、壓縮資料儲存空間。甚至有代理自動發現某張巨大的資料庫表格只是在把一組隨機 ID 映射到另一組隨機 ID，根本不需要存在。Parakhin 的結論很明確：「如果你現在還沒在自己的工作中使用自動研究的方法，你絕對是在錯過重大機會。」

SimGym：用歷史資料模擬顧客，不靠 prompt 憑空猜測

SimGym 是 Parakhin 口中的「個人得意之作」。在他剛提出這個想法時，Shopify 執行長 Toby Lütke 的第一反應是：「但代理不就是照你 prompt 說的去做嗎？」這個質疑完全合理。如果你只是用 LLM 模擬顧客行為，模擬出來的結果就只是 prompt 的鏡射，沒有真正的預測價值。

SimGym 之所以能跨過這個門檻，關鍵在於 Shopify 擁有數十年的電商歷史資料。這些資料記錄了無數商家做了什麼改變、結果對銷售產生了什麼影響。雖然這些資料很「噪」，因為現實中的變化從來不是乾淨的 A/B 測試，但透過去噪處理和協同過濾（collaborative filtering），可以提取出清楚的行為訊號。Parakhin 團隊花了將近一年的時間在校準模型，內部目標是讓模擬結果與真實「加入購物車」事件達到 0.7 的相關性。

技術上有幾個特別之處。首先，SimGym 讓代理在模擬的瀏覽器環境中實際操作，不只是分析 HTML 原始碼。這很重要，因為像「圖片放大對轉換率的影響」這種效果，從 HTML 標籤上看不出來（只是一個 size 數值的差異），但在視覺呈現上差異巨大。設計師的直覺通常是圖片放大會更吸引人，但 Parakhin 說實際測試結果往往相反，轉換率反而下降。要捕捉這種視覺層面的影響，就必須用多模態模型在真實的瀏覽器畫面上做判斷。

更進階的應用是反事實分析（counterfactual analysis）。如果一個顧客正走在某個購買旅程的半途，你在某個時間點給他一張折價券，結果會怎樣？如果不給呢？如果換個時間點給呢？SimGym 可以在顧客旅程的任何節點插入「介入」，然後往前模擬兩條不同的路徑，比較有介入和沒介入的結果差異。這遠遠超越了傳統 A/B 測試只能看平均值的能力，因為它能夠模擬「依賴過去狀態的、隨時間變化的」顧客行為軌跡。

SimGym 最初是設計給大型商家做 A/B 測試替代方案的，但 Parakhin 坦言團隊犯了一個偏誤：他們一開始只想到「比較 A 和 B 哪個更好」，沒想到多數小型商家根本連 A 和 B 都沒有，只有一個現狀，需要的是「告訴我該改什麼」。所以 SimGym 後來轉向，變成可以分析商家的現有網站，直接提出優化建議和預估的轉換率提升。他們每天的使用者人數都在增長，「付得起電費」反而成了目前最大的挑戰。

Liquid AI：30 毫秒搜尋延遲的非 Transformer 架構

在討論完三套核心工具之後，Parakhin 轉到一個技術面更硬的話題：非 Transformer 的神經網路架構。Shopify 在生產環境中使用了 Liquid AI 的模型，這是目前少數真正在商業場景中落地的非 Transformer 架構。

Transformer 是當前 AI 的主流架構，但它有一個根本性的限制：計算量隨上下文長度呈二次方增長。狀態空間模型（State Space Model, SSM）試圖解決這個問題，提供線性複雜度的替代方案，但表達能力一直不足以和 Transformer 競爭。Liquid 神經網路可以理解為「升級版的 SSM」，比 SSM 更複雜（也更難實作），但表達能力更強，而且保持了次二次方的計算效率。

Shopify 在兩個極端場景中使用 Liquid 模型。第一個是超低延遲的搜尋理解：當使用者輸入搜尋查詢時，系統需要在 30 毫秒內完成完整的查詢理解，包含同義詞展開、意圖分類、個人化推薦。他們用一個 3 億參數的 Liquid 模型達成了這個目標，同等規模的 Transformer 模型做不到這個延遲。為了達到這個速度，Shopify 和 NVIDIA、CentML 合作做了大量的 CUDA 層面優化，因為標準的推論框架並沒有針對這種超小模型、超低延遲的場景做最佳化。

第二個場景是大規模的離線批次處理。當新商品上架時，系統需要做分類、屬性提取、正規化、跨商家的商品比對。這是一個計算量極大的問題，而且 Shopify 有數十億件商品。在這個場景下不在意延遲，只在意吞吐量，Liquid 模型在相同硬體上的吞吐量優於同規模的 Transformer 模型。

Parakhin 很謹慎地定位 Liquid 的角色：它不是要取代 GPT 5.4 或 Opus 4.6 這種前沿大模型，而是作為蒸餾（distillation）的優秀目標。你用最大最好的模型訓練，然後蒸餾到 Liquid 架構的小模型上，在生產環境中用小模型高效執行。他觀察到，在 Shopify 內部，Liquid 模型正在穩步搶佔原本屬於 Qwen 等開源 Transformer 模型的工作負載。隨著 Token 使用量持續爆炸，擁有一個高效的蒸餾目標架構正在成為巨大的競爭優勢。

我的觀察：資料就是護城河

回顧 Shopify 的整套工具鏈，一個模式浮現出來：每一層的價值都建立在資料的基礎上。Tangle 的內容雜湊之所以能大量節省運算，是因為有夠多的團隊在做夠多的實驗。Tangent 的自動研究之所以有效，是因為有夠豐富的元件庫和歷史實驗結果可以學習。SimGym 之所以能真正模擬顧客行為而不只是 prompt 幻覺，是因為有數十年的真實交易資料。

這套邏輯和許多 AI 新創公司的路徑恰好相反。多數 AI 新創是先有技術、再找資料、最後希望能累積使用者。Shopify 是先有了十幾年的電商平台、海量的商家和顧客資料，然後在這個基礎上疊加 AI 工具，讓平台產生自我優化的飛輪效應。

對 Shopify 的投資者來說，這意味著 AI 不只是一個功能升級，而是一個結構性的護城河加深。每多一個商家使用 Shopify，SimGym 的模擬就更準確；每多一次 Tangle 上的實驗，下一次實驗就更有可能命中快取。這是一個用越多、越好用的正向循環，而且這個循環的起點門檻極高，因為你需要同時具備資料規模、工程能力和基礎設施投資這三個條件。Parakhin 說得很直接：沒有這些資料，代理在真空中只會做你 prompt 它做的事。