AI 技術前沿

別再訓練 AI 按按鈕了：Browser Use 創辦人認為瀏覽器代理人的未來不在 UI

Browser Use 創辦人穆勒認為，目前所有 AI 實驗室都在教模型精準點擊螢幕座標，但這只是過渡階段。真正的未來是建立一個涵蓋所有網路操作的索引，讓 AI 代理人跳過使用者介面，直接跟伺服器對話。

2026 年 5 月 17 日 · 來源： Open Source Startup Podcast E192

別再訓練 AI 按按鈕了：Browser Use 創辦人認為瀏覽器代理人的未來不在 UI

本文整理自《Open Source Startup Podcast》2026 年 2 月播出的單集。收聽完整節目：Spotify ｜ Apple Podcast

所有人都在教 AI 按按鈕，但這條路對嗎？

如果你打開 Anthropic 的 Claude、Google 的 Gemini、或是 OpenAI 的 Operator，它們操作瀏覽器的方式本質上是一樣的：看螢幕截圖，辨識元素位置，然後模擬人類去點擊座標。這跟一個人坐在電腦前，用滑鼠和鍵盤操作網頁的邏輯完全相同，只是把人換成了 AI。

Browser Use 創辦人暨 CEO 穆勒（Magnus Müller）認為這條路走錯了。他在 Open Source Startup Podcast 上拋出一個大膽的觀點：教 AI 精準點擊座標只是一個過渡階段，就像我們曾經用馬車的思維去設計第一代汽車一樣。真正的未來，是讓 AI 代理人完全跳過使用者介面，直接跟網站底層的伺服器溝通。

這不是學術上的空想。穆勒帶領一個 8 人團隊打造了目前 GitHub 上最受歡迎的 AI 瀏覽器自動化工具（近 79,000 顆星星），他每天都在面對座標點擊方案的各種極限。他的判斷來自實戰經驗，而非理論推演。

座標點擊的根本問題：又慢又脆弱

目前的瀏覽器代理人運作方式是這樣的：AI 模型接收一張螢幕截圖（或 HTML 結構），決定要對哪個座標執行什麼動作（點擊、輸入、滾動），然後等待頁面更新，再拍一張新的截圖，重複這個循環。一個簡單的表單填寫，可能要經歷十幾個來回。

這個方案的問題不只是慢。穆勒觀察到幾個結構性的弱點。首先，每一步都有失敗的可能。AI 可能點錯位置、可能遇到彈出視窗遮住按鈕、可能因為網頁還沒載入完就急著操作。當你串連十個步驟，即使每一步成功率有 95%，整體流程的成功率也只剩 60%。

其次，速度是硬傷。每個步驟之間都需要等待模型推理和頁面渲染，開發者在迭代的時候往往要等五到十秒才能看到下一步。穆勒的原話是：「你坐在那邊等，看著代理人慢吞吞地點按鈕，明明你自己做只要兩秒，但你必須等它想五秒鐘才能點下去。」這種體驗直接影響開發者的耐心和產品的可用性。

最後，重複執行的一致性很差。同樣的指令、同樣的網頁，AI 代理人兩次執行的路徑可能完全不同。它可能第一次走了最短路徑，第二次卻繞了一大圈。這種不確定性讓企業客戶無法信任它，因為生產環境需要的是「每次都做一樣的事」的可靠性。

轉化為程式問題：Browser Use 的中間解法

在等待「終極方案」成熟之前，穆勒的團隊找到了一個聰明的中間路線：把瀏覽器操作轉化為程式碼生成問題。

具體來說，AI 代理人第一次執行任務時，仍然用傳統的截圖加座標方式去探索網站。但探索的目的不是完成任務本身，而是生成一段可以重複執行的程式碼。一旦程式碼通過驗證，後續的重複執行就不再需要 AI 即時判斷，直接跑程式碼就好。如果某天網站改版導致程式碼失效，代理人再啟動一次探索，重新生成新的程式碼。

穆勒解釋這個思路背後的洞察：現在的大型語言模型最擅長什麼？寫程式碼。ReMotion（一個用程式碼製作影片的工具）的爆紅已經證明了這一點，AI 用程式碼做出了沒有人預期到的創意影片。同樣的邏輯放到瀏覽器上：與其讓 AI 每次都用「人類的方式」跟網頁互動，不如讓它用「工程師的方式」直接生成操作腳本。把問題轉化成 AI 最擅長的形式，結果自然更可靠、更快、更可預測。

這個設計直接解決了企業客戶最在意的問題：可重複性。傳統的 Playwright 腳本可以重複執行，但寫起來痛苦、維護成本高。AI 代理人用起來簡單，但不可重複。Browser Use 的方案結合了兩者的優點：AI 負責生成，程式碼負責執行。

終極願景：索引網路上的每一個動作

穆勒的 hot take 更進一步。他認為，即使是「生成程式碼來操作瀏覽器」也只是過渡方案。終極目標是建立一個涵蓋整個網際網路的「動作索引」。

概念是這樣的：Google 索引了網路上所有的「內容」（文字、圖片、影片）。穆勒想索引的是所有的「動作」（發訊息、填表單、下載檔案、下單購買）。當這個索引建立起來之後，AI 代理人就不需要打開瀏覽器、載入頁面、找到按鈕再點擊。它只要呼叫一個工具，說「幫我發一則訊息給這個人，內容是這些」，然後 Browser Use 的系統就直接跟網站的 HTTP 層溝通，完成操作。

這等於把網路上每一個沒有公開 API 的服務，都變成有 API 的服務。不是透過逆向工程每一個網站（那樣不可擴展），而是透過 AI 代理人的探索和學習，自動建立起每個操作的最佳路徑，然後快取起來供後續使用。

穆勒承認這「非常、非常難」，但他認為一旦做到，代理人的能力會提升百倍。不用等頁面載入、不用處理彈出視窗、不用擔心座標偏移，直接跟伺服器對話。速度從秒級變成毫秒級，可靠性從 60% 跳到接近 100%。

下一步：不等你開口的主動式代理人

穆勒的另一個預測是關於代理人的「主動性」。他認為目前所有代理人的最大瓶頸不是技術能力，而是「需要人類先開口」。

他舉了自己的例子：以 Opus 4.5 的能力，他幾乎可以用自然語言完成任何瀏覽器操作。分析資料庫、發信給客戶、抓取競品資訊，全都可以靠一句 prompt 啟動。但問題是，他還是得自己打那句 prompt。而人的精力和注意力是有限的，很多可以自動化的事情根本不會想到要去自動化。

真正的突破會在代理人變得「主動」的時候發生。想像一個代理人不是等你下指令，而是自己觀察你的工作流程，然後主動告訴你：「我發現你的使用者留存率這週下降了 5%，我已經分析了原因並送了一個 PR，預計能改善這個問題。」或者：「你上週聯繫過的那三個潛在客戶都還沒回信，我幫你寫了跟進訊息，要不要發出去？」

穆勒認為，這就是為什麼 Claude 的 Bot 功能引起這麼多關注。一個隨時在線、主動觀察、不需要你開口就能行動的代理人，跟一個被動等待指令的工具，帶來的價值完全不同。前者會根本改變人和軟體之間的關係。

我的觀察

穆勒提出的「跳過 UI 直接跟伺服器對話」，聽起來很像早年 IFTTT 和 Zapier 想做的事情，只是當時是靠人工對接每一個服務的 API。差別在於，AI 代理人有能力自己去「發現」服務的溝通方式，不需要每個網站都提供官方 API 文件。這是一個重要的範式轉移：從「平台主動開放」變成「代理人主動探索」。

但我也認為這條路上有一個穆勒沒有提到的巨大障礙：網站營運者不會坐視不管。當代理人開始繞過 UI 直接跟後端溝通，等於繞過了廣告展示、繞過了使用者體驗設計、繞過了平台想要你看到的一切。這會觸發新一輪的攻防戰，就像搜尋引擎和 SEO 的關係一樣。未來我們很可能會看到「anti-agent」技術的興起，而代理伺服器成本居高不下正是這個趨勢的早期信號。

我自己每天用 Claude Code 做各種自動化，最深的感受是穆勒說的那句：「目前唯一的瓶頸是我還得自己打 prompt。」這聽起來像是小問題，但它其實是一個巨大的認知負擔。你必須先意識到某件事可以自動化，然後把需求翻譯成精確的指令，這本身就是一種勞動。如果代理人能做到真正的主動式運作，那它帶來的不只是效率提升，而是把人類從「想到要做什麼」這個最耗能的認知步驟中解放出來。這可能是 AI 代理人真正改變工作方式的轉折點。