AI 開發實戰

從 prompt 到 goal：AI 使用方式正在發生根本轉變

OpenAI Codex 推出 /goal 指令，讓 AI 從一問一答的聊天模式，進化為自主迴圈、自我評估的執行模式。這個被稱為「終點線合約」的新原語，正在改變我們與 AI 協作的基本邏輯。

2026 年 6 月 1 日 · 來源： The AI Daily Brief

本文整理自《The AI Daily Brief》2026 年 5 月播出的單集。

聊天機器人的瓶頸，不是模型不夠聰明

你有沒有過這種經驗：請 AI 幫你做一件稍微複雜的事，結果變成無止盡的來回對話？你給一個指令，它做一步，你看完結果再給下一個指令，它再做一步。整個過程像在跟一個很聰明但完全不會主動的實習生合作，每做完一件小事就停下來等你的下一道指示。

這就是 AI Daily Brief 主持人 NLW（Nathaniel Whittemore）所說的「一問一答典範」（turn-based paradigm）。過去幾年我們跟聊天機器人的互動方式就是這樣：給 prompt、等回應、審查結果、給回饋、再等下一次回應。這種模式在簡單任務上還行，但一旦任務需要多步驟的探索、比對、修正，效率就會急速下降。瓶頸不在模型的能力，而在人類跟模型之間的「來回延遲」。

OpenAI 的開發者 Jason Liu 曾寫了一篇關於如何最大化 Codex 使用效率的文章，提出九種互動模式，包括持久對話串（durable monothreads）、語音輸入、側邊面板即時檢視產出物、中途介入修正方向（steering）、以及遠端遙控和心跳通知。所有這些技巧的共同方向，都是試圖減少人機之間的往返延遲。但 /goal 的出現，把這件事推到了一個全新的層次：它不只是縮短延遲，而是根本改變了互動的結構。

什麼是 /goal：終點線合約

2026 年 5 月初，OpenAI Codex 團隊成員 Tebow 在推文中寫道：「/goal 可能是我們在 Codex 中推出過最具影響力的功能。好的指令從未像現在這樣有價值。」另一位開發者 Pavel Huren 則簡潔地解釋了它的核心機制：「你描述想要的結果，模型開始迴圈執行、自我評估，完成後自動停止。」

這裡的關鍵字是「迴圈」。NLW 指出，/goal 不是一個更大的 prompt，而是一種根本不同的東西。他引用 Codex 內部的說法，稱之為「終點線合約」（finish line contract）：你要定義的是「完成時什麼應該為真」、「怎麼檢驗成功」、以及「過程中什麼不能被破壞」。

如果傳統的 prompt 是一次性的指令與回應，那 /goal 啟動的是一個持續的迴圈：AI 朝著你定義的目標推進，每一步之後檢查當前的證據是否滿足終點線的定義，然後決定是繼續、宣告完成、還是因為真的卡住而停止。這個自我評估的機制，就是從「告訴 AI 該做什麼」到「告訴 AI 你希望完成什麼」的根本轉換。

前 OpenAI 共同創辦人、目前任職於 Anthropic 的卡帕西（Andrej Karpathy）也花了大量時間實驗類似的迴圈機制。他觀察到：「大型語言模型在朝特定目標迴圈執行這件事上表現得極為出色。不要告訴它該做什麼，給它成功標準，然後看著它跑。」這段話精確地捕捉了 /goal 背後的設計哲學。

寫好一個 /goal 的六大要素

既然 /goal 不是更大的 prompt，那要怎麼寫好一個 /goal？OpenAI 的開發者指南文件提出，最強的 goal 通常定義六件事情。

第一是結果（outcome），也就是工作完成時什麼應該為真。第二是驗證面（verification surface），可能是測試、基準報告、產出物、引用來源，任何能證明任務完成的可檢驗證據。第三是約束條件（constraints），指的是 AI 在工作過程中不能破壞的東西。第四是邊界（boundaries），定義 AI 可以使用哪些檔案、工具和資源。第五是迭代策略（iteration policy），也就是每次嘗試之後，AI 應該如何決定下一步該做什麼。第六是阻斷停止條件（block-stop condition），告訴 AI 什麼時候應該承認走不下去，而不是無限迴圈。

除了這六個要素之外，目標的範圍也有一個「甜蜜點」需要拿捏。NLW 稱之為「金髮女孩區間」（Goldilocks zone）。太狹窄的目標，像是「修好這一行程式碼」，無法給 AI 足夠的彈性去發現真正的問題可能在上游的相依套件裡。太寬泛的目標，像是「改善整個系統」，則無法提供具體到可以自我驗證的完成證據。理想的範圍介於兩者之間，既有明確的終點線，又保留足夠的探索空間。

產出物的定義也很關鍵。一個模糊的產出物定義，像是「幫這個功能寫文件」，AI 很難判斷自己到底完成了沒有。但如果你寫成「產出一個文件頁面，用兩個範例說明 lifecycle 指令，驗證頁面可以在本機成功建置，確認所有參考指令符合目前的 CLI 行為」，AI 就有了具體的、可檢驗的證據面。

超越寫程式：知識工作者的應用場景

雖然 /goal 最早是為程式開發設計的，處理像是效能分析、修補程式碼、資料庫遷移、重現不穩定的測試這類任務。但 NLW 認為，這個原語的價值遠不只是寫程式。他的判斷標準是：當你想要的產出不只是一個答案，而是一份稽核報告時，那就是 /goal 的好候選場景。

所謂稽核報告，指的是一份完整的紀錄：查了什麼、什麼被證實、什麼被反駁、什麼證據薄弱、什麼仍然未知。這種結構化的產出物本身就是 AI 可以用來自我評估的證據面。

在定義成功標準時，知識工作跟程式開發有一個重要差異。程式碼有測試可以跑、有基準可以量，但知識工作的成功標準往往需要使用者自己提供。你的招聘標準、供應商評分卡、編輯方針、投資盡職調查的優先事項，這些都是只有你才能定義的成功判準。NLW 建議反過來想：如果一項任務隱含著某種評分標準或成功準則，那它可能就適合用 /goal 來處理。

他列出了十個可能適合 /goal 的知識工作領域：文獻回顧、市場版圖分析、供應商評估、盡職調查、聲明稽核、政策研究、訪談綜合整理、時間線重建、試算表稽核、以及將雜亂輸入結構化的策略備忘錄。

三個具體範例

NLW 詳細展開了三個知識工作的 /goal 範例。第一個是聲明稽核：「逐一稽核這份備忘錄中的每個聲明，針對提供的來源和可靠的外部來源進行驗證。最後產出一張表格，將每個聲明標記為『已證實』、『被反駁』、『部分證實』或『未經驗證』，附上引用出處和不確定性註記。」這之所以適合 /goal，是因為 AI 做出的每個結論都可以回溯到具體證據。

第二個是市場版圖分析：「建立 X 市場的競爭版圖，以引用的公司頁面、財務報告、分析師報告、定價頁面和產品文件作為驗證來源。最後產出一張比較表格，標示信心水準，以及證據不足的缺口。」這跟一般的「幫我研究某個市場」不同之處在於，它要求的不只是資訊彙整，而是一份帶有信心水準標註的稽核型產出物。

第三個是文獻回顧：「提供一份以證據為基礎的文獻回顧，主題是 X。建立一份來源矩陣，涵蓋研究方法、樣本量、發現、限制和衝突。最後列出已確認的主題、有爭議的發現、以及開放性問題。」這種做法刻意保留衝突和分歧，而不是把所有東西壓扁成一個單一結論。

什麼時候不該用 /goal

NLW 也坦言，不是每個任務都該用 /goal。多數時候，傳統的對話模式可能就夠了。當目標夠小、一次對話就能搞定時，/goal 的迴圈架構只會增加不必要的負擔。同樣，當成功標準無法被清楚定義到 AI 可以自我評估的程度時，/goal 也不會是好選擇。

他舉了一個簡單的區分範例：「依據這個評分標準審查這五份申請書，引用證據，建議面試問題」，這是一個適合用 prompt 的任務，因為輸入量小、標準明確、一次比較就能完成。但如果同樣的評分標準要持續應用在陸續收到的申請書上，需要反覆提取證據、檢查一致性、重新審視邊界案例、標記缺漏資訊、並且持續更新一份文件，那就進入了 /goal 的領域。

開發者兼評論者 Sean Wang（Swix）提出了一個有用的框架：AI 互動存在一個自主程度的光譜。從 /skill（預設 prompt）到 /plan（人類精煉過的輸入）到 /goal（AI 自我評估的產出），每一步都把更多的判斷授權給模型。但光譜是光譜，不同的工作類型適合不同的位置，沒有一種方法適用於所有情境。

我的觀察：管理 AI 就像管理人

/goal 最讓我覺得有意思的地方在於，它把「怎麼用 AI」這件事，推向了一個跟「怎麼管理人」非常相似的方向。好的主管不會告訴下屬每一步該做什麼，而是定義清楚「完成的樣子長什麼樣」，然後給予足夠的自主空間。/goal 本質上就是在做這件事。

Pavel Huren 說得精準：「贏的技能是工程化你的意圖。為什麼這件事重要、策略脈絡是什麼、成功如何被衡量，讓 AI agent 能做出更好的自主決策。」這聽起來跟管理學教的東西幾乎一模一樣。我們花了幾十年學怎麼把模糊的目標拆解成可衡量的成果，現在這套技能的應用對象從人變成了 AI。

這也意味著，未來用好 AI 的門檻可能不是技術門檻，而是思考門檻。你能不能把一個模糊的需求，拆解成有明確終點線、可驗證的成功標準、清楚的邊界和約束條件？如果能，你就能讓 AI 自己跑完全程。如果不能，你就只能繼續一步步帶著它走。