AI 技術前沿

APEX：第一個衡量 AI「真正能幫你做多少事」的基準測試

學術跑分測的是 AI 能不能解奧數題，但企業主管想知道的是 AI 能不能幫我做財務分析。Mercor 開發的 APEX 基準測試首次量化了 AI 的「實際工作能力」，結果顯示 GPT-5 已能完成 64% 的知識工作任務。

2026 年 5 月 17 日 · 來源： Conversations with Tyler

本文整理自《Conversations with Tyler》2026 年 1 月播出的單集。

{{< apple-podcast "tw/podcast/brendan-foody-on-teaching-ai-and-the-future/id983795625?i=1000744127576" >}}

AI 跑分的斷裂

過去兩年，你大概看過無數次類似的新聞：「某某模型在 GPQA 上超越人類博士水準」「某某模型在 IMO 數學奧林匹克上拿到金牌級分數」。這些成績很炫目，但如果你是一個企業主管，你心裡可能一直有個疑問：這些跑分跟我的實際工作有什麼關係？模型能解奧數題，代表它能幫我寫合規報告嗎？模型在 PhD 等級的推理測試拿高分，代表它能幫我分析一份收購案的資料室嗎？

答案是：不一定。學術 benchmark 和真實工作之間有一道巨大的鴻溝。這正是 Mercor 的 AI Productivity Index（APEX）試圖填補的空白。APEX 的創辦初衷很簡單：與其測 AI「有多聰明」，不如測 AI「真正能做多少有經濟價值的事」。

Mercor 的創辦人布蘭登．弗迪（Brendan Foody）在《Conversations with Tyler》節目上，詳細說明了 APEX 的設計邏輯和初步發現。他和前美國財政部長賴瑞．薩默斯（Larry Summers）、哈佛法律學者凱斯．桑斯坦（Cass Sunstein）、以及數位醫學權威艾瑞克．托波（Eric Topol）合作，打造了這個全新的衡量框架。

方法論：用「專家的時間」來逼近「經濟價值」

APEX 的設計邏輯從一個核心問題出發：知識工作者的經濟價值來自他們的時間。一個麥肯錫顧問的時薪可能是 500 到 1000 美元，一個大型律所合夥人的時薪可能更高。他們花最多時間做的事，就是客戶願意付最多錢購買的服務。所以如果你想衡量 AI 的「經濟影響力」，最好的代理指標就是：AI 能不能做到這些人花最多時間做的事。

具體做法分幾個步驟。首先，在每個產業找數百位頂尖專家，對他們做詳細的時間分配調查。以管理顧問為例：他們花多少比例的時間在客戶會議、線上研究、資料分析、準備交付文件。然後在每一個工作類別中，請專家自己寫出對應的 prompt（「如果你要叫 AI 幫你做這件事，你會怎麼問它」）和 rubric（「一個好的回應應該包含什麼、達到什麼標準」）。

最終產出的是一套包含 200 個測試案例的評測，涵蓋四大核心領域：投資銀行、管理顧問、大型律所、家庭醫師。每個測試案例的難度相當於一個專家需要 1 到 8 小時才能完成的真實任務（平均 3.5 小時）。這不是選擇題，不是簡答題，而是真正的工作任務模擬。

為什麼選這些顧問？

弗迪解釋了為什麼要找薩默斯、桑斯坦、托波這些人來主導 APEX 的設計。不只是因為他們聰明（聰明的人很多），而是因為他們同時具備兩個特質：深厚的實務經驗，加上對整個產業的宏觀視野。

薩默斯不只是經濟學教授，他做過財政部長，管理過哈佛的校務基金，做過大量真實世界的經濟決策。桑斯坦不只是法學教授，他做過白宮的資訊與監管事務辦公室主任，寫過影響實際政策的法規。這種「既懂理論又有實戰」的人，才能設計出真正衡量「有經濟價值能力」的測試，而不是另一個學術象牙塔裡的 benchmark。

更具體地說，這些人能幫助回答「結構性」的問題：法律領域有哪些不同的子領域？每個子領域中，什麼樣的任務最能代表真實的工作需求？如何設計嚴謹的資料集？如何建立可信的審核流程？這些不是一般的 AI 研究人員能回答的問題，必須由深度了解各產業實際運作的人來主導。

GPT-5 得 64 分，這代表什麼？

APEX 最新的測試結果顯示，GPT-5（Thinking=High）的得分是 67%，Gemini 3 Pro 是 64.3%，Grok 4 是 63.5%。弗迪在節目中提到的數字是 GPT-5 得 64%（節目錄製時間稍早於最新排行榜更新），代表前沿模型大約能完成三分之二的「有經濟價值的知識工作」。

這個數字要怎麼解讀？弗迪自己做了一個重要的區分：64% 不代表模型「已經能取代 64% 的知識工作者」。因為在某些產業（特別是醫療），你不能有 36% 的失敗率。醫療診斷需要接近完美的正確率，就像自動駕駛一樣。但在另一些產業，64% 已經非常有用了。一份「初步的法律分析草稿」或「顧問報告的第一版」不需要完美，它可以大幅節省人類的時間，人類再負責精修和品質把關。

更重要的是趨勢。一年前的 GPT-4 在同一個測試上大約得 40%（弗迪說的是 25-30% 的年進步率）。這意味著如果進步速度持續，再過兩到三年，前沿模型很可能能完成 80-90% 的知識工作任務。到那個時候，「AI 能不能幫上忙」這個問題就不再有意義了，真正的問題會變成「你要怎麼重新設計你的工作流程來善用 AI」。

APEX-Agents：下一步是測「長時間任務」

弗迪也預告了 APEX 的下一個演進方向。現有的 APEX v1 測試的是「短時間、單一輸入輸出」的任務，模型讀一個 prompt，給一個回應，被打分數。但真實的知識工作幾乎不是這樣運作的。一個投資銀行分析師做盡職調查，需要登入多個系統、下載資料、用 Excel 建模、寫報告、跟同事討論、修改、再提交。這個流程可能持續好幾天。

APEX-Agents（2026 年 1 月推出）就是要衡量 AI 在這種「長時間、多工具、多步驟」任務上的能力。初步結果顯示，最好的模型（Gemini 3 Flash）也只拿到 24%，遠低於在標準 APEX 上的 60% 以上成績。這個落差印證了弗迪在節目中說的：模型在單一聊天視窗裡已經很強，但一旦需要「串起多個工具和步驟」，能力就大幅下降。

但弗迪對此並不悲觀。他反覆強調一個論點：一旦有了精確的衡量方式，研究人員「爬升」這些指標的速度驚人。學術界和 AI 實驗室都知道，有了好的 benchmark，就有了明確的優化目標。APEX-Agents 的存在本身就是一股推動力。他預測在 6 到 12 個月內，模型在這個維度上會出現「巨大的能力提升」。

為什麼學術機構應該把審稿意見送給 AI 公司

訪談中有一個很有趣的插曲。柯文是經濟學教授，他問弗迪：如果把頂尖經濟學期刊的審稿意見和投稿論文（匿名處理後）送給 Mercor，會不會有用？弗迪說：非常有用。

他解釋了為什麼：審稿意見本質上就是一種「衡量成功的資料」。它告訴你一篇論文哪裡有瑕疵、應該怎麼改進、什麼地方論證不夠嚴謹。這種帶有「判斷」的回饋，對模型的學習效果遠超過單純的「更多論文文本」。弗迪做了一個清楚的區分：資料有兩種。第一種是「產出資料」，模型閱讀和學習的素材。第二種是「衡量成功的資料」，包含 rubric、測試題答案、審稿意見等。第二種遠比第一種有價值，因為它讓模型能夠「練習和被批改」，而不只是「閱讀」。

那為什麼學術機構到現在還沒這麼做？弗迪的猜測有兩個原因。第一是認知問題：矽谷天天在談 eval，但學術界很多人可能還不太理解為什麼「評測」本身就是最有價值的資源。第二是恐懼：學者擔心 AI 會衝擊自己的工作、自己對經濟的貢獻能力、自己的學術地位。即使是非營利的學術機構，這種焦慮也是真實的。

我的觀察

APEX 最有價值的地方不在於它給了各模型一個排名（雖然這對企業採購決策確實有幫助），而在於它改變了我們談論 AI 能力時的語言。以前我們說「模型在 MMLU 上拿了 90 分」，但沒有人知道這跟真實工作有什麼關係。現在我們可以說「模型能完成 64% 的管理顧問日常工作」，這是一個所有人都能理解的度量。

對企業決策者來說，APEX 提供了一個更實際的決策框架。你不再需要看一堆看不懂的學術跑分來決定要用哪個模型，而是可以直接看「在我的產業、我的工作類型上，哪個模型表現最好」。這某種程度上也民主化了 AI 採購決策：你不需要懂 AI 技術，你只需要懂你自己的工作。

不過 APEX 也有其侷限。它目前只涵蓋四個知識工作領域（投銀、顧問、律所、家醫），而且每個案例都是由特定專家設計的。不同的專家可能設計出不同的測試和評分標準，這就回到了「誰的品味算數」的老問題。但至少它踏出了正確的第一步：把 AI 的能力衡量從「學術世界」拉回「真實世界」。對正在評估要不要導入 AI 工具的臺灣企業來說，這個方向比看 GPQA 分數實用多了。