APEX:第一個衡量 AI「真正能幫你做多少事」的基準測試

學術跑分測的是 AI 能不能解奧數題,但企業主管想知道的是 AI 能不能幫我做財務分析。Mercor 開發的 APEX 基準測試首次量化了 AI 的「實際工作能力」,結果顯示 GPT-5 已能完成 64% 的知識工作任務。

APEX:第一個衡量 AI「真正能幫你做多少事」的基準測試

本文整理自《Conversations with Tyler》2026 年 1 月播出的單集。

{{< youtube zld39xD4sus >}}

{{< spotify "episode/2JMkbacFBEJSSyS9sZQ4wR" >}}

{{< apple-podcast "tw/podcast/brendan-foody-on-teaching-ai-and-the-future/id983795625?i=1000744127576" >}}


AI 跑分的斷裂

過去兩年,你大概看過無數次類似的新聞:「某某模型在 GPQA 上超越人類博士水準」「某某模型在 IMO 數學奧林匹克上拿到金牌級分數」。這些成績很炫目,但如果你是一個企業主管,你心裡可能一直有個疑問:這些跑分跟我的實際工作有什麼關係?模型能解奧數題,代表它能幫我寫合規報告嗎?模型在 PhD 等級的推理測試拿高分,代表它能幫我分析一份收購案的資料室嗎?

答案是:不一定。學術 benchmark 和真實工作之間有一道巨大的鴻溝。這正是 Mercor 的 AI Productivity Index(APEX)試圖填補的空白。APEX 的創辦初衷很簡單:與其測 AI「有多聰明」,不如測 AI「真正能做多少有經濟價值的事」。

Mercor 的創辦人布蘭登.弗迪(Brendan Foody)在《Conversations with Tyler》節目上,詳細說明了 APEX 的設計邏輯和初步發現。他和前美國財政部長賴瑞.薩默斯(Larry Summers)、哈佛法律學者凱斯.桑斯坦(Cass Sunstein)、以及數位醫學權威艾瑞克.托波(Eric Topol)合作,打造了這個全新的衡量框架。

方法論:用「專家的時間」來逼近「經濟價值」

APEX 的設計邏輯從一個核心問題出發:知識工作者的經濟價值來自他們的時間。一個麥肯錫顧問的時薪可能是 500 到 1000 美元,一個大型律所合夥人的時薪可能更高。他們花最多時間做的事,就是客戶願意付最多錢購買的服務。所以如果你想衡量 AI 的「經濟影響力」,最好的代理指標就是:AI 能不能做到這些人花最多時間做的事。

具體做法分幾個步驟。首先,在每個產業找數百位頂尖專家,對他們做詳細的時間分配調查。以管理顧問為例:他們花多少比例的時間在客戶會議、線上研究、資料分析、準備交付文件。然後在每一個工作類別中,請專家自己寫出對應的 prompt(「如果你要叫 AI 幫你做這件事,你會怎麼問它」)和 rubric(「一個好的回應應該包含什麼、達到什麼標準」)。

最終產出的是一套包含 200 個測試案例的評測,涵蓋四大核心領域:投資銀行、管理顧問、大型律所、家庭醫師。每個測試案例的難度相當於一個專家需要 1 到 8 小時才能完成的真實任務(平均 3.5 小時)。這不是選擇題,不是簡答題,而是真正的工作任務模擬。

為什麼選這些顧問?

弗迪解釋了為什麼要找薩默斯、桑斯坦、托波這些人來主導 APEX 的設計。不只是因為他們聰明(聰明的人很多),而是因為他們同時具備兩個特質:深厚的實務經驗,加上對整個產業的宏觀視野。

薩默斯不只是經濟學教授,他做過財政部長,管理過哈佛的校務基金,做過大量真實世界的經濟決策。桑斯坦不只是法學教授,他做過白宮的資訊與監管事務辦公室主任,寫過影響實際政策的法規。這種「既懂理論又有實戰」的人,才能設計出真正衡量「有經濟價值能力」的測試,而不是另一個學術象牙塔裡的 benchmark。

更具體地說,這些人能幫助回答「結構性」的問題:法律領域有哪些不同的子領域?每個子領域中,什麼樣的任務最能代表真實的工作需求?如何設計嚴謹的資料集?如何建立可信的審核流程?這些不是一般的 AI 研究人員能回答的問題,必須由深度了解各產業實際運作的人來主導。

GPT-5 得 64 分,這代表什麼?

APEX 最新的測試結果顯示,GPT-5(Thinking=High)的得分是 67%,Gemini 3 Pro 是 64.3%,Grok 4 是 63.5%。弗迪在節目中提到的數字是 GPT-5 得 64%(節目錄製時間稍早於最新排行榜更新),代表前沿模型大約能完成三分之二的「有經濟價值的知識工作」。

這個數字要怎麼解讀?弗迪自己做了一個重要的區分:64% 不代表模型「已經能取代 64% 的知識工作者」。因為在某些產業(特別是醫療),你不能有 36% 的失敗率。醫療診斷需要接近完美的正確率,就像自動駕駛一樣。但在另一些產業,64% 已經非常有用了。一份「初步的法律分析草稿」或「顧問報告的第一版」不需要完美,它可以大幅節省人類的時間,人類再負責精修和品質把關。

更重要的是趨勢。一年前的 GPT-4 在同一個測試上大約得 40%(弗迪說的是 25-30% 的年進步率)。這意味著如果進步速度持續,再過兩到三年,前沿模型很可能能完成 80-90% 的知識工作任務。到那個時候,「AI 能不能幫上忙」這個問題就不再有意義了,真正的問題會變成「你要怎麼重新設計你的工作流程來善用 AI」。

APEX-Agents:下一步是測「長時間任務」

弗迪也預告了 APEX 的下一個演進方向。現有的 APEX v1 測試的是「短時間、單一輸入輸出」的任務,模型讀一個 prompt,給一個回應,被打分數。但真實的知識工作幾乎不是這樣運作的。一個投資銀行分析師做盡職調查,需要登入多個系統、下載資料、用 Excel 建模、寫報告、跟同事討論、修改、再提交。這個流程可能持續好幾天。

APEX-Agents(2026 年 1 月推出)就是要衡量 AI 在這種「長時間、多工具、多步驟」任務上的能力。初步結果顯示,最好的模型(Gemini 3 Flash)也只拿到 24%,遠低於在標準 APEX 上的 60% 以上成績。這個落差印證了弗迪在節目中說的:模型在單一聊天視窗裡已經很強,但一旦需要「串起多個工具和步驟」,能力就大幅下降。

但弗迪對此並不悲觀。他反覆強調一個論點:一旦有了精確的衡量方式,研究人員「爬升」這些指標的速度驚人。學術界和 AI 實驗室都知道,有了好的 benchmark,就有了明確的優化目標。APEX-Agents 的存在本身就是一股推動力。他預測在 6 到 12 個月內,模型在這個維度上會出現「巨大的能力提升」。

為什麼學術機構應該把審稿意見送給 AI 公司

訪談中有一個很有趣的插曲。柯文是經濟學教授,他問弗迪:如果把頂尖經濟學期刊的審稿意見和投稿論文(匿名處理後)送給 Mercor,會不會有用?弗迪說:非常有用。

他解釋了為什麼:審稿意見本質上就是一種「衡量成功的資料」。它告訴你一篇論文哪裡有瑕疵、應該怎麼改進、什麼地方論證不夠嚴謹。這種帶有「判斷」的回饋,對模型的學習效果遠超過單純的「更多論文文本」。弗迪做了一個清楚的區分:資料有兩種。第一種是「產出資料」,模型閱讀和學習的素材。第二種是「衡量成功的資料」,包含 rubric、測試題答案、審稿意見等。第二種遠比第一種有價值,因為它讓模型能夠「練習和被批改」,而不只是「閱讀」。

那為什麼學術機構到現在還沒這麼做?弗迪的猜測有兩個原因。第一是認知問題:矽谷天天在談 eval,但學術界很多人可能還不太理解為什麼「評測」本身就是最有價值的資源。第二是恐懼:學者擔心 AI 會衝擊自己的工作、自己對經濟的貢獻能力、自己的學術地位。即使是非營利的學術機構,這種焦慮也是真實的。

我的觀察

APEX 最有價值的地方不在於它給了各模型一個排名(雖然這對企業採購決策確實有幫助),而在於它改變了我們談論 AI 能力時的語言。以前我們說「模型在 MMLU 上拿了 90 分」,但沒有人知道這跟真實工作有什麼關係。現在我們可以說「模型能完成 64% 的管理顧問日常工作」,這是一個所有人都能理解的度量。

對企業決策者來說,APEX 提供了一個更實際的決策框架。你不再需要看一堆看不懂的學術跑分來決定要用哪個模型,而是可以直接看「在我的產業、我的工作類型上,哪個模型表現最好」。這某種程度上也民主化了 AI 採購決策:你不需要懂 AI 技術,你只需要懂你自己的工作。

不過 APEX 也有其侷限。它目前只涵蓋四個知識工作領域(投銀、顧問、律所、家醫),而且每個案例都是由特定專家設計的。不同的專家可能設計出不同的測試和評分標準,這就回到了「誰的品味算數」的老問題。但至少它踏出了正確的第一步:把 AI 的能力衡量從「學術世界」拉回「真實世界」。對正在評估要不要導入 AI 工具的臺灣企業來說,這個方向比看 GPQA 分數實用多了。