AI 技術前沿

AI 的品味難題：為什麼前沿實驗室要花大錢請詩人打分數？

教 AI 做數學有標準答案，但教 AI 寫詩呢？Mercor 創辦人與經濟學家 Tyler Cowen 的對話，揭露了 AI 訓練中最困難的問題：如何把人類的主觀品味變成模型可以學習的訊號。

2026 年 5 月 17 日 · 來源： Conversations with Tyler

本文整理自《Conversations with Tyler》2026 年 1 月播出的單集。

{{< apple-podcast "tw/podcast/brendan-foody-on-teaching-ai-and-the-future/id983795625?i=1000744127576" >}}

150 美元時薪的詩人在做什麼

Mercor 這家估值百億美元的 AI 公司，付詩人每小時 150 美元。不是請他們寫詩，而是請他們設計「評分表」。具體來說，這些詩人要做的是：當 AI 模型嘗試寫一首詩時，判斷這首詩好不好，然後把「為什麼好」和「為什麼不好」的標準寫成一套系統化的 rubric（評分標準）。

這聽起來像是一份奇怪的工作，但它觸及了當前 AI 發展中最困難的核心問題之一：在客觀領域（數學、程式碼、事實查核），我們可以直接比對答案來衡量 AI 的表現。但在主觀領域（詩歌、法律論述、顧問建議），什麼算「好」本身就沒有標準答案。然而 AI 的學習機制需要一個明確的訊號來告訴它「你做對了」還是「你做錯了」。沒有這個訊號，模型就無法改進。

Mercor 的 22 歲創辦人布蘭登．弗迪（Brendan Foody）在經濟學家泰勒．柯文（Tyler Cowen）的 Podcast 上，深入探討了這個問題。他們的對話碰觸到了 AI 訓練中一個哲學層面的矛盾：如果「品味」本質上無法被系統化，那我們要怎麼教 AI 學會品味？

Rubric：把品味壓縮成規則

弗迪描述了 Mercor 目前的做法：請領域專家設計 rubric，就像大學教授設計論文評分標準一樣。以詩歌為例，一個 rubric 可能長這樣：如果詩作喚起了某個特定意象，加分；如果使用了某種令人驚喜的修辭手法，加分；如果風格符合特定調性，加分；如果包含了某些不恰當的表達，扣分。模型生成大量的詩作嘗試，每一次嘗試都根據 rubric 被評分，然後模型從高分的嘗試中學習什麼是「好」。

這個方法在很多領域運作得不錯。在法律領域，你可以定義一份好的法律備忘錄應該涵蓋哪些爭點、引用哪些判例、以什麼結構呈現論述。在財務分析領域，你可以定義一份好的盡職調查報告應該檢視哪些指標、做出什麼樣的風險評估。這些 rubric 越精確，模型學習的效果就越好。

但弗迪自己也承認，詩歌是特別困難的領域。法律備忘錄有一個「相對明確範圍的 prompt」，你大概可以為所有學生的作業設計一套通用的評分標準。但詩歌的可能性空間幾乎是無限的，要為所有可能的詩歌創作設計一套完整的 rubric，本身就是一項近乎不可能的任務。

康德的幽靈：品味能不能被寫成規則？

這時候，柯文拋出了一個哲學炸彈。他引用了康德（Immanuel Kant）在《判斷力批判》中的核心論點：品味的本質就是「無法被規則所捕捉」的東西。如果你想要的資料是 rubric，而品味按定義就是 rubric 無法捕捉的那個東西，那你豈不是在追求一個不可能的目標？

弗迪的回答很務實。他說，如果品味真的完全無法用 rubric 捕捉，還有另一種方法：RLHF（Reinforcement Learning from Human Feedback，人類回饋強化學習）。做法是讓模型同時產生兩個回應，然後請有品味的人選擇哪一個比較好，不需要解釋為什麼。做很多很多次之後，模型就能從這些偏好選擇中學習到「什麼是好的」，即使沒有人能把「為什麼好」寫成明確的規則。

這是一個很精妙的迴避。RLHF 不要求你能說清楚什麼是好品味，它只要求你能在兩個選項之間做出判斷。這大幅降低了對「系統化品味」的要求。你不需要寫出一套完整的美學理論，你只需要在 A 和 B 之間反覆選擇，模型自己會從你的選擇模式中萃取出某種隱性的品味。

要聽誰的？專家共識 vs. 大眾偏好

但問題還沒完。柯文繼續追問：你的詩人評分者之間意見不一致怎麼辦？弗迪說，一定程度的分歧其實是好事。如果所有評分者完全一致，你可能只是在捕捉主流品味，而忽略了各種邊緣情境和非主流但有價值的表達方式。適度的分歧幫助模型學會更完整的「品味光譜」。

這裡引出了另一個更深的問題：AI 到底該學誰的品味？柯文提到了一些研究：讓一般人評價 AI 生成的詩和人類寫的詩，一般人常常更喜歡 AI 的版本。但「有品味」的詩歌專家可能會說那些 AI 詩根本不夠好。那 AI 應該學哪一邊？

弗迪承認這裡沒有標準答案。不同的 AI 實驗室、不同的研究團隊會走不同的路線，這會決定最終產品的「感覺」和它能達成的效果。有的可能偏向大眾口味（讓最多使用者滿意），有的可能偏向專家標準（真正推動藝術邊界）。

柯文則提出了一個更激進的想法：如果歷史上最好的詩人都活在很久以前（莎士比亞、彌爾頓、華茲華斯、里爾克），那我們為什麼要讓當代詩人來定義「好詩」的標準？也許 AI 不應該學習現代品味，而應該嘗試逆向工程古典大師的美學。弗迪的回應是，在足夠長的時間軸上，模型最終會學會「每個時代、每個流派」的品味，然後根據每個使用者的個人偏好來客製化輸出。

有些知識沒有被寫下來

法律是另一個品味高度重要的領域。弗迪觀察到，法律領域有很多「對的做法」並沒有被明確寫在任何教科書或判例彙編中。它存在於資深律師的腦袋裡，是他們幾十年執業經驗累積出來的直覺。這些隱性知識（tacit knowledge）對模型來說是極其難以學習的，因為它既不在預訓練的網路文本中，也沒辦法輕易地轉化成 rubric 或偏好選擇。

這就是為什麼弗迪認為「人類的最後 25%」會持續很久。模型可以很快學會那些已經被系統化、文件化的 75% 知識。但最後那 25%，那些存在於少數頂尖專家腦中、無法用語言完整表達的判斷力，將會是人類最持久的優勢。他判斷，要讓模型在法律領域達到「頂尖專家很難找到錯誤」的水準，大約還需要兩到三年。柯文更樂觀，他覺得六個月到一年。

不過兩人都同意一個前提：衡量模型能力的「測試」本身就是最有價值的資產。弗迪反覆說：只要有好的 eval（評測），研究人員爬升那些指標的速度驚人。所以瓶頸不是「如何讓模型更聰明」，而是「如何定義什麼叫做聰明」。這又回到了品味的問題：定義什麼是「好的法律回應」本身就需要品味，而這個品味不在任何資料集裡。

兩種資料，價值天差地別

弗迪在訪談中做了一個很有啟發性的區分：AI 訓練需要的資料有兩種。第一種是「產出資料」（output data），就是模型閱讀和學習的素材，像是教科書、論文、網頁內容。第二種是「衡量成功的資料」（evaluation data），包含 rubric、帶有標準答案的測試題、程式碼的單元測試等。

第二種資料遠比第一種更有價值。有了好的 evaluation data，模型可以嘗試無數次，每次都被評分，然後從中學習。沒有這種資料，模型只能「讀」但不能「練」。這就像一個學生如果只有教科書但沒有考試和批改，他永遠不知道自己學得好不好。

這也解釋了弗迪為什麼呼籲學術機構把論文審稿意見（referee reports）送給 AI 公司。審稿意見本質上就是一種 rubric：它告訴你一篇論文哪裡好、哪裡有問題、應該如何改進。這種「帶有判斷的回饋」對模型的學習效果遠超過單純的「更多論文文本」。弗迪說，深度領域專家對 AI 進步最大的貢獻不是提供更多資料，而是「定義 eval」。

我的觀察

這場對話最有意思的地方，不在於弗迪的商業敘事（雖然百億估值很吸引人），而在於它揭示了 AI 發展當前真正的瓶頸：不是算力、不是資料量、不是演算法突破，而是「我們能不能把人類的品味和判斷力轉化成模型可以學習的形式」。

這個瓶頸也解釋了一個看似矛盾的現象：AI 在客觀任務上已經超越人類（下棋、算數、查資料），但在需要「品味」的任務上仍然讓人覺得差了點什麼。不是因為模型不夠聰明，而是因為我們還沒找到一個好的方法，把「什麼是好品味」這件事翻譯成模型能理解的語言。

對正在使用 AI 工具的人來說，這裡有一個實際的啟示：你給 AI 的 prompt 品質，本質上就是一種迷你版的 rubric。你越能清楚地定義「什麼是好的輸出」，AI 就越能給你好的結果。這不是技術問題，而是品味問題。那些在 AI 時代仍然不可取代的人，很可能就是那些能把「好」定義得最清楚的人。