AI 的品味難題:為什麼前沿實驗室要花大錢請詩人打分數?

教 AI 做數學有標準答案,但教 AI 寫詩呢?Mercor 創辦人與經濟學家 Tyler Cowen 的對話,揭露了 AI 訓練中最困難的問題:如何把人類的主觀品味變成模型可以學習的訊號。

AI 的品味難題:為什麼前沿實驗室要花大錢請詩人打分數?

本文整理自《Conversations with Tyler》2026 年 1 月播出的單集。

{{< youtube zld39xD4sus >}}

{{< spotify "episode/2JMkbacFBEJSSyS9sZQ4wR" >}}

{{< apple-podcast "tw/podcast/brendan-foody-on-teaching-ai-and-the-future/id983795625?i=1000744127576" >}}


150 美元時薪的詩人在做什麼

Mercor 這家估值百億美元的 AI 公司,付詩人每小時 150 美元。不是請他們寫詩,而是請他們設計「評分表」。具體來說,這些詩人要做的是:當 AI 模型嘗試寫一首詩時,判斷這首詩好不好,然後把「為什麼好」和「為什麼不好」的標準寫成一套系統化的 rubric(評分標準)。

這聽起來像是一份奇怪的工作,但它觸及了當前 AI 發展中最困難的核心問題之一:在客觀領域(數學、程式碼、事實查核),我們可以直接比對答案來衡量 AI 的表現。但在主觀領域(詩歌、法律論述、顧問建議),什麼算「好」本身就沒有標準答案。然而 AI 的學習機制需要一個明確的訊號來告訴它「你做對了」還是「你做錯了」。沒有這個訊號,模型就無法改進。

Mercor 的 22 歲創辦人布蘭登.弗迪(Brendan Foody)在經濟學家泰勒.柯文(Tyler Cowen)的 Podcast 上,深入探討了這個問題。他們的對話碰觸到了 AI 訓練中一個哲學層面的矛盾:如果「品味」本質上無法被系統化,那我們要怎麼教 AI 學會品味?

Rubric:把品味壓縮成規則

弗迪描述了 Mercor 目前的做法:請領域專家設計 rubric,就像大學教授設計論文評分標準一樣。以詩歌為例,一個 rubric 可能長這樣:如果詩作喚起了某個特定意象,加分;如果使用了某種令人驚喜的修辭手法,加分;如果風格符合特定調性,加分;如果包含了某些不恰當的表達,扣分。模型生成大量的詩作嘗試,每一次嘗試都根據 rubric 被評分,然後模型從高分的嘗試中學習什麼是「好」。

這個方法在很多領域運作得不錯。在法律領域,你可以定義一份好的法律備忘錄應該涵蓋哪些爭點、引用哪些判例、以什麼結構呈現論述。在財務分析領域,你可以定義一份好的盡職調查報告應該檢視哪些指標、做出什麼樣的風險評估。這些 rubric 越精確,模型學習的效果就越好。

但弗迪自己也承認,詩歌是特別困難的領域。法律備忘錄有一個「相對明確範圍的 prompt」,你大概可以為所有學生的作業設計一套通用的評分標準。但詩歌的可能性空間幾乎是無限的,要為所有可能的詩歌創作設計一套完整的 rubric,本身就是一項近乎不可能的任務。

康德的幽靈:品味能不能被寫成規則?

這時候,柯文拋出了一個哲學炸彈。他引用了康德(Immanuel Kant)在《判斷力批判》中的核心論點:品味的本質就是「無法被規則所捕捉」的東西。如果你想要的資料是 rubric,而品味按定義就是 rubric 無法捕捉的那個東西,那你豈不是在追求一個不可能的目標?

弗迪的回答很務實。他說,如果品味真的完全無法用 rubric 捕捉,還有另一種方法:RLHF(Reinforcement Learning from Human Feedback,人類回饋強化學習)。做法是讓模型同時產生兩個回應,然後請有品味的人選擇哪一個比較好,不需要解釋為什麼。做很多很多次之後,模型就能從這些偏好選擇中學習到「什麼是好的」,即使沒有人能把「為什麼好」寫成明確的規則。

這是一個很精妙的迴避。RLHF 不要求你能說清楚什麼是好品味,它只要求你能在兩個選項之間做出判斷。這大幅降低了對「系統化品味」的要求。你不需要寫出一套完整的美學理論,你只需要在 A 和 B 之間反覆選擇,模型自己會從你的選擇模式中萃取出某種隱性的品味。

要聽誰的?專家共識 vs. 大眾偏好

但問題還沒完。柯文繼續追問:你的詩人評分者之間意見不一致怎麼辦?弗迪說,一定程度的分歧其實是好事。如果所有評分者完全一致,你可能只是在捕捉主流品味,而忽略了各種邊緣情境和非主流但有價值的表達方式。適度的分歧幫助模型學會更完整的「品味光譜」。

這裡引出了另一個更深的問題:AI 到底該學誰的品味?柯文提到了一些研究:讓一般人評價 AI 生成的詩和人類寫的詩,一般人常常更喜歡 AI 的版本。但「有品味」的詩歌專家可能會說那些 AI 詩根本不夠好。那 AI 應該學哪一邊?

弗迪承認這裡沒有標準答案。不同的 AI 實驗室、不同的研究團隊會走不同的路線,這會決定最終產品的「感覺」和它能達成的效果。有的可能偏向大眾口味(讓最多使用者滿意),有的可能偏向專家標準(真正推動藝術邊界)。

柯文則提出了一個更激進的想法:如果歷史上最好的詩人都活在很久以前(莎士比亞、彌爾頓、華茲華斯、里爾克),那我們為什麼要讓當代詩人來定義「好詩」的標準?也許 AI 不應該學習現代品味,而應該嘗試逆向工程古典大師的美學。弗迪的回應是,在足夠長的時間軸上,模型最終會學會「每個時代、每個流派」的品味,然後根據每個使用者的個人偏好來客製化輸出。

有些知識沒有被寫下來

法律是另一個品味高度重要的領域。弗迪觀察到,法律領域有很多「對的做法」並沒有被明確寫在任何教科書或判例彙編中。它存在於資深律師的腦袋裡,是他們幾十年執業經驗累積出來的直覺。這些隱性知識(tacit knowledge)對模型來說是極其難以學習的,因為它既不在預訓練的網路文本中,也沒辦法輕易地轉化成 rubric 或偏好選擇。

這就是為什麼弗迪認為「人類的最後 25%」會持續很久。模型可以很快學會那些已經被系統化、文件化的 75% 知識。但最後那 25%,那些存在於少數頂尖專家腦中、無法用語言完整表達的判斷力,將會是人類最持久的優勢。他判斷,要讓模型在法律領域達到「頂尖專家很難找到錯誤」的水準,大約還需要兩到三年。柯文更樂觀,他覺得六個月到一年。

不過兩人都同意一個前提:衡量模型能力的「測試」本身就是最有價值的資產。弗迪反覆說:只要有好的 eval(評測),研究人員爬升那些指標的速度驚人。所以瓶頸不是「如何讓模型更聰明」,而是「如何定義什麼叫做聰明」。這又回到了品味的問題:定義什麼是「好的法律回應」本身就需要品味,而這個品味不在任何資料集裡。

兩種資料,價值天差地別

弗迪在訪談中做了一個很有啟發性的區分:AI 訓練需要的資料有兩種。第一種是「產出資料」(output data),就是模型閱讀和學習的素材,像是教科書、論文、網頁內容。第二種是「衡量成功的資料」(evaluation data),包含 rubric、帶有標準答案的測試題、程式碼的單元測試等。

第二種資料遠比第一種更有價值。有了好的 evaluation data,模型可以嘗試無數次,每次都被評分,然後從中學習。沒有這種資料,模型只能「讀」但不能「練」。這就像一個學生如果只有教科書但沒有考試和批改,他永遠不知道自己學得好不好。

這也解釋了弗迪為什麼呼籲學術機構把論文審稿意見(referee reports)送給 AI 公司。審稿意見本質上就是一種 rubric:它告訴你一篇論文哪裡好、哪裡有問題、應該如何改進。這種「帶有判斷的回饋」對模型的學習效果遠超過單純的「更多論文文本」。弗迪說,深度領域專家對 AI 進步最大的貢獻不是提供更多資料,而是「定義 eval」。

我的觀察

這場對話最有意思的地方,不在於弗迪的商業敘事(雖然百億估值很吸引人),而在於它揭示了 AI 發展當前真正的瓶頸:不是算力、不是資料量、不是演算法突破,而是「我們能不能把人類的品味和判斷力轉化成模型可以學習的形式」。

這個瓶頸也解釋了一個看似矛盾的現象:AI 在客觀任務上已經超越人類(下棋、算數、查資料),但在需要「品味」的任務上仍然讓人覺得差了點什麼。不是因為模型不夠聰明,而是因為我們還沒找到一個好的方法,把「什麼是好品味」這件事翻譯成模型能理解的語言。

對正在使用 AI 工具的人來說,這裡有一個實際的啟示:你給 AI 的 prompt 品質,本質上就是一種迷你版的 rubric。你越能清楚地定義「什麼是好的輸出」,AI 就越能給你好的結果。這不是技術問題,而是品味問題。那些在 AI 時代仍然不可取代的人,很可能就是那些能把「好」定義得最清楚的人。