AI 越聰明,寫出來卻越無聊?從 GPT-2 到 ChatGPT 的寫作退化之路

自由記者 Jasmine Sun 在 Hard Fork 節目中分析,為何 AI 模型在程式碼和數學上突飛猛進,寫作能力卻似乎在倒退。從 RLHF 後訓練、荒謬的評分機制,到模型缺乏真實人生經驗,她拆解了 AI 寫作困境的根本原因,也分享了用 Claude 打造個人編輯的實戰方法。

AI 越聰明,寫出來卻越無聊?從 GPT-2 到 ChatGPT 的寫作退化之路

本文整理自《Hard Fork》2026 年 3 月播出的單集。

{{< youtube Prm_V51XbPg >}}

{{< spotify "episode/4qAaUop0ItZlGhEB5d7KE2" >}}

{{< apple-podcast "tw/podcast/a-i-washing-layoffs-why-l-l-m-s-cant-write-well-tokenmaxxing/id1528594034?i=1000756315732" >}}


OpenAI 執行長奧特曼(Sam Altman)對自家模型有多樂觀,大家都很清楚。治癒癌症、解開物理學難題、打造超越人類的程式設計師,這些他都說得出來。但去年十月,經濟學家 Tyler Cowen 問他:ChatGPT 什麼時候能寫出一首聶魯達等級的詩?奧特曼的回答出奇地保守,他說也許未來能寫出一首真正詩人的「還 OK 的詩」。

這個落差引起了自由記者 Jasmine Sun 的注意。她在《大西洋月刊》(The Atlantic)發表了一篇長文〈The Human Skill That Eludes AI〉,試圖拆解一個矛盾:AI 在幾乎所有認知領域都在快速進步,為什麼偏偏「寫作」這件事,似乎停滯甚至退步了?她帶著這個問題上了《紐約時報》的科技 Podcast《Hard Fork》,和主持人 Kevin Roose 與 Casey Newton 深聊了半小時。

GPT-2 比 ChatGPT 更會寫?

Jasmine Sun 提出的第一個觀察就夠嚇人的:她認為 GPT-2 和 GPT-3 的「文筆」在某些方面比今天的 ChatGPT 更好。

這不是在開玩笑。她在替 Kevin Roose 的新書做研究時,翻閱了早期模型的大量輸出結果,發現那些文字沒有今天模型的任何惱人習慣。不會瘋狂堆疊破折號,不會寫出千篇一律的三段式列舉,不會套用「這不是 A,而是 B」的公式句型。GPT-2 和 GPT-3 的語調變化更大,有時出人意料地有趣,有時甚至帶有詩意。

早期模型當然也一堆毛病。Casey Newton 形容跟 GPT-2 對話「就像在跟一個剛從樓梯摔下來的人聊天」。它們沒辦法穩定完成任何實用的任務,會離題、會胡說八道。但光看文字風格,它們反而更像一個有個性的作者,而不是一個盡責但無趣的企業助理。

Jasmine 甚至做了一個比對實驗。她找到有人用 GPT-3 做的風格模仿測試,讓它仿寫 Paul Graham 或 Richard Dawkins 的文風。GPT-3 的模仿效果出奇地好。她把同樣的提示詞丟進今天的 ChatGPT,結果「慘不忍睹」。同一個任務,新模型反而做得更差,這背後到底發生了什麼事?

RLHF 如何「馴化」了 AI 的文筆

答案藏在一個叫做「後訓練」(post-training)的環節裡。

早期的 GPT-2 和 GPT-3 基本上是「裸奔」的語言模型,直接從網路上學到的文字生成內容,沒有額外的行為規範。這些模型不穩定、不可預測,但正因如此,它們的輸出帶有一種原始的多樣性。後來 OpenAI 開始加入後訓練層,其中最關鍵的技術是 RLHF(Reinforcement Learning from Human Feedback,人類回饋強化學習)。簡單說,就是找人類評分員來評估模型的回應,標記哪些回答「比較好」,然後用這些評分去微調模型的行為。

這套機制的初衷完全合理:讓模型變得有用。一個會亂跑題、動不動寫短篇小說的 AI,作為商業產品根本不及格。但代價是,RLHF 把模型推向了一個非常特定的人格:「熱心助手」。Jasmine Sun 的觀察是,經過後訓練的模型被困在了這個角色裡,變成了一個文法完美、態度得體,但寫起東西來毫無驚喜的存在。

在 AI 小說寫作工具領域工作的人也有同感。PseudoWrite 的共同創辦人 James Yu 等人花了大量工程心力,試圖解除各大實驗室加上的後訓練限制,好讓模型回到那種能寫出怪異、挑釁、生猛文字的基底狀態。但他們都說同一句話:這非常困難。實驗室花了巨大資源把模型「馴化」,要把牠放回野外,談何容易。

用驚嘆號數量評分:AI 寫作評測的荒謬現場

RLHF 的問題不只是技術層面,執行面同樣混亂。

Jasmine Sun 訪問了一位曾在 Scale AI 擔任寫作評分員的外包人員,他的工作是替某間大型 AI 實驗室評估模型的寫作輸出。這位評分員說,他收到的評分規則根本不合邏輯。例如,其中一條是:如果文本中出現三個以上的驚嘆號,就要扣分。另一個任務要他對一批同人小說(fan fiction)做「事實性」評分。同人小說的本質就是虛構的,用事實性當標準,這評的是什麼?

這些荒謬案例反映了一個結構性問題。AI 公司花大錢找物理學博士和頂尖工程師來提升模型的程式碼和推理能力,因為這些領域有明確的對錯標準:程式碼跑得動就是對,跑不動就是錯。但寫作沒有這種驗證機制。什麼是「好文章」?文學界爭論了幾百年也沒有共識。你沒辦法像跑測試一樣,讓一個評估模型自動判斷一篇散文寫得好不好。

Casey Newton 在節目中一句話就點破了根本:「我們把整個網際網路的內容拿來做事實性評分,這樣訓練出來的模型,創意當然不會好到哪去。」這不是技術做不到,是整個評估體系的方向就偏了。

模型沒有人生,所以寫不出有溫度的文字

技術瓶頸之外,Jasmine Sun 認為還有一個更根本的原因:LLM 沒有生命經驗。

真正打動人的寫作都來自「活過的人生」。記者出門採訪、觀察天空的顏色、感受訪談對象的情緒起伏;詩人寫的是自己的失去、渴望和恐懼。這些文字有「籌碼」,因為背後是真實的情感和風險。LLM 可以生成文法完美、修辭漂亮的段落,但那些比喻和詞語的選擇終究是沒有根的。它不是從某個特定的觀點、某段真實的經歷、某個具體的社群出發,所以讀起來總是缺少讓人信服的力量。

Kevin Roose 試圖挑戰這個觀點:這會不會只是一種「自我安慰」(cope)?就像軟體工程師看到 AI 開始寫程式時,也會列出一堆「AI 做不到的事」,結果幾年後全被打臉。Jasmine 的回答很務實:「我巴不得它是 cope。過去三年我一直嘗試讓 AI 取代我的工作,但它就是做不到,這可不是因為我不想被取代。」她回到奧特曼自己的話:一個聲稱 AI 能治癌症、解物理的人,卻只敢說它能寫出一首真正詩人的「還 OK 的詩」。這暗示寫作確實有某種本質上的不同。

她也提出了一個重要的區分。AI 確實是「超人級的文字生成器」,但寫作不只是文字生成。對她來說,一天中真正在「打字」的時間只佔大約 25%。其餘時間花在採訪、構思、閱讀特定的資料來源。真正的寫作瓶頸不在文字產出,而在點子、判斷和取材。這些非文字生成的部分,目前離自動化還有一段距離。

AI 不是不能寫好,是沒人願意花錢讓它寫好

那為什麼寫作能力的進步這麼慢?Jasmine Sun 認為答案很大一部分是市場需求。

目前人們要求 AI 做的寫作任務,絕大多數是寫 email。而 AI 寫 email 確實很厲害,Jasmine 半開玩笑說,在被動攻擊語氣的掌握上甚至超越多數人類。這就是市場告訴 AI 公司的訊號:使用者要的是企業郵件助手,不是聶魯達。既然企業客戶願意付錢買的是能自動回信的工具,實驗室自然把資源集中在這個方向。

在盲測實驗中,受試者看不出署名時,經常覺得 AI 寫得比人類好。但一旦知道是 AI 寫的,評價立刻暴跌。這種心理偏見確實存在,但 Jasmine 認為它掩蓋不了核心問題。如果 AI 公司把投入在程式碼 Agent 上的資源,拿同樣的力度來改善文學寫作,模型很可能真的會進步。只是寫作能賺的錢比不上取代 23 歲軟體工程師能省的錢,所以短期內,這大概不會是各家實驗室的優先項目。

人機協作的正確姿勢:把 Claude 變成你的專屬編輯

聊了這麼多 AI 寫作的不足,Jasmine Sun 自己其實是個重度 AI 使用者。但她的使用方式跟多數人很不一樣:她不讓 AI 幫她寫文章,而是讓 AI 當她的「個人編輯」。

具體做法是這樣的。她在 Claude 的 Project 功能裡,上傳了自己整個 Substack 文章庫,加上她每次發稿後寫的「覆盤筆記」。那些筆記記錄了她對每篇文章的自我評價:哪裡寫得好、哪裡不滿意、下次想改進什麼。她把這些素材餵給 Claude,目的是讓它學會她的「品味」和寫作目標,而不是學會某種通用的「好文章」標準。

然後她和 Claude 一起發展出了一套個人化的評分標準。Claude 不會用驚嘆號數量來打分,而是會問她:「這篇文章有沒有發揮你作為矽谷『局內人類學家』的獨特視角?」或者指出:「你的結尾只是在做摘要,但你之前某篇文章是用一個場景收尾的,那樣更有力,要不要試試看?」

這就是她所說的「半人馬模型」(centaur model)。人類負責判斷、取材、構思這些需要真實人生經驗的部分,AI 在這個基礎上提供結構性的回饋和編輯建議。重點不是讓 AI 取代你,而是讓 AI 幫你成為更好版本的自己。Jasmine 說這套方法讓她覺得「寫起來更自在了」,因為有一面鏡子能隨時提醒她是不是偏離了自己想要的方向。

我的觀察

每天用 AI 輔助寫作的人都有這種體感:不管你用的是 ChatGPT、Claude 還是 Gemini,丟出來的初稿讀起來都差不多。同樣的節奏、同樣的轉折模式、同樣禮貌但空洞的語氣。Jasmine Sun 的分析終於從技術層面解釋了這個現象:不是模型不夠聰明,而是後訓練機制把它們全部推向了同一個「熱心助手」人設。

但她的 Claude 編輯方法才是這整集節目最值得帶走的東西。多數人使用 AI 的方式是「幫我寫」,但更有效的方式其實是「幫我看我寫的」。讓 AI 學你的風格、你的目標、你對自己作品的評估,然後用這些當標準來挑戰你的初稿。這個思路的轉換很小,效果的差別卻很大。

這也回應了一個更大的問題:在 AI 時代,寫作者的核心競爭力到底是什麼?不是打字速度,不是文法正確,而是你有沒有獨特的觀點、真實的經歷,以及願意為自己的判斷承擔風險的勇氣。這些東西,目前的大型語言模型都還生不出來。