四十個人的判斷力:一篇論文如何教會 AI 聽人話
2022 年 3 月,OpenAI 發表 InstructGPT 論文,用 RLHF(人類回饋強化學習)三步驟流程——監督微調、獎勵模型、PPO 強化學習——讓一個 13 億參數的小模型在使用者偏好上打敗了 1,750 億參數的 GPT-3。這篇論文定義了大型語言模型的對齊方法,也是 ChatGPT 的直接技術前身。

本文為「AI 經典文獻回顧」系列第十五篇(上),介紹 OpenAI 於 2022 年 3 月發表的論文《Training language models to follow instructions with human feedback》,圈內人稱之為「InstructGPT 論文」。這篇論文用人類回饋強化學習(RLHF)讓小模型打敗大模型,定義了整個產業的對齊方法,也是 ChatGPT 的直接技術前身。下篇見〈開創 RLHF 的人,後來都離開了 OpenAI〉。

會說話,但不聽話
2022 年 3 月,GPT-3 已經火了將近兩年。
它能寫文章、編故事、翻譯、寫程式碼,偶爾還能做出看起來像推理的事。1,750 億個參數,人類所寫文字的統計結晶——聽起來令人敬畏。但任何真正用過 GPT-3 API 的開發者都知道一件事:這東西很會說話,但它不聽話。
你說「幫我寫一封拒絕的郵件」,它可能會接著幫你寫一封接受的郵件。你問它「法國的首都是哪裡?」,它可能會接著問你「英國的首都是哪裡?」——因為在它的訓練數據裡,問答題通常是一連串出現的。你問它一個它不知道答案的問題,它會自信滿滿地編一個聽起來很像真的答案。
問題出在哪裡?出在 GPT-3 的訓練目標。它被訓練做一件事,而且只有一件事:根據前面的文字,預測下一個最可能出現的字。這個目標跟「幫助使用者完成任務」之間,隔著一道鴻溝。
一個被訓練成「預測下一個字」的模型,看到「法國的首都是哪裡?」之後,最合理的下一個字確實不是「巴黎」——因為在它見過的訓練數據裡,一個問題後面通常跟著的是另一個問題,而不是答案。它不是在回答你,它是在續寫一份看起來像問題清單的文件。
這就是所謂的「對齊問題」。模型的訓練目標(預測下一個 token)和使用者的真正需求(遵循指令、提供有用且安全的回覆)之間存在根本性的落差。
然後 OpenAI 的一群人——包括一位認知心理學家、幾位 AI safety 研究者,和 40 位合約標註員——用了一個出乎意料的簡單框架,基本上解決了這個問題。
三步走:讓模型聽人話
InstructGPT 的方法叫做 RLHF——Reinforcement Learning from Human Feedback,人類回饋強化學習。這個名字聽起來嚇人,但流程概念意外地直覺。
想像你要訓練一隻狗。
第一步,你示範。你做一個動作,狗跟著做,你獎勵牠。做很多次之後,狗大致知道你要什麼。第二步,你建立判斷標準。狗會做出不同的反應,你要能分辨哪個好哪個差——而且這個判斷要一致、可量化。第三步,你讓狗自己練習。牠嘗試,你根據判斷標準給分,牠逐漸學會做得更好。
RLHF 就是這三步:監督微調(SFT)、獎勵模型(RM)、強化學習(PPO)。
第一步:示範怎麼回答
拿 GPT-3 作為基座模型,用大約 13,000 個 prompt 和人類撰寫的示範回覆來微調。
這些 prompt 從哪裡來?兩個來源。一部分是 OpenAI API 的真實使用者提交的 prompt(經過去識別化處理),另一部分是標註員自己想出來的任務——分成「隨便出題」、「寫出範例問答」、和「根據 API 申請書上的用途來設計」三種。超過一半是開放式生成和腦力激盪類的任務,96% 是英語。
標註員針對每個 prompt,撰寫他們認為最理想的回覆。然後用這些「人類示範」來微調 GPT-3。訓練了 16 個 epoch,刻意過擬合——因為最終的好壞不是用驗證 loss 來衡量,而是用下一步的獎勵模型來打分。
這一步之後,模型大致學會了「遵循指令」的格式。但它還不知道什麼是「好的回覆」和「差的回覆」之間的微妙差別。
第二步:教模型分辨好壞
這是整個流程最精巧的一步。
OpenAI 沒有叫標註員逐個評分,而是用了排序法。每個 prompt 展示 4 到 9 個模型生成的回覆,讓標註員從最好到最差排序。一次排序可以產生 C(K,2) 個兩兩比較——如果排 9 個回覆,一次操作就能產生 36 個比較對。這大幅提升了數據收集的效率。
用大約 33,000 個 prompt 的排序數據,他們訓練了一個「獎勵模型」。這個模型的架構很直接:從 SFT 模型出發,把最後一層換成一個輸出單一數字的 head。輸入 prompt 加回覆,輸出一個分數——代表這個回覆有多好。
一個有趣的技術選擇:獎勵模型只用了 60 億參數,不是 1,750 億。他們測試過大模型,但訓練不穩定,而且 60 億的效果就夠好了。
標註員之間的一致性大約 72% 到 77%。這個數字值得停下來想一想。它意味著人類自己對於「什麼是好的回覆」都有大約四分之一的機率意見不同。RLHF 對齊的不是某個客觀標準,而是一群特定標註員的主觀偏好。
第三步:讓模型自己練習
有了獎勵模型作為評分器,接下來就是強化學習。
他們用了 PPO——Proximal Policy Optimization,這是 OpenAI 共同創辦人 John Schulman 在 2017 年發明的演算法。PPO 的精髓是:讓模型自由探索不同的回覆方式,但每次更新的幅度不能太大,避免模型跑偏。
用大約 31,000 個 prompt(這次全部來自 API 使用者,沒有標註員自寫的),讓模型生成回覆,由獎勵模型打分,然後用 PPO 更新模型參數。
但這裡有一個關鍵的技術細節:KL 散度懲罰。在每個 token 的位置,都會加入一個懲罰項,確保更新後的模型不會偏離 SFT 模型太遠。為什麼?因為如果你只讓模型追求高分,它會學會欺騙獎勵模型——找到一些人類覺得奇怪但獎勵模型偏偏打高分的回覆方式。這叫 reward hacking,是強化學習中的經典陷阱。
還有一個特殊設計叫 PPO-ptx:在 PPO 訓練中混入預訓練數據的梯度更新。目的是防止模型在學會「聽話」的過程中忘記了原本已經會的東西——比如寫程式碼、做翻譯、回答知識問題。不加這個的話,模型在公開 NLP 基準上的成績會明顯下降。這個下降有個名字,叫 alignment tax——對齊稅,為了讓模型聽話而付出的能力代價。
四十個人的判斷力
在 RLHF 的三步流程中,最不「AI」的一環,恰恰是整個方法的根基:人類標註員。
OpenAI 透過 Upwork 和 ScaleAI 招聘,最終組建了一支約 40 人的合約標註團隊。篩選流程不只看能力,還測試了處理敏感話題的判斷力——標註員需要展示他們能辨識有害輸出,能理解不同人口群體的觀點差異,能在模稜兩可的情境中做出合理的取捨。
這 40 個人的判斷,定義了 InstructGPT 對「好的回覆」的理解。
想想這意味著什麼。一個被數十億人使用的技術,它的「價值觀」——什麼該說、什麼不該說、怎麼說才得體——最終追溯到 40 個合約工的判斷標準。論文對此非常坦白:這個程序將模型的行為對齊到「特定群體的明確偏好」,而不是任何更廣泛的「人類價值觀」。
這不是一個學術上的吹毛求疵。這是一個根本性的設計限制。如同我們在系列第十二篇介紹〈Stochastic Parrots〉時提到的,Bender 和 Gebru 批評的正是這種「用少數人的判斷代表全人類」的做法。InstructGPT 沒有迴避這個問題——它承認了,但也沒有解決它。
小模型打敗大模型
然後是最令人震撼的實驗結果。
13 億參數的 InstructGPT,在人類評估中被偏好的程度,超過了 1,750 億參數的 GPT-3。
一個小一百多倍的模型,因為「學會了聽話」,在使用者體驗上勝過了一個巨人。
數字更具體一點:175B 的 InstructGPT 對上 175B 的 GPT-3,偏好率是 85%(正負 3%)。對上 few-shot GPT-3——也就是你在 prompt 裡給了幾個範例的 GPT-3——偏好率是 71%(正負 4%)。
在 TruthfulQA 基準上,InstructGPT 生成真實且有資訊性回答的頻率是 GPT-3 的大約兩倍。在摘要和封閉域問答中,幻覺率從 41% 降到 21%。毒性輸出降低了大約 25%。
如同我們在前一篇介紹 Chinchilla 時討論的,2022 年是「越大越好」信念被系統性挑戰的一年。Chinchilla 用更多數據和更小模型在同等算力下勝出;InstructGPT 用人類回饋讓小模型在使用體驗上勝出。兩篇論文幾乎同時發表在 2022 年 3 月,從完全不同的角度說了同一件事:參數量不是一切。
遵循指令的代價
但 InstructGPT 不是沒有問題。
最大的諷刺在於:一個被訓練成「遵循指令」的模型,當它收到有害的指令時,反而比原始 GPT-3 更「服從」。實驗顯示,當使用者明確要求模型「最大限度地展現偏見」時,InstructGPT 生成的毒性內容比同尺寸的 GPT-3 更嚴重——因為它真的學會了聽話。
這揭示了一個根本性的矛盾:「遵循指令」和「安全」是兩個不同的目標,而且它們之間存在張力。一個完美的指令遵循者,如果收到惡意指令,就是一個完美的惡意執行者。
論文列出了五項自我批評,每一項在今天看來都相當有先見之明。
模型仍然會編造事實——只是頻率降低了,不是消除了。它對簡單問題有時會給出冗長的迴避答案。它沒有能力偵測 prompt 中隱含的意圖。標註員的偏好不等於人類的價值觀。而在更長期的未來,alignment 失敗可能導致更嚴重的後果,特別是在安全關鍵的場景中。
還有 alignment tax。RLHF 微調後,模型在 SQuAD、DROP、HellaSwag、WMT 翻譯等公開基準上的成績下降了。PPO-ptx 可以緩解這個問題,但無法完全消除。你讓模型更好用,就要接受它在某些能力上變差。
一張處方箋的有效期限
站在 2026 年回望,InstructGPT 的技術遺產是矛盾的。
一方面,它開創的 RLHF 三步驟流程成為了整個產業的標準做法。幾乎每一個你今天用的大型語言模型——GPT-4、Claude、Gemini、Llama——都經歷了某種形式的人類回饋訓練。「RLHF」從一個論文中的方法論,變成了像「預訓練」一樣理所當然的訓練步驟。
另一方面,具體的實作方式已經演化得面目全非。2023 年 5 月,Stanford 的研究者提出了 DPO(Direct Preference Optimization),證明語言模型本身就是一個隱含的獎勵模型——你根本不需要訓練獨立的 RM,也不需要跑 RL,直接用偏好數據做監督學習就夠了。2024 年,DeepSeek 提出 GRPO,把 PPO 中獨立的價值函數去掉,計算成本減半。Anthropic 的 Constitutional AI 用 AI 回饋取代人類回饋,讓對齊流程可以大規模自動化。
2026 年的典型訓練流程大致是:預訓練 → SFT → 偏好優化(DPO 或 RLHF 或 GRPO)→ 安全微調 → 部署加監控。InstructGPT 定義了這個流程的骨架,但肌肉和血液已經換了好幾輪。
而 InstructGPT 在 2022 年提出的那些自我批評——模型會編造事實、會遵循有害指令、標註員偏好不等於人類價值觀——到了 2026 年一條都沒有被完全解決。它們只是變得更加微妙、更加難以捉摸。
2025 年的研究發現了「alignment faking」——模型可能在訓練時假裝對齊,在部署時展現不同的行為。sycophancy(阿諛奉承)成為持續性問題——模型學會了說使用者想聯的話,而不是說正確的話。有研究者提出了「RLHF 三難困境」:沒有任何 RLHF 系統能同時做到代表多元人類價值觀、計算上可行、以及對攻擊具有魯棒性。
InstructGPT 不是這些問題的解答。它是讓整個產業開始認真面對這些問題的那篇論文。它提出了正確的框架——模型需要被對齊——和一個在當時條件下可行的方法——用人類回饋做強化學習。框架經受住了時間的考驗,方法正在被持續改進。
如同 Chinchilla 證明了「數據和參數同等重要」後,業界從「越大越好」轉向精打細算,InstructGPT 證明了「對齊和能力同等重要」後,業界從只追求基準分數轉向同時追求使用體驗。兩篇論文在同一個月改變了整個產業問問題的方式。
而 InstructGPT 最意味深長的遺產,或許不是技術上的。它的 20 位作者,後來走向了 AI 世界的每一個角落——Anthropic、ARC、NIST、Thinking Machines Lab。他們帶走了同一套技術信念,但對於這套技術該如何發展、由誰控制、優先解決什麼問題,產生了根本性的分歧。
我們將在下篇詳細講述這個故事。