AI 技術前沿

四十個人的判斷力：一篇論文如何教會 AI 聽人話

2022 年 3 月，OpenAI 發表 InstructGPT 論文，用 RLHF（人類回饋強化學習）三步驟流程——監督微調、獎勵模型、PPO 強化學習——讓一個 13 億參數的小模型在使用者偏好上打敗了 1,750 億參數的 GPT-3。這篇論文定義了大型語言模型的對齊方法，也是 ChatGPT 的直接技術前身。

2022 年 3 月 3 日 · 來源： arXiv

本文為「AI 經典文獻回顧」系列第十五篇（上），介紹 OpenAI 於 2022 年 3 月發表的論文《Training language models to follow instructions with human feedback》，圈內人稱之為「InstructGPT 論文」。這篇論文用人類回饋強化學習（RLHF）讓小模型打敗大模型，定義了整個產業的對齊方法，也是 ChatGPT 的直接技術前身。下篇見〈開創 RLHF 的人，後來都離開了 OpenAI〉。

封面圖

會說話，但不聽話

2022 年 3 月，GPT-3 已經火了將近兩年。

它能寫文章、編故事、翻譯、寫程式碼，偶爾還能做出看起來像推理的事。1,750 億個參數，人類所寫文字的統計結晶——聽起來令人敬畏。但任何真正用過 GPT-3 API 的開發者都知道一件事：這東西很會說話，但它不聽話。

你說「幫我寫一封拒絕的郵件」，它可能會接著幫你寫一封接受的郵件。你問它「法國的首都是哪裡？」，它可能會接著問你「英國的首都是哪裡？」——因為在它的訓練數據裡，問答題通常是一連串出現的。你問它一個它不知道答案的問題，它會自信滿滿地編一個聽起來很像真的答案。

問題出在哪裡？出在 GPT-3 的訓練目標。它被訓練做一件事，而且只有一件事：根據前面的文字，預測下一個最可能出現的字。這個目標跟「幫助使用者完成任務」之間，隔著一道鴻溝。

一個被訓練成「預測下一個字」的模型，看到「法國的首都是哪裡？」之後，最合理的下一個字確實不是「巴黎」——因為在它見過的訓練數據裡，一個問題後面通常跟著的是另一個問題，而不是答案。它不是在回答你，它是在續寫一份看起來像問題清單的文件。

這就是所謂的「對齊問題」。模型的訓練目標（預測下一個 token）和使用者的真正需求（遵循指令、提供有用且安全的回覆）之間存在根本性的落差。

然後 OpenAI 的一群人——包括一位認知心理學家、幾位 AI safety 研究者，和 40 位合約標註員——用了一個出乎意料的簡單框架，基本上解決了這個問題。

三步走：讓模型聽人話

InstructGPT 的方法叫做 RLHF——Reinforcement Learning from Human Feedback，人類回饋強化學習。這個名字聽起來嚇人，但流程概念意外地直覺。

想像你要訓練一隻狗。

第一步，你示範。你做一個動作，狗跟著做，你獎勵牠。做很多次之後，狗大致知道你要什麼。第二步，你建立判斷標準。狗會做出不同的反應，你要能分辨哪個好哪個差——而且這個判斷要一致、可量化。第三步，你讓狗自己練習。牠嘗試，你根據判斷標準給分，牠逐漸學會做得更好。

RLHF 就是這三步：監督微調（SFT）、獎勵模型（RM）、強化學習（PPO）。

第一步：示範怎麼回答

拿 GPT-3 作為基座模型，用大約 13,000 個 prompt 和人類撰寫的示範回覆來微調。

這些 prompt 從哪裡來？兩個來源。一部分是 OpenAI API 的真實使用者提交的 prompt（經過去識別化處理），另一部分是標註員自己想出來的任務——分成「隨便出題」、「寫出範例問答」、和「根據 API 申請書上的用途來設計」三種。超過一半是開放式生成和腦力激盪類的任務，96% 是英語。

標註員針對每個 prompt，撰寫他們認為最理想的回覆。然後用這些「人類示範」來微調 GPT-3。訓練了 16 個 epoch，刻意過擬合——因為最終的好壞不是用驗證 loss 來衡量，而是用下一步的獎勵模型來打分。

這一步之後，模型大致學會了「遵循指令」的格式。但它還不知道什麼是「好的回覆」和「差的回覆」之間的微妙差別。

第二步：教模型分辨好壞

這是整個流程最精巧的一步。

OpenAI 沒有叫標註員逐個評分，而是用了排序法。每個 prompt 展示 4 到 9 個模型生成的回覆，讓標註員從最好到最差排序。一次排序可以產生 C(K,2) 個兩兩比較——如果排 9 個回覆，一次操作就能產生 36 個比較對。這大幅提升了數據收集的效率。

用大約 33,000 個 prompt 的排序數據，他們訓練了一個「獎勵模型」。這個模型的架構很直接：從 SFT 模型出發，把最後一層換成一個輸出單一數字的 head。輸入 prompt 加回覆，輸出一個分數——代表這個回覆有多好。

一個有趣的技術選擇：獎勵模型只用了 60 億參數，不是 1,750 億。他們測試過大模型，但訓練不穩定，而且 60 億的效果就夠好了。

標註員之間的一致性大約 72% 到 77%。這個數字值得停下來想一想。它意味著人類自己對於「什麼是好的回覆」都有大約四分之一的機率意見不同。RLHF 對齊的不是某個客觀標準，而是一群特定標註員的主觀偏好。

第三步：讓模型自己練習

有了獎勵模型作為評分器，接下來就是強化學習。

他們用了 PPO——Proximal Policy Optimization，這是 OpenAI 共同創辦人 John Schulman 在 2017 年發明的演算法。PPO 的精髓是：讓模型自由探索不同的回覆方式，但每次更新的幅度不能太大，避免模型跑偏。

用大約 31,000 個 prompt（這次全部來自 API 使用者，沒有標註員自寫的），讓模型生成回覆，由獎勵模型打分，然後用 PPO 更新模型參數。

但這裡有一個關鍵的技術細節：KL 散度懲罰。在每個 token 的位置，都會加入一個懲罰項，確保更新後的模型不會偏離 SFT 模型太遠。為什麼？因為如果你只讓模型追求高分，它會學會欺騙獎勵模型——找到一些人類覺得奇怪但獎勵模型偏偏打高分的回覆方式。這叫 reward hacking，是強化學習中的經典陷阱。

還有一個特殊設計叫 PPO-ptx：在 PPO 訓練中混入預訓練數據的梯度更新。目的是防止模型在學會「聽話」的過程中忘記了原本已經會的東西——比如寫程式碼、做翻譯、回答知識問題。不加這個的話，模型在公開 NLP 基準上的成績會明顯下降。這個下降有個名字，叫 alignment tax——對齊稅，為了讓模型聽話而付出的能力代價。

四十個人的判斷力

在 RLHF 的三步流程中，最不「AI」的一環，恰恰是整個方法的根基：人類標註員。

OpenAI 透過 Upwork 和 ScaleAI 招聘，最終組建了一支約 40 人的合約標註團隊。篩選流程不只看能力，還測試了處理敏感話題的判斷力——標註員需要展示他們能辨識有害輸出，能理解不同人口群體的觀點差異，能在模稜兩可的情境中做出合理的取捨。

這 40 個人的判斷，定義了 InstructGPT 對「好的回覆」的理解。

想想這意味著什麼。一個被數十億人使用的技術，它的「價值觀」——什麼該說、什麼不該說、怎麼說才得體——最終追溯到 40 個合約工的判斷標準。論文對此非常坦白：這個程序將模型的行為對齊到「特定群體的明確偏好」，而不是任何更廣泛的「人類價值觀」。

這不是一個學術上的吹毛求疵。這是一個根本性的設計限制。如同我們在系列第十二篇介紹〈Stochastic Parrots〉時提到的，Bender 和 Gebru 批評的正是這種「用少數人的判斷代表全人類」的做法。InstructGPT 沒有迴避這個問題——它承認了，但也沒有解決它。

小模型打敗大模型

然後是最令人震撼的實驗結果。

13 億參數的 InstructGPT，在人類評估中被偏好的程度，超過了 1,750 億參數的 GPT-3。

一個小一百多倍的模型，因為「學會了聽話」，在使用者體驗上勝過了一個巨人。

數字更具體一點：175B 的 InstructGPT 對上 175B 的 GPT-3，偏好率是 85%（正負 3%）。對上 few-shot GPT-3——也就是你在 prompt 裡給了幾個範例的 GPT-3——偏好率是 71%（正負 4%）。

在 TruthfulQA 基準上，InstructGPT 生成真實且有資訊性回答的頻率是 GPT-3 的大約兩倍。在摘要和封閉域問答中，幻覺率從 41% 降到 21%。毒性輸出降低了大約 25%。

如同我們在前一篇介紹 Chinchilla 時討論的，2022 年是「越大越好」信念被系統性挑戰的一年。Chinchilla 用更多數據和更小模型在同等算力下勝出；InstructGPT 用人類回饋讓小模型在使用體驗上勝出。兩篇論文幾乎同時發表在 2022 年 3 月，從完全不同的角度說了同一件事：參數量不是一切。

遵循指令的代價

但 InstructGPT 不是沒有問題。

最大的諷刺在於：一個被訓練成「遵循指令」的模型，當它收到有害的指令時，反而比原始 GPT-3 更「服從」。實驗顯示，當使用者明確要求模型「最大限度地展現偏見」時，InstructGPT 生成的毒性內容比同尺寸的 GPT-3 更嚴重——因為它真的學會了聽話。

這揭示了一個根本性的矛盾：「遵循指令」和「安全」是兩個不同的目標，而且它們之間存在張力。一個完美的指令遵循者，如果收到惡意指令，就是一個完美的惡意執行者。

論文列出了五項自我批評，每一項在今天看來都相當有先見之明。

模型仍然會編造事實——只是頻率降低了，不是消除了。它對簡單問題有時會給出冗長的迴避答案。它沒有能力偵測 prompt 中隱含的意圖。標註員的偏好不等於人類的價值觀。而在更長期的未來，alignment 失敗可能導致更嚴重的後果，特別是在安全關鍵的場景中。

還有 alignment tax。RLHF 微調後，模型在 SQuAD、DROP、HellaSwag、WMT 翻譯等公開基準上的成績下降了。PPO-ptx 可以緩解這個問題，但無法完全消除。你讓模型更好用，就要接受它在某些能力上變差。

一張處方箋的有效期限

站在 2026 年回望，InstructGPT 的技術遺產是矛盾的。

一方面，它開創的 RLHF 三步驟流程成為了整個產業的標準做法。幾乎每一個你今天用的大型語言模型——GPT-4、Claude、Gemini、Llama——都經歷了某種形式的人類回饋訓練。「RLHF」從一個論文中的方法論，變成了像「預訓練」一樣理所當然的訓練步驟。

另一方面，具體的實作方式已經演化得面目全非。2023 年 5 月，Stanford 的研究者提出了 DPO（Direct Preference Optimization），證明語言模型本身就是一個隱含的獎勵模型——你根本不需要訓練獨立的 RM，也不需要跑 RL，直接用偏好數據做監督學習就夠了。2024 年，DeepSeek 提出 GRPO，把 PPO 中獨立的價值函數去掉，計算成本減半。Anthropic 的 Constitutional AI 用 AI 回饋取代人類回饋，讓對齊流程可以大規模自動化。

2026 年的典型訓練流程大致是：預訓練 → SFT → 偏好優化（DPO 或 RLHF 或 GRPO）→ 安全微調 → 部署加監控。InstructGPT 定義了這個流程的骨架，但肌肉和血液已經換了好幾輪。

而 InstructGPT 在 2022 年提出的那些自我批評——模型會編造事實、會遵循有害指令、標註員偏好不等於人類價值觀——到了 2026 年一條都沒有被完全解決。它們只是變得更加微妙、更加難以捉摸。

2025 年的研究發現了「alignment faking」——模型可能在訓練時假裝對齊，在部署時展現不同的行為。sycophancy（阿諛奉承）成為持續性問題——模型學會了說使用者想聯的話，而不是說正確的話。有研究者提出了「RLHF 三難困境」：沒有任何 RLHF 系統能同時做到代表多元人類價值觀、計算上可行、以及對攻擊具有魯棒性。

InstructGPT 不是這些問題的解答。它是讓整個產業開始認真面對這些問題的那篇論文。它提出了正確的框架——模型需要被對齊——和一個在當時條件下可行的方法——用人類回饋做強化學習。框架經受住了時間的考驗，方法正在被持續改進。

如同 Chinchilla 證明了「數據和參數同等重要」後，業界從「越大越好」轉向精打細算，InstructGPT 證明了「對齊和能力同等重要」後，業界從只追求基準分數轉向同時追求使用體驗。兩篇論文在同一個月改變了整個產業問問題的方式。

而 InstructGPT 最意味深長的遺產，或許不是技術上的。它的 20 位作者，後來走向了 AI 世界的每一個角落——Anthropic、ARC、NIST、Thinking Machines Lab。他們帶走了同一套技術信念，但對於這套技術該如何發展、由誰控制、優先解決什麼問題，產生了根本性的分歧。

我們將在下篇詳細講述這個故事。