「請一步一步想」:五個字如何解鎖了大型語言模型的推理能力

2022 年 1 月,Google Brain 的九人團隊發現,只要在 prompt 裡加入中間推理步驟,大型語言模型解數學題的正確率就從 18% 跳到 57%。不需要任何額外訓練、不需要改動架構、不需要外部工具——只是換一種問法。這篇論文不只改變了人們使用 AI 的方式,它催生了 OpenAI o1、DeepSeek-R1、以及整個「推理模型」浪潮。

「請一步一步想」:五個字如何解鎖了大型語言模型的推理能力

本文為「AI 經典文獻回顧」系列第十三篇,介紹 2022 年由 Jason Wei 等九位 Google Brain 研究者發表的 Chain-of-Thought Prompting 論文。這篇論文揭示了一個令整個領域震驚的事實:大型語言模型其實已經會推理了——只是沒有人用對方法問它。

封面圖


數學考試的問法

先做一道小學數學題。

一個雜耍師可以拋 16 顆球。其中一半是高爾夫球,而高爾夫球中有一半是藍色的。請問有幾顆藍色的高爾夫球?

你大概秒答:4。但 2021 年底的大型語言模型不行。你把這道題丟給 PaLM 540B——Google 當時最大的語言模型,5,400 億個參數——它的正確率只有 18%。

問題不是模型太笨。問題是我們問法太直接。

2022 年 1 月 28 日,Google Brain 的九位研究者在 arXiv 上傳了一篇論文,提出了一個簡單到不可思議的解法:在 few-shot prompt 的範例中,不要只給「問題→答案」,而是給「問題→推理步驟→答案」。

就這樣。沒有 fine-tuning。沒有架構改動。沒有外部計算機。只是在範例裡多寫幾行「中間步驟」。

結果:同一個模型,正確率從 18% 跳到 57%。三倍。

他們把這個技巧叫做 Chain-of-Thought Prompting——思維鏈提示。


為什麼多寫幾行字就有用

在 CoT 之前,few-shot prompting 長這樣:

Q:一個雜耍師可以拋 16 顆球…… A:4

模型看到幾組「問題→短答案」的範例,然後被要求對新問題直接給出答案。對簡單問題這行得通。但對需要多步推理的問題,模型必須在一次 forward pass 裡完成所有中間計算——這就像要求一個學生在考試時只能寫答案、不能打草稿。

CoT prompting 改變了範例的格式:

Q:一個雜耍師可以拋 16 顆球。其中一半是高爾夫球,一半的高爾夫球是藍色的。請問有幾顆藍色高爾夫球? A:雜耍師有 16 顆球。一半是高爾夫球,所以有 16 ÷ 2 = 8 顆高爾夫球。一半的高爾夫球是藍色的,所以有 8 ÷ 2 = 4 顆。答案是 4。

為什麼這有效?因為生成的每一個 token 都是一次額外的計算。Transformer 的每一層提供固定的計算量。當模型被迫一步到位給出答案,它的計算預算就是那固定的幾十層。但當模型被引導去生成中間步驟,每一個新 token 都觸發一次完整的 forward pass——等於把固定深度的計算圖,拉長成了任意長度的序列計算。

用白話說:草稿紙就是算力。


小模型學不會

Wei 團隊測試了五個模型家族、多種參數規模。最關鍵的發現不是 CoT 有效,而是它只在大模型上有效

PaLM 8B 加了 CoT?正確率持平,甚至更差。模型會生成看起來很合理的推理鏈——每一步都用了正確的格式,寫了算式,但邏輯是錯的。一個流暢的、自信的、完全錯誤的推理過程。

PaLM 62B 好一點,小幅提升。PaLM 540B?三倍躍升。

這個現象後來被稱為「湧現能力」(emergent ability)——某些能力只在模型跨過特定規模門檻後才突然出現。Wei 自己在幾個月後發表了另一篇論文〈Emergent Abilities of Large Language Models〉專門討論這件事。

湧現的意思是:8B 和 540B 不是量的差異,是質的差異。小模型不是推理能力弱——它根本沒有推理能力。你教一隻貓打草稿,牠只會在紙上留下爪印。

(不過這個說法後來被挑戰了。2023 年,Schaeffer 等人在〈Are Emergent Abilities of Large Language Models a Mirage?〉中論證,湧現可能是度量方式造成的統計假象,不是真正的相變。這場辯論至今沒有定論。)


「Let's think step by step」

Wei 等人的論文需要手寫 few-shot 範例——每個任務都要準備幾組帶推理步驟的範例。四個月後,東京大學的 Kojima 等人提出了一個更極端的版本:你甚至不需要範例。

在問題後面加一句「Let's think step by step」就夠了。

這篇論文叫〈Large Language Models are Zero-Shot Reasoners〉,同樣發表在 NeurIPS 2022。它測試了各種 zero-shot prompt——「讓我們邏輯性地想一下」、「讓我們把問題拆成步驟」——結果「Let's think step by step」效果最好。

五個英文字,解鎖了神經網路的推理能力。

這兩篇論文合在一起,畫出了一個令人不安的圖像:大型語言模型其實已經「會」推理了。推理能力不是在 CoT 訓練出來的——它在預訓練階段就已經存在,藏在模型讀過的千萬篇教科書、StackOverflow 回答、數學教程裡。CoT 沒有教會模型新能力。它只是找到了正確的開關。

這是 AI 領域反覆出現的主題:我們以為模型不行,其實是我們不會問。


九位作者,五種背景

CoT 論文的九位作者全部來自 Google Brain,但他們的背景出奇地多元。

Jason Wei 是第一作者,也是最不尋常的一位。他 2020 年從 Dartmouth College 畢業——本科,不是博士——直接進入 Google Brain 的 AI Residency 計畫。兩年後,22 歲的他已經是 FLAN(instruction tuning 先驅)和 Chain-of-Thought 兩篇改變領域的論文的第一作者。他後來去了 OpenAI,參與了 o1 推理模型的開發,2025 年 7 月轉到 Meta Superintelligence Labs。一個沒有博士學位的研究者,寫出了整個推理研究路線的起點。

Denny Zhou 是末位作者,也是這個團隊的靈魂。他在中國科學院拿到博士,在 Max Planck Institute 跟 Bernhard Schölkopf 做博後,在 Microsoft Research 待了 11 年,2017 年加入 Google Brain 並創辦了 Reasoning Team——就是產出 CoT、Self-Consistency、Least-to-Most Prompting 這一系列突破的團隊。Google Brain 與 DeepMind 合併後,他的 Reasoning Team 成了 Gemini 團隊的一部分。他至今仍在 Google DeepMind,Google Scholar 引用超過 10 萬。

Quoc V. Le 是 Google Brain 的四位共同創辦人之一。他出生在越南順化,在 Stanford 讀博(指導教授是 Andrew Ng),2011 年與 Andrew Ng、Jeff Dean 一起創建了 Google Brain。他的履歷讀起來像一部深度學習史:2012 年的「貓神經元」實驗、2014 年與 Ilya Sutskever 合作的 Seq2Seq、2017 年的 Neural Architecture Search、2024 年發表在 Nature 上的 AlphaGeometry。Google Scholar 引用超過 15 萬。

Ed Chi 出生在台北,9 年級移民美國,在 University of Minnesota 完成全部學歷,2011 年加入 Google,2021 年升任 Distinguished Scientist——Google 研究體系中僅次於 Google Fellow 的最高職級。2022 年當選 ACM Fellow。他在論文中代表的是資深研究領導的角色。

還有兩位作者來自機器人團隊:Brian Ichter(Stanford 航太工程博士)和 Fei Xia(清華大學→Stanford),他們的存在揭示了 CoT 研究的一個被忽略的動機——Google Brain 的機器人團隊需要讓語言模型學會一步一步推理,才能用來做機器人任務規劃。Ichter 後來離開 Google,共同創辦了機器人 AI 新創 Physical Intelligence。

九位作者中有七位在 Google Brain 與 DeepMind 合併後留下。只有 Wei 去了 OpenAI 再到 Meta,Ichter 去創業。


從一個 prompting 技巧到整個產業路線

CoT 論文最深遠的影響,不在於它本身的實驗結果——那些數字早已被後續工作刷新。它的影響在於它開啟的研究範式

2022 年,CoT 的直接後續接連出現。Xuezhi Wang(CoT 論文的第二作者)提出 Self-Consistency——對同一個問題採樣多條推理路徑,用多數決選答案,把 GSM8K 正確率從 57% 推到 74%。Denny Zhou 自己領銜的 Least-to-Most Prompting 教模型先把複雜問題拆成子問題,再依序解決。Tree of Thoughts(2023)把線性的推理鏈推廣成樹狀搜索,讓模型可以回溯。ReAct 讓模型在推理和行動之間交替——想一步,做一步,觀察結果,再想下一步。

但真正的革命發生在 2024 年 9 月。

OpenAI 發布了 o1——一個被訓練來在回答之前進行長時間推理的模型。o1 不是靠 prompt 來觸發推理,而是用強化學習讓模型學會自動產生長長的思維鏈。CoT 從一個 prompting 技巧變成了模型訓練目標。Jason Wei——CoT 的第一作者——正是 o1 團隊的核心成員之一。

2025 年初,DeepSeek-R1 用類似的方法訓練推理能力,Anthropic 的 Claude 推出了 extended thinking。「推理模型」成了 2025 年 AI 領域最熱門的關鍵字。

從「prompt 裡多寫幾行推理步驟」到「用 RL 訓練模型自己生成推理」,邏輯是連貫的:都是用更多的 token 換取更好的答案。Wei 等人在 2022 年發現了開關。後續的工作是讓模型學會自己按開關。


鸚鵡真的學會思考了嗎?

這是一個無法迴避的問題。

在本系列上一篇(#12,Stochastic Parrots),我們看到 Bender 和 Gebru 的核心論點:語言模型只是在統計模式上做匹配,它們不理解語言。CoT 的擁護者可能會說:「但它們會解數學題了,這不是理解嗎?」Bender 可能會回答:「一隻鸚鵡學會了更長的句子,不代表牠理解了內容。」

CoT 的湧現現象——小模型生成流暢但錯誤的推理鏈——某種程度上同時支持了雙方。支持 CoT 的人說:大模型確實展現了推理能力。支持 Stochastic Parrots 的人說:小模型流暢地胡說八道,恰好證明了流暢不等於理解。

更微妙的張力來自本系列的第九篇——Rich Sutton 的 The Bitter Lesson。Sutton 在 2019 年寫道:所有試圖把人類知識注入 AI 的方法,最終都會被純粹的算力擊敗。CoT 看起來像是一個反例——一個 clever algorithm,一個人類洞見,確實有效。但 o1 把 CoT 變成了什麼?變成了算力。更多的推理 token = 更多的計算。Bitter Lesson 又贏了。

而在系列第十篇和第十一篇(Scaling Laws 和 The Scaling Hypothesis),我們看到了「越大越好」的信念。CoT 是這個信念最好的證據之一:推理能力只在大模型上湧現。但 Chinchilla(本系列下一篇)即將在同一年挑戰這個信念——不是越大越好,而是數據和參數必須同步擴展。

每一篇經典文獻都在跟其他篇對話。CoT 站在 Scaling Laws 和 Stochastic Parrots 的交叉點上——它用 Scaling 的邏輯(更大的模型)解鎖了 Stochastic Parrots 質疑的能力(推理)。誰是對的?也許兩邊都是。也許推理和理解不是同一件事。


一種問法,改變了整個領域

站在 2026 年 2 月回望,Chain-of-Thought Prompting 最讓人驚歎的不是它有多複雜。恰恰相反——是它有多簡單。

在 few-shot 範例裡多寫幾行推理步驟。或者,更簡單地,在問題後面加一句「Let's think step by step」。

就這樣。

這篇論文告訴我們的,也許不只是一個 prompting 技巧。它告訴我們一個更深層的道理:我們對自己建造的系統的理解,遠遠落後於這些系統的實際能力。推理能力不是在 2022 年被發明的。它一直都在那裡。差的只是一種問法。

Wei 現在在 Meta,Zhou 還在 Google DeepMind 領導推理研究,Le 仍在他共同創辦的組織裡做著跨時代的工作,Ichter 在用 CoT 的思路教機器人一步一步行動。這篇論文最核心的洞見已經被吸收進了整個產業的 DNA:想清楚再回答,比直覺反應更好。

這個道理對人類同樣適用。