AI 技術前沿

當鸚鵡學會說話：一篇讓兩位作者丟掉工作的 AI 論文

2021 年 3 月，四位研究者在 FAccT 會議上發表了一篇論文，問了一個整個產業都不想面對的問題：語言模型可以太大嗎？這篇論文讓兩位作者被 Google 解僱，讓一位作者用化名署名，也讓「隨機鸚鵡」成為 AI 倫理最具辨識度的比喻。被引用超過八千次後，它警告的每一件事幾乎都發生了。

2021 年 2 月 28 日 · 來源： ACM Digital Library

本文為「AI 經典文獻回顧」系列第十二篇（上），介紹 Bender et al. 於 2021 年 3 月發表的論文《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜》。這篇論文從語言學和社會學的角度，對大型語言模型的無限制擴張提出了系統性批判。下篇見〈被 Google 解僱之後：Stochastic Parrots 背後的人與 AI 倫理之爭〉。

封面圖

當鸚鵡學會說話

2021 年 3 月，一篇論文在 ACM FAccT 會議上發表。標題很長：《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜》。標題裡有一隻鸚鵡 emoji——這在學術論文中極為罕見。

但真正罕見的不是 emoji。是論文發表時的處境。

四位作者中，第二作者 Timnit Gebru 在三個月前被 Google 解僱。第四作者 Shmargaret Shmitchell——沒有，這不是打字錯誤——一個月前被 Google 解僱。她本名是 Margaret Mitchell，但因為 Google 要求她撤回署名，她用了這個一看就知道是誰的化名。

一篇論文，兩位作者丟了工作，一位作者被迫用化名。然後這篇論文被引用了超過八千次，「隨機鸚鵡」成了 AI 倫理最具辨識度的比喻。

要理解這一切是怎麼發生的，得先回到 2020 年底。那時候整個 AI 產業正在瘋狂地把模型做大。

2020 年：越大越好的狂歡

我們在這個系列的前兩篇剛介紹過那個年代的氛圍。

2020 年 1 月，Jared Kaplan 等人在 OpenAI 發表了 Scaling Laws 論文，用數學方程式證明了一件事：語言模型的表現和它的規模之間存在可預測的冪律關係。越大，越好，而且好多少可以算出來。同年 5 月，匿名部落客 Gwern 把這個發現推到極致，在〈The Scaling Hypothesis〉中主張：規模可能是通往通用智能的唯一道路。

然後是 GPT-3。2020 年 6 月，OpenAI 發布了一個 1,750 億參數的語言模型。它能寫文章、能翻譯、能寫程式碼，甚至能做一些看起來像推理的事情。整個科技圈為之瘋狂。「大就是好」不再只是一個假說，它有了一個令人印象深刻的展示品。

同年 10 月，Google 自己也加入了競賽。他們發表了 Switch Transformer，一個超過一兆參數的模型。模型規模的軍備競賽正式開打，而且 Google 是最積極的參賽者之一。

就是在這個氛圍中，Google 自己的 AI 倫理團隊的四位研究者寫了一篇論文，問了一個所有人都不想聽的問題：

語言模型可以太大嗎？

一隻鸚鵡的比喻

「Stochastic Parrots」——隨機鸚鵡。這個比喻是整篇論文最令人難忘的貢獻。

鸚鵡會說話。牠能模仿人類的語音，說出完整的句子，語調甚至很自然。但鸚鵡不理解自己在說什麼。牠不知道「你好」是打招呼的意思，牠只是學會了在特定情境下發出這串聲音。

論文的核心主張是：大型語言模型就是這樣。它們不理解語言，它們只是非常擅長統計模式匹配——根據前面出現的文字，預測下一個最可能出現的字。「Stochastic」是「隨機的」的學術說法，強調模型的輸出是機率抽樣的結果，不是理解的產物。

這個比喻的力量在於它的直覺性。你不需要懂機器學習就能理解：一隻鸚鵡說出「我愛你」，跟一個人說出「我愛你」，意義完全不同。

但比喻只是入口。論文真正要談的是四個具體的風險。

風險一：地球為此付出的代價

論文的第一個論點是環境成本。

2019 年，麻州大學阿默斯特分校的 Emma Strubell 等人做了一項研究，估算訓練一個大型 Transformer 模型產生的碳排放：大約 284 噸二氧化碳。這相當於五輛汽車從出廠到報廢的全生命週期排放總和。光是訓練一個 BERT 模型，碳足跡就跟一趟跨美國的單程航班差不多。

Bender 等人引用了這些數字，但他們的論點不只是「AI 不環保」。他們指出一個更深層的不公平：承受氣候變遷後果最嚴重的人——低收入國家的居民、沿海城市的弱勢社區——恰恰是最無法從這些大型語言模型獲益的人。科技公司在舊金山的辦公室裡訓練巨大的英語模型，排放的碳卻由全球所有人承擔。

這個論點在 2021 年聽起來可能有些誇大。但到了 2026 年——我們回頭看的時候——它顯得保守到不行。

2021 年那個 284 噸的數字？現在看起來像是遊樂場的碳排。2026 年的預測顯示，全球資料中心的電力消耗將達到約 1,050 TWh，其中 AI 專用的部分約 90 TWh——是 2022 年的十倍。AI 系統每年的碳排放預估已達 3,260 萬到 7,970 萬公噸。愛爾蘭的資料中心已經吃掉了全國 21% 的電力。美國維吉尼亞州，26%。

Bender 等人在 2021 年敲響的環境警鐘，五年後不只被驗證了，還被實際數字遠遠超越。

風險二：誰的語言，誰的世界

論文的第二個論點，也許是四個裡面最有原創性的：大不等於好，至少在訓練數據這件事上不是。

大型語言模型的訓練數據來自網路爬蟲——程式自動抓取網路上的文字。資料量越大、模型越好，這是 Scaling Laws 的核心信條。但 Bender 等人問了一個不一樣的問題：這些數據代表了誰？

答案是：不代表人類。代表的是在網路上留下大量文字的那群人。

拿 Reddit 來說。Reddit 是很多大型語言模型訓練數據的主要來源之一。但 Reddit 的用戶 67% 是美國人，64% 是 18 到 29 歲的男性。如果你拿 Reddit 的文字來訓練語言模型，你得到的不是「人類語言」的統計模型，而是「年輕美國男性在網路上說的話」的統計模型。

更麻煩的是時間。語言是動態的。用語在變、文化在變、社會規範在變。十年前在網路上被認為「正常」的說法，今天可能被視為冒犯。但訓練數據是靜態快照——抓下來的時候是什麼樣就是什麼樣。模型學到的是某一個時間點的語言狀態，包括那個時間點的偏見和盲點。

論文引用了一個具體的案例：網路上關於殘障人士的文字，大量集中在非殘障人士的視角——用同情、憐憫、甚至嫌惡的語氣談論殘障。模型學了這些數據之後，就內化了這個視角。不是因為模型「有偏見」，而是因為數據本身反映了社會的偏見。

Bender 等人的主張很清楚：不是「更多數據」就好。你需要的是「更好的數據」——經過策展、有代表性、有文件紀錄的數據。這直接挑戰了 Scaling Laws 的核心邏輯。Kaplan 說「增加數據量就能提升表現」，Bender 說「但你增加的是什麼數據？」

風險三：章魚不懂熊

論文的第三個論點回到了「鸚鵡」比喻的核心：語言模型不理解語言。

為了說明這一點，Bender 在前一年（2020 年）和語言學家 Alexander Koller 合作發表了一個思想實驗，叫做「章魚測試」。

場景是這樣的：A 和 B 是兩個英語母語者，各自困在兩座荒島上，靠一條海底電纜互傳文字訊息。一隻章魚 O 發現了這條電纜，開始竊聽。章魚不懂英語，但牠很聰明——長期觀察之後，牠學會了統計規律：B 通常怎麼回應 A 的訊息。

有一天，章魚切斷了電纜，開始冒充 B 跟 A 對話。在日常對話中，章魚表現得很好——牠知道 A 說「你好」的時候應該回什麼，知道聊天氣的套路。

但有一天，A 遭到熊的攻擊。A 驚慌地問章魚（以為是 B）：「怎麼用樹枝自衛？」

章魚傻了。牠從來沒見過熊，沒見過樹枝，不知道「自衛」在物理世界中意味著什麼。牠學到的所有統計規律，在這個需要真正理解的時刻全部失效。

Bender 的論點是：大型語言模型就是這隻章魚。它們在海量文字中學會了統計規律，能夠在大多數日常場景中產出流暢、看似合理的回應。但它們沒有接觸過物理世界，沒有身體經驗，沒有真正的語義理解。

這個論點在 2021 年引發了激烈辯論。很多人認為 GPT-3 展現出的能力——寫詩、寫程式、做類比——已經超越了「純粹的統計匹配」。但 Bender 堅持：流暢不等於理解。模型輸出越流暢，人越容易被騙，以為它「懂了」。

後來的發展給了這個論點一個意想不到的驗證：幻覺（hallucination）。ChatGPT 在 2022 年底爆紅之後，全世界的使用者一起發現了一件事——語言模型會自信滿滿地說出完全不存在的事實。它不是在撒謊（撒謊需要知道什麼是真的），它是在做統計預測。就像章魚在回答關於熊的問題：它不知道自己不知道。

「隨機鸚鵡」和幻覺問題，在本質上是同一件事。

風險四：偏見的自動化

論文的第四個論點是社會傷害。

當一個帶有偏見的語言模型被部署到真實世界——用於履歷篩選、信用評分、內容審核、搜尋引擎——它不只是在重複偏見。它在放大偏見，而且用一種看起來「客觀」的方式。

一個人力資源主管可能有偏見，但至少你可以質問他。一個演算法呢？它的決策藏在數十億個參數裡，沒有人能解釋它為什麼對某些名字的履歷評分更高。而且它不會覺得累，可以一秒鐘篩選一萬份履歷，把偏見以工業化的速度和規模散播出去。

Bender 等人的論點是：建造這些系統的人——也就是大型科技公司——有責任在部署之前評估這些風險。但事實是，在 2020 年到 2021 年的「越大越好」狂潮中，幾乎沒有人在做這件事。所有人都在比誰的模型更大、更快、更能做更多事情。至於偏見？那是「後續研究」的問題。

一個不受歡迎的問題

四個風險論點合在一起，構成了一個系統性的批判：大型語言模型在環境上不可持續、在數據上有根本性缺陷、在能力上被高估、在社會影響上被忽視。

這不是在說大型語言模型「不好」。Bender 等人從來沒有主張停止所有 NLP 研究。他們主張的是：在你繼續把模型做大之前，先停下來想清楚這些問題。先做好數據的品質管控。先評估環境影響。先建立可以追蹤和糾正偏見的機制。

用論文副標題的話說：語言模型可以太大嗎？答案不是「永遠不要做大模型」，而是「先問問值不值得、代價是什麼、誰在承受」。

問題是，2020 年底的 Google，正在砸重金建造更大的語言模型。而這篇論文的兩位作者，就是 Google 自己的員工。

這就是故事真正精彩的地方——也是我們在下一篇會展開的。一篇論文如何引發了矽谷最轟動的解僱事件、撕裂了 AI 社群、並催生了一場至今未決的思想之爭。

回到 2026 年的鸚鵡

站在 2026 年 2 月回頭看，Stochastic Parrots 論文的地位很奇特。

它的每一項警告幾乎都被驗證了。環境成本不只沒有降低，反而以數量級的速度增長。訓練數據的偏見問題，在 ChatGPT 全球大規模部署之後變得比任何人預期的更加嚴重。幻覺問題——模型不理解自己在說什麼——至今仍是所有大型語言模型最根本的限制。AI 生成的假資訊和 deepfakes 正在重塑媒體生態。

但與此同時，「越大越好」的路線在商業上取得了壓倒性的勝利。ChatGPT 上線兩個月就有一億用戶。OpenAI 的估值超過了兩千億美元。Google、Microsoft、Meta 各自投入了數百億美元擴大模型規模。

這就是 Stochastic Parrots 最令人不安的地方。它對了。它的每一項預測都基本正確。但正確的警告並沒有阻止它警告的事情發生。產業聽見了鸚鵡的聲音，然後決定：我們需要更大的鸚鵡。

我們在這個系列的第十篇（Scaling Laws）和第十一篇（The Scaling Hypothesis）中，看到了「越大越好」的思想是如何從一個物理學家的觀察變成整個產業的信仰。Stochastic Parrots 是第一篇從根本上挑戰這個信仰的論文——不是用更好的數學，而是用一個完全不同的視角。語言學家看到了物理學家沒有看到的東西：你在量化的那個「表現」，到底代表了什麼？

這個問題，到今天也沒有被回答。