當鸚鵡學會說話:一篇讓兩位作者丟掉工作的 AI 論文

2021 年 3 月,四位研究者在 FAccT 會議上發表了一篇論文,問了一個整個產業都不想面對的問題:語言模型可以太大嗎?這篇論文讓兩位作者被 Google 解僱,讓一位作者用化名署名,也讓「隨機鸚鵡」成為 AI 倫理最具辨識度的比喻。被引用超過八千次後,它警告的每一件事幾乎都發生了。

當鸚鵡學會說話:一篇讓兩位作者丟掉工作的 AI 論文

本文為「AI 經典文獻回顧」系列第十二篇(上),介紹 Bender et al. 於 2021 年 3 月發表的論文《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜》。這篇論文從語言學和社會學的角度,對大型語言模型的無限制擴張提出了系統性批判。下篇見〈被 Google 解僱之後:Stochastic Parrots 背後的人與 AI 倫理之爭〉。

封面圖


當鸚鵡學會說話

2021 年 3 月,一篇論文在 ACM FAccT 會議上發表。標題很長:《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜》。標題裡有一隻鸚鵡 emoji——這在學術論文中極為罕見。

但真正罕見的不是 emoji。是論文發表時的處境。

四位作者中,第二作者 Timnit Gebru 在三個月前被 Google 解僱。第四作者 Shmargaret Shmitchell——沒有,這不是打字錯誤——一個月前被 Google 解僱。她本名是 Margaret Mitchell,但因為 Google 要求她撤回署名,她用了這個一看就知道是誰的化名。

一篇論文,兩位作者丟了工作,一位作者被迫用化名。然後這篇論文被引用了超過八千次,「隨機鸚鵡」成了 AI 倫理最具辨識度的比喻。

要理解這一切是怎麼發生的,得先回到 2020 年底。那時候整個 AI 產業正在瘋狂地把模型做大。

2020 年:越大越好的狂歡

我們在這個系列的前兩篇剛介紹過那個年代的氛圍。

2020 年 1 月,Jared Kaplan 等人在 OpenAI 發表了 Scaling Laws 論文,用數學方程式證明了一件事:語言模型的表現和它的規模之間存在可預測的冪律關係。越大,越好,而且好多少可以算出來。同年 5 月,匿名部落客 Gwern 把這個發現推到極致,在〈The Scaling Hypothesis〉中主張:規模可能是通往通用智能的唯一道路。

然後是 GPT-3。2020 年 6 月,OpenAI 發布了一個 1,750 億參數的語言模型。它能寫文章、能翻譯、能寫程式碼,甚至能做一些看起來像推理的事情。整個科技圈為之瘋狂。「大就是好」不再只是一個假說,它有了一個令人印象深刻的展示品。

同年 10 月,Google 自己也加入了競賽。他們發表了 Switch Transformer,一個超過一兆參數的模型。模型規模的軍備競賽正式開打,而且 Google 是最積極的參賽者之一。

就是在這個氛圍中,Google 自己的 AI 倫理團隊的四位研究者寫了一篇論文,問了一個所有人都不想聽的問題:

語言模型可以太大嗎?

一隻鸚鵡的比喻

「Stochastic Parrots」——隨機鸚鵡。這個比喻是整篇論文最令人難忘的貢獻。

鸚鵡會說話。牠能模仿人類的語音,說出完整的句子,語調甚至很自然。但鸚鵡不理解自己在說什麼。牠不知道「你好」是打招呼的意思,牠只是學會了在特定情境下發出這串聲音。

論文的核心主張是:大型語言模型就是這樣。它們不理解語言,它們只是非常擅長統計模式匹配——根據前面出現的文字,預測下一個最可能出現的字。「Stochastic」是「隨機的」的學術說法,強調模型的輸出是機率抽樣的結果,不是理解的產物。

這個比喻的力量在於它的直覺性。你不需要懂機器學習就能理解:一隻鸚鵡說出「我愛你」,跟一個人說出「我愛你」,意義完全不同。

但比喻只是入口。論文真正要談的是四個具體的風險。

風險一:地球為此付出的代價

論文的第一個論點是環境成本。

2019 年,麻州大學阿默斯特分校的 Emma Strubell 等人做了一項研究,估算訓練一個大型 Transformer 模型產生的碳排放:大約 284 噸二氧化碳。這相當於五輛汽車從出廠到報廢的全生命週期排放總和。光是訓練一個 BERT 模型,碳足跡就跟一趟跨美國的單程航班差不多。

Bender 等人引用了這些數字,但他們的論點不只是「AI 不環保」。他們指出一個更深層的不公平:承受氣候變遷後果最嚴重的人——低收入國家的居民、沿海城市的弱勢社區——恰恰是最無法從這些大型語言模型獲益的人。科技公司在舊金山的辦公室裡訓練巨大的英語模型,排放的碳卻由全球所有人承擔。

這個論點在 2021 年聽起來可能有些誇大。但到了 2026 年——我們回頭看的時候——它顯得保守到不行。

2021 年那個 284 噸的數字?現在看起來像是遊樂場的碳排。2026 年的預測顯示,全球資料中心的電力消耗將達到約 1,050 TWh,其中 AI 專用的部分約 90 TWh——是 2022 年的十倍。AI 系統每年的碳排放預估已達 3,260 萬到 7,970 萬公噸。愛爾蘭的資料中心已經吃掉了全國 21% 的電力。美國維吉尼亞州,26%。

Bender 等人在 2021 年敲響的環境警鐘,五年後不只被驗證了,還被實際數字遠遠超越。

風險二:誰的語言,誰的世界

論文的第二個論點,也許是四個裡面最有原創性的:大不等於好,至少在訓練數據這件事上不是。

大型語言模型的訓練數據來自網路爬蟲——程式自動抓取網路上的文字。資料量越大、模型越好,這是 Scaling Laws 的核心信條。但 Bender 等人問了一個不一樣的問題:這些數據代表了誰?

答案是:不代表人類。代表的是在網路上留下大量文字的那群人。

拿 Reddit 來說。Reddit 是很多大型語言模型訓練數據的主要來源之一。但 Reddit 的用戶 67% 是美國人,64% 是 18 到 29 歲的男性。如果你拿 Reddit 的文字來訓練語言模型,你得到的不是「人類語言」的統計模型,而是「年輕美國男性在網路上說的話」的統計模型。

更麻煩的是時間。語言是動態的。用語在變、文化在變、社會規範在變。十年前在網路上被認為「正常」的說法,今天可能被視為冒犯。但訓練數據是靜態快照——抓下來的時候是什麼樣就是什麼樣。模型學到的是某一個時間點的語言狀態,包括那個時間點的偏見和盲點。

論文引用了一個具體的案例:網路上關於殘障人士的文字,大量集中在非殘障人士的視角——用同情、憐憫、甚至嫌惡的語氣談論殘障。模型學了這些數據之後,就內化了這個視角。不是因為模型「有偏見」,而是因為數據本身反映了社會的偏見。

Bender 等人的主張很清楚:不是「更多數據」就好。你需要的是「更好的數據」——經過策展、有代表性、有文件紀錄的數據。這直接挑戰了 Scaling Laws 的核心邏輯。Kaplan 說「增加數據量就能提升表現」,Bender 說「但你增加的是什麼數據?」

風險三:章魚不懂熊

論文的第三個論點回到了「鸚鵡」比喻的核心:語言模型不理解語言。

為了說明這一點,Bender 在前一年(2020 年)和語言學家 Alexander Koller 合作發表了一個思想實驗,叫做「章魚測試」。

場景是這樣的:A 和 B 是兩個英語母語者,各自困在兩座荒島上,靠一條海底電纜互傳文字訊息。一隻章魚 O 發現了這條電纜,開始竊聽。章魚不懂英語,但牠很聰明——長期觀察之後,牠學會了統計規律:B 通常怎麼回應 A 的訊息。

有一天,章魚切斷了電纜,開始冒充 B 跟 A 對話。在日常對話中,章魚表現得很好——牠知道 A 說「你好」的時候應該回什麼,知道聊天氣的套路。

但有一天,A 遭到熊的攻擊。A 驚慌地問章魚(以為是 B):「怎麼用樹枝自衛?」

章魚傻了。牠從來沒見過熊,沒見過樹枝,不知道「自衛」在物理世界中意味著什麼。牠學到的所有統計規律,在這個需要真正理解的時刻全部失效。

Bender 的論點是:大型語言模型就是這隻章魚。它們在海量文字中學會了統計規律,能夠在大多數日常場景中產出流暢、看似合理的回應。但它們沒有接觸過物理世界,沒有身體經驗,沒有真正的語義理解。

這個論點在 2021 年引發了激烈辯論。很多人認為 GPT-3 展現出的能力——寫詩、寫程式、做類比——已經超越了「純粹的統計匹配」。但 Bender 堅持:流暢不等於理解。模型輸出越流暢,人越容易被騙,以為它「懂了」。

後來的發展給了這個論點一個意想不到的驗證:幻覺(hallucination)。ChatGPT 在 2022 年底爆紅之後,全世界的使用者一起發現了一件事——語言模型會自信滿滿地說出完全不存在的事實。它不是在撒謊(撒謊需要知道什麼是真的),它是在做統計預測。就像章魚在回答關於熊的問題:它不知道自己不知道。

「隨機鸚鵡」和幻覺問題,在本質上是同一件事。

風險四:偏見的自動化

論文的第四個論點是社會傷害。

當一個帶有偏見的語言模型被部署到真實世界——用於履歷篩選、信用評分、內容審核、搜尋引擎——它不只是在重複偏見。它在放大偏見,而且用一種看起來「客觀」的方式。

一個人力資源主管可能有偏見,但至少你可以質問他。一個演算法呢?它的決策藏在數十億個參數裡,沒有人能解釋它為什麼對某些名字的履歷評分更高。而且它不會覺得累,可以一秒鐘篩選一萬份履歷,把偏見以工業化的速度和規模散播出去。

Bender 等人的論點是:建造這些系統的人——也就是大型科技公司——有責任在部署之前評估這些風險。但事實是,在 2020 年到 2021 年的「越大越好」狂潮中,幾乎沒有人在做這件事。所有人都在比誰的模型更大、更快、更能做更多事情。至於偏見?那是「後續研究」的問題。

一個不受歡迎的問題

四個風險論點合在一起,構成了一個系統性的批判:大型語言模型在環境上不可持續、在數據上有根本性缺陷、在能力上被高估、在社會影響上被忽視。

這不是在說大型語言模型「不好」。Bender 等人從來沒有主張停止所有 NLP 研究。他們主張的是:在你繼續把模型做大之前,先停下來想清楚這些問題。先做好數據的品質管控。先評估環境影響。先建立可以追蹤和糾正偏見的機制。

用論文副標題的話說:語言模型可以太大嗎?答案不是「永遠不要做大模型」,而是「先問問值不值得、代價是什麼、誰在承受」。

問題是,2020 年底的 Google,正在砸重金建造更大的語言模型。而這篇論文的兩位作者,就是 Google 自己的員工。

這就是故事真正精彩的地方——也是我們在下一篇會展開的。一篇論文如何引發了矽谷最轟動的解僱事件、撕裂了 AI 社群、並催生了一場至今未決的思想之爭。

回到 2026 年的鸚鵡

站在 2026 年 2 月回頭看,Stochastic Parrots 論文的地位很奇特。

它的每一項警告幾乎都被驗證了。環境成本不只沒有降低,反而以數量級的速度增長。訓練數據的偏見問題,在 ChatGPT 全球大規模部署之後變得比任何人預期的更加嚴重。幻覺問題——模型不理解自己在說什麼——至今仍是所有大型語言模型最根本的限制。AI 生成的假資訊和 deepfakes 正在重塑媒體生態。

但與此同時,「越大越好」的路線在商業上取得了壓倒性的勝利。ChatGPT 上線兩個月就有一億用戶。OpenAI 的估值超過了兩千億美元。Google、Microsoft、Meta 各自投入了數百億美元擴大模型規模。

這就是 Stochastic Parrots 最令人不安的地方。它對了。它的每一項預測都基本正確。但正確的警告並沒有阻止它警告的事情發生。產業聽見了鸚鵡的聲音,然後決定:我們需要更大的鸚鵡。

我們在這個系列的第十篇(Scaling Laws)和第十一篇(The Scaling Hypothesis)中,看到了「越大越好」的思想是如何從一個物理學家的觀察變成整個產業的信仰。Stochastic Parrots 是第一篇從根本上挑戰這個信仰的論文——不是用更好的數學,而是用一個完全不同的視角。語言學家看到了物理學家沒有看到的東西:你在量化的那個「表現」,到底代表了什麼?

這個問題,到今天也沒有被回答。