AI 不該被訓練,應該被「養大」:神經演化為什麼正在重返主流

當梯度下降碰上不可微分的搜尋空間就束手無策,演化演算法卻不在乎。哥本哈根 IT 大學教授 Sebastian Risi 解釋為什麼 AI 應該像生物一樣「生長」,以及 Sakana AI 如何用 LLM 當突變算子,讓演化方法重返前沿。

AI 不該被訓練,應該被「養大」:神經演化為什麼正在重返主流

本文整理自 Eye on AI Podcast 第 330 集,2026 年 5 月播出。

蒙眼登山者的困境

想像你被蒙住雙眼,站在一片起伏不定的山地上,任務是找到最低的谷底。你唯一能做的,是用腳尖探一下四周的坡度,然後朝感覺最陡的方向踏一步。這就是梯度下降——當代 AI 訓練的核心演算法——在做的事。它精準、高效,在一片平滑的丘陵地形上幾乎無往不利。

但如果地形不是平滑的呢?如果你腳下是佈滿巨石的碎石坡,每走一步都可能踩進一個假谷底,再也爬不出來?更根本的問題是:如果你不只是在調整「往哪走」,而是需要決定「該長幾條腿」「每條腿用什麼關節」——這些離散的結構性問題,梯度下降根本無法計算斜率。

這正是哥本哈根 IT 大學教授、Sakana AI 研究員 Sebastian Risi 在 Eye on AI Podcast 上提出的核心論點:梯度下降是一把精良的手術刀,但不是萬能工具。當搜尋空間不可微分、當你需要同時最佳化架構與學習規則、當損失曲面崎嶇到局部斜率完全不能反映全域方向時,你需要另一套方法。

那套方法,就是神經演化(Neuroevolution)。

神經演化:不跟著斜率走,跟著適者生存走

神經演化的邏輯很直覺。與其派一個蒙眼的登山者去摸索斜率,不如同時撒下一百個人——每個人用不同策略、站在不同位置。一輪結束後,看誰站得最低,把他們的策略打散重組,產生下一代一百人,再撒下去。不需要任何人知道「哪邊是下坡」,只需要比較誰的結果比較好。

這裡的「策略」不只是權重數值。演化可以同時搜尋網路架構(該有幾層、每層多寬)、學習規則(突觸該怎麼更新自己)、超參數(學習率該設多少)、甚至離散的設計決策(要不要加注意力機制)。這些都是梯度下降碰不到的東西——因為它們要嘛不連續,要嘛梯度算出來也沒意義。

Risi 在 Podcast 中用一句話總結了演化的根本優勢:演化根本不在乎你的搜尋空間是不是可微分的。這句話聽起來簡單,卻是整個方法論存在的理由。過去十年,深度學習的爆發幾乎全部建立在「可微分」這個前提上——反向傳播需要它,自動微分框架需要它,連 Transformer 的注意力機制設計都是為了保持端到端可微分。但這也意味著,所有不符合這個前提的問題,都被排除在深度學習的舒適圈之外。

權重永不凍結:被切掉一條腿還能走的機器人

Risi 實驗室最引人注目的成果之一,是一隻四足機器人。牠的特殊之處不在於走得多好,而在於被研究者切掉一條腿之後,仍然能繼續行走——儘管牠在訓練過程中從未見過這種情境。

秘密在於「可塑性」。傳統神經網路的訓練模式是:先花大量時間調整權重,調完之後凍結,然後部署。部署之後的網路是靜態的——權重不再改變。但 Risi 的做法不同:他用演化搜尋的不是一組固定權重,而是「每個突觸的學習規則」。具體來說,每條突觸連結都帶有一個 Hebbian 規則——當兩端的神經元同時活化時,連結就加強。演化找到的是一套好的 Hebbian 規則集合,部署之後,網路從隨機初始化開始,在與環境互動的過程中即時自我組織。

這就是為什麼切掉一條腿不會致命。傳統固定權重的網路面對這種前所未見的干擾只能束手無策,因為它的權重是為四條腿的情境優化的。但 Hebbian 網路的權重從來沒有「凍結」——它們每時每刻都在根據當前的感測輸入自我調整。少了一條腿?幾步之內,剩下三條腿的協調方式就會被重新組織出來。

更進一步,Risi 的團隊還引入了「神經調節」(Neuromodulation)機制:額外的神經元負責控制「學習開關」——告訴其他神經元什麼時候應該學、什麼時候應該維持現狀。這模仿了生物大腦中多巴胺等神經調節物質的角色,有效緩解了「災難性遺忘」——一個困擾持續學習系統的經典難題。

從一顆神經元長出一整個大腦

如果可塑性是讓網路在部署後持續學習,那「生長」就是更激進的下一步:連網路的結構本身都不是預先設計好的,而是像生物胚胎一樣,從一個細胞開始,逐步分裂、分化、長成完整的神經系統。

這是 Risi 主導的歐盟「Grow AI」計畫的核心野心。他們設計了一種「神經發育程式」(Neural Developmental Program, NDP)——一個小型神經網路,駐在每個神經元裡面,根據當前兩個節點的狀態,決定要不要產生新的節點、以及怎麼調整兩者之間的連結。被演化搜尋的不是大網路的權重,而是這個小小的 NDP——它就是「DNA」,而大網路是 DNA 表達出來的「身體」。

靈感來自生物的神經發生(neurogenesis)和形態發生(morphogenesis)。人類大腦的 860 億個神經元不是被逐一設計的,而是一套基因程式反覆執行的結果。Grow AI 的目標是複製這個邏輯:用一套緊湊的「基因程式」,生長出遠比它自身複雜的結構。

目前這條路線已經在小型 MNIST 任務上將網路生長到幾千個節點。但 Risi 坦承,有一個關鍵的工程挑戰:如果不給生長過程施加能量約束,網路會無限膨脹,然後把所有運算集中到少數幾條連結上——形同浪費了所有多出來的結構。解法是多目標優化,同時追求任務表現和網路精簡,模仿生物體的能量代謝壓力。另一個更深層的問題是「持續發育」——如何在增加新結構的同時,不忘記怎麼長出舊結構。這本質上是發育過程內部的持續學習問題。

欺騙性適應度:為什麼單一目標會害你走進死胡同

演化方法有一個出乎意料的陷阱。考慮一個 T 形迷宮實驗:老鼠必須學會記住哪條岔路有較大的獎勵。如果你用單一的適應度函數(「找到越多獎勵越好」)來選擇演化方向,會發生什麼事?

答案是:一個固定走右邊的策略(50% 正確率)會淘汰掉一個正在學習但初期表現更差的策略。因為學習需要犯錯——走錯了才知道要換邊——所以一個「真正在學」的智能體在早期的表現,反而比一個盲目但恰好猜對的基準線更差。天擇會無情地殺死那條正在通往真正智慧的血脈。

這就是為什麼演化 AI 領域發展出了「品質多樣性」(Quality-Diversity)方法。它不只獎勵適應度高的個體,也獎勵行為獨特的個體——哪怕它們目前表現不佳,只要它們的「行為指紋」是族群中沒人做過的。這保護了跳板行為(stepping-stone behaviors):它們本身不是答案,但它們是通往答案的必經之路。

Risi 把這個概念與「開放式搜尋」(Open-Ended Search)連結在一起。他的團隊開發的 POET 系統,讓雙足行走智能體和它的地形同時演化——從平地開始,逐步出現溝壑和障礙。如果你直接把最難的地形丟給從零開始的智能體,它永遠學不會;只有透過課程式的共同演化,一步步建立起必要的踏腳石行為,最終才能征服複雜環境。OMNI 則把這個想法擴展到 LLM 生成的 Unity 環境,開啟了遠比手工設計豐富的演化空間。

當 LLM 遇上演化:Sakana AI 的三把火

如果前面講的是「演化能做什麼梯度下降做不到的事」,那 Sakana AI 正在回答的問題是:「演化和 LLM 能怎麼結合?」

第一把火:演化模型合併。 把一個擅長日文的模型和一個擅長數學的模型,拆成若干層,讓演化去搜尋最佳的層組合方式,產生一個同時擅長日文和數學的新模型——不需要從頭重新訓練。Risi 指出,這個方法在幾億參數的模型規模上效果最好;對前沿規模的模型,瓶頸不在合併本身,而在合併後的評估成本。

第二把火:LLM 當突變算子。 這是 Sakana 的 Shinka Evolve 系統(類似 DeepMind 的 AlphaEvolve)和 AI Scientist 計畫的核心概念。傳統演化用隨機位元翻轉來產生變異,效率極低。但如果你的「基因」不是位元序列而是程式碼或研究假設呢?LLM 天生就能讀懂程式碼的語意,所以它可以產生有意義的變異——不只是隨機改一行,而是理解上下文後做出合理的修改。演化負責方向(哪些變異被保留),LLM 負責提議(變異的品質)。Risi 用一句話概括:你用演化來導航搜尋空間,但用語言模型當突變算子。AI Scientist 已經產出了一篇被 Workshop 接收的論文;品質多樣性確保搜尋不會坍塌到單一局部最優解。

第三把火:連續思維機(Continuous Thought Machine)。 這是 Sakana 對「Transformer 之後是什麼」的賭注之一。在這個架構中,每個神經元本身是一個小型網路,帶有活化記憶;神經元之間透過振盪和同步來表徵資訊——靈感來自生物大腦的腦波節律。最關鍵的特性是:網路可以自行決定要思考多久。在影像分類任務上,它的「注視模式」像極了人類的眼動追蹤——遇到簡單圖片迅速做出判斷,遇到困難圖片則反覆掃視關鍵區域。這不再是 Transformer 那種「輸入進去、輸出出來」的一次性運算,而是一個能主動分配認知資源的系統。

純語言推理的天花板

Risi 在 Podcast 尾聲提出一個值得深思的觀點:如果一個模型只能輸出語言,它能做到的事情終究有限。一個五十年前訓練出來的模型大概不會發明 iPhone——不是因為它不夠聰明,而是因為 iPhone 的發明需要觸碰真實世界、做實驗、觀察材料的反應、迭代設計。純粹的文字推理可以重組已知知識,但要真正跨越訓練分布的邊界,AI 系統必須能夠影響世界並觀察結果——就像人類學習的方式。

這就是為什麼 Risi 特別看好將 LLM 與自動化實驗設備結合的路線:Lila Science 用機器人做材料合成,Insilico Medicine 用自動化溼實驗室做藥物發現。演化提供搜尋框架,LLM 提供語意理解,而物理世界提供真正的訊號——三者合一,才有機會突破「只是重排訓練資料」的天花板。

回到文章開頭的比喻:也許 AI 的未來不是訓練一個越來越大的蒙眼登山者,讓它在越來越平滑的地形上走得越來越快。也許 AI 的未來是讓一群策略各異的探索者,在不斷生長、不斷變化的地形上,自己長出征服地形所需要的身體。不是訓練出來的,是養大的。