AI 技術前沿

AI 不該被訓練，應該被「養大」：神經演化為什麼正在重返主流

當梯度下降碰上不可微分的搜尋空間就束手無策，演化演算法卻不在乎。哥本哈根 IT 大學教授 Sebastian Risi 解釋為什麼 AI 應該像生物一樣「生長」，以及 Sakana AI 如何用 LLM 當突變算子，讓演化方法重返前沿。

2026 年 5 月 16 日 · 來源： Eye on AI

本文整理自 Eye on AI Podcast 第 330 集，2026 年 5 月播出。

蒙眼登山者的困境

想像你被蒙住雙眼，站在一片起伏不定的山地上，任務是找到最低的谷底。你唯一能做的，是用腳尖探一下四周的坡度，然後朝感覺最陡的方向踏一步。這就是梯度下降——當代 AI 訓練的核心演算法——在做的事。它精準、高效，在一片平滑的丘陵地形上幾乎無往不利。

但如果地形不是平滑的呢？如果你腳下是佈滿巨石的碎石坡，每走一步都可能踩進一個假谷底，再也爬不出來？更根本的問題是：如果你不只是在調整「往哪走」，而是需要決定「該長幾條腿」「每條腿用什麼關節」——這些離散的結構性問題，梯度下降根本無法計算斜率。

這正是哥本哈根 IT 大學教授、Sakana AI 研究員 Sebastian Risi 在 Eye on AI Podcast 上提出的核心論點：梯度下降是一把精良的手術刀，但不是萬能工具。當搜尋空間不可微分、當你需要同時最佳化架構與學習規則、當損失曲面崎嶇到局部斜率完全不能反映全域方向時，你需要另一套方法。

那套方法，就是神經演化（Neuroevolution）。

神經演化：不跟著斜率走，跟著適者生存走

神經演化的邏輯很直覺。與其派一個蒙眼的登山者去摸索斜率，不如同時撒下一百個人——每個人用不同策略、站在不同位置。一輪結束後，看誰站得最低，把他們的策略打散重組，產生下一代一百人，再撒下去。不需要任何人知道「哪邊是下坡」，只需要比較誰的結果比較好。

這裡的「策略」不只是權重數值。演化可以同時搜尋網路架構（該有幾層、每層多寬）、學習規則（突觸該怎麼更新自己）、超參數（學習率該設多少）、甚至離散的設計決策（要不要加注意力機制）。這些都是梯度下降碰不到的東西——因為它們要嘛不連續，要嘛梯度算出來也沒意義。

Risi 在 Podcast 中用一句話總結了演化的根本優勢：演化根本不在乎你的搜尋空間是不是可微分的。這句話聽起來簡單，卻是整個方法論存在的理由。過去十年，深度學習的爆發幾乎全部建立在「可微分」這個前提上——反向傳播需要它，自動微分框架需要它，連 Transformer 的注意力機制設計都是為了保持端到端可微分。但這也意味著，所有不符合這個前提的問題，都被排除在深度學習的舒適圈之外。

權重永不凍結：被切掉一條腿還能走的機器人

Risi 實驗室最引人注目的成果之一，是一隻四足機器人。牠的特殊之處不在於走得多好，而在於被研究者切掉一條腿之後，仍然能繼續行走——儘管牠在訓練過程中從未見過這種情境。

秘密在於「可塑性」。傳統神經網路的訓練模式是：先花大量時間調整權重，調完之後凍結，然後部署。部署之後的網路是靜態的——權重不再改變。但 Risi 的做法不同：他用演化搜尋的不是一組固定權重，而是「每個突觸的學習規則」。具體來說，每條突觸連結都帶有一個 Hebbian 規則——當兩端的神經元同時活化時，連結就加強。演化找到的是一套好的 Hebbian 規則集合，部署之後，網路從隨機初始化開始，在與環境互動的過程中即時自我組織。

這就是為什麼切掉一條腿不會致命。傳統固定權重的網路面對這種前所未見的干擾只能束手無策，因為它的權重是為四條腿的情境優化的。但 Hebbian 網路的權重從來沒有「凍結」——它們每時每刻都在根據當前的感測輸入自我調整。少了一條腿？幾步之內，剩下三條腿的協調方式就會被重新組織出來。

更進一步，Risi 的團隊還引入了「神經調節」（Neuromodulation）機制：額外的神經元負責控制「學習開關」——告訴其他神經元什麼時候應該學、什麼時候應該維持現狀。這模仿了生物大腦中多巴胺等神經調節物質的角色，有效緩解了「災難性遺忘」——一個困擾持續學習系統的經典難題。

從一顆神經元長出一整個大腦

如果可塑性是讓網路在部署後持續學習，那「生長」就是更激進的下一步：連網路的結構本身都不是預先設計好的，而是像生物胚胎一樣，從一個細胞開始，逐步分裂、分化、長成完整的神經系統。

這是 Risi 主導的歐盟「Grow AI」計畫的核心野心。他們設計了一種「神經發育程式」（Neural Developmental Program, NDP）——一個小型神經網路，駐在每個神經元裡面，根據當前兩個節點的狀態，決定要不要產生新的節點、以及怎麼調整兩者之間的連結。被演化搜尋的不是大網路的權重，而是這個小小的 NDP——它就是「DNA」，而大網路是 DNA 表達出來的「身體」。

靈感來自生物的神經發生（neurogenesis）和形態發生（morphogenesis）。人類大腦的 860 億個神經元不是被逐一設計的，而是一套基因程式反覆執行的結果。Grow AI 的目標是複製這個邏輯：用一套緊湊的「基因程式」，生長出遠比它自身複雜的結構。

目前這條路線已經在小型 MNIST 任務上將網路生長到幾千個節點。但 Risi 坦承，有一個關鍵的工程挑戰：如果不給生長過程施加能量約束，網路會無限膨脹，然後把所有運算集中到少數幾條連結上——形同浪費了所有多出來的結構。解法是多目標優化，同時追求任務表現和網路精簡，模仿生物體的能量代謝壓力。另一個更深層的問題是「持續發育」——如何在增加新結構的同時，不忘記怎麼長出舊結構。這本質上是發育過程內部的持續學習問題。

欺騙性適應度：為什麼單一目標會害你走進死胡同

演化方法有一個出乎意料的陷阱。考慮一個 T 形迷宮實驗：老鼠必須學會記住哪條岔路有較大的獎勵。如果你用單一的適應度函數（「找到越多獎勵越好」）來選擇演化方向，會發生什麼事？

答案是：一個固定走右邊的策略（50% 正確率）會淘汰掉一個正在學習但初期表現更差的策略。因為學習需要犯錯——走錯了才知道要換邊——所以一個「真正在學」的智能體在早期的表現，反而比一個盲目但恰好猜對的基準線更差。天擇會無情地殺死那條正在通往真正智慧的血脈。

這就是為什麼演化 AI 領域發展出了「品質多樣性」（Quality-Diversity）方法。它不只獎勵適應度高的個體，也獎勵行為獨特的個體——哪怕它們目前表現不佳，只要它們的「行為指紋」是族群中沒人做過的。這保護了跳板行為（stepping-stone behaviors）：它們本身不是答案，但它們是通往答案的必經之路。

Risi 把這個概念與「開放式搜尋」（Open-Ended Search）連結在一起。他的團隊開發的 POET 系統，讓雙足行走智能體和它的地形同時演化——從平地開始，逐步出現溝壑和障礙。如果你直接把最難的地形丟給從零開始的智能體，它永遠學不會；只有透過課程式的共同演化，一步步建立起必要的踏腳石行為，最終才能征服複雜環境。OMNI 則把這個想法擴展到 LLM 生成的 Unity 環境，開啟了遠比手工設計豐富的演化空間。

當 LLM 遇上演化：Sakana AI 的三把火

如果前面講的是「演化能做什麼梯度下降做不到的事」，那 Sakana AI 正在回答的問題是：「演化和 LLM 能怎麼結合？」

第一把火：演化模型合併。 把一個擅長日文的模型和一個擅長數學的模型，拆成若干層，讓演化去搜尋最佳的層組合方式，產生一個同時擅長日文和數學的新模型——不需要從頭重新訓練。Risi 指出，這個方法在幾億參數的模型規模上效果最好；對前沿規模的模型，瓶頸不在合併本身，而在合併後的評估成本。

第二把火：LLM 當突變算子。 這是 Sakana 的 Shinka Evolve 系統（類似 DeepMind 的 AlphaEvolve）和 AI Scientist 計畫的核心概念。傳統演化用隨機位元翻轉來產生變異，效率極低。但如果你的「基因」不是位元序列而是程式碼或研究假設呢？LLM 天生就能讀懂程式碼的語意，所以它可以產生有意義的變異——不只是隨機改一行，而是理解上下文後做出合理的修改。演化負責方向（哪些變異被保留），LLM 負責提議（變異的品質）。Risi 用一句話概括：你用演化來導航搜尋空間，但用語言模型當突變算子。AI Scientist 已經產出了一篇被 Workshop 接收的論文；品質多樣性確保搜尋不會坍塌到單一局部最優解。

第三把火：連續思維機（Continuous Thought Machine）。 這是 Sakana 對「Transformer 之後是什麼」的賭注之一。在這個架構中，每個神經元本身是一個小型網路，帶有活化記憶；神經元之間透過振盪和同步來表徵資訊——靈感來自生物大腦的腦波節律。最關鍵的特性是：網路可以自行決定要思考多久。在影像分類任務上，它的「注視模式」像極了人類的眼動追蹤——遇到簡單圖片迅速做出判斷，遇到困難圖片則反覆掃視關鍵區域。這不再是 Transformer 那種「輸入進去、輸出出來」的一次性運算，而是一個能主動分配認知資源的系統。

純語言推理的天花板

Risi 在 Podcast 尾聲提出一個值得深思的觀點：如果一個模型只能輸出語言，它能做到的事情終究有限。一個五十年前訓練出來的模型大概不會發明 iPhone——不是因為它不夠聰明，而是因為 iPhone 的發明需要觸碰真實世界、做實驗、觀察材料的反應、迭代設計。純粹的文字推理可以重組已知知識，但要真正跨越訓練分布的邊界，AI 系統必須能夠影響世界並觀察結果——就像人類學習的方式。

這就是為什麼 Risi 特別看好將 LLM 與自動化實驗設備結合的路線：Lila Science 用機器人做材料合成，Insilico Medicine 用自動化溼實驗室做藥物發現。演化提供搜尋框架，LLM 提供語意理解，而物理世界提供真正的訊號——三者合一，才有機會突破「只是重排訓練資料」的天花板。

回到文章開頭的比喻：也許 AI 的未來不是訓練一個越來越大的蒙眼登山者，讓它在越來越平滑的地形上走得越來越快。也許 AI 的未來是讓一群策略各異的探索者，在不斷生長、不斷變化的地形上，自己長出征服地形所需要的身體。不是訓練出來的，是養大的。