每秒十億次碰撞,只留一千筆:大型強子對撞機的極限資料工程

LHC 每秒產生十億次碰撞,14000 噸的 CMS 偵測器每秒拍攝 4000 萬張照片,最終只保留約 1000 筆資料供分析。費米實驗室物理學家 Don Lincoln 拆解粒子物理學如何用觸發系統和多層篩選,從海量雜訊中撈出希格斯玻色子。

每秒十億次碰撞,只留一千筆:大型強子對撞機的極限資料工程

本文整理自 Lex Fridman Podcast 2026 年 5 月播出的第 497 集。

{{< youtube 1M3Vdl6DRkU >}}


想像一台相機,每秒拍攝四千萬張照片,每張照片記錄大約二十個同時發生的事件。這台相機重 14000 噸,長 21 公尺,底片是好幾層不同材料的偵測器,從內到外依序捕捉不同類型的粒子。它沒有快門聲,因為裡面發生的事情比任何機械零件都快。這就是 CERN 大型強子對撞機(LHC)上的 CMS 偵測器,世界上最大的科學儀器之一。

費米國家加速器實驗室(Fermilab)資深粒子物理學家 Don Lincoln 在 Lex Fridman Podcast 第 497 集中,用工程師的語言拆解了粒子加速器的運作方式。Lincoln 在 Fermilab 的 CDF 偵測器和 CERN 的 CMS 偵測器都工作過,親身經歷了粒子物理從「一年找到 38 個候選事件」到「每秒生產一個頂夸克」的躍遷。他描述的不只是物理實驗,而是人類工程史上最極端的資料篩選問題:如何從每秒十億次碰撞中,找到那幾個可能改寫教科書的事件。

E=mc²:不只是公式,是工程藍圖

愛因斯坦最有名的公式 E=mc² 通常被當成理論物理的象徵,但在粒子加速器裡,它是一張施工圖。Lincoln 解釋,這個公式的核心意義是:能量可以轉換成質量。把兩個質子加速到接近光速然後正面對撞,兩邊的運動互相抵銷,所有動能集中在一個極小的空間裡。如果這個能量夠大,它就會從真空中「變出」新的粒子。自然界有一條規則:新粒子必須以物質和反物質成對出現。

加速器越大、能量越高,就能製造越重的粒子。Fermilab 的 Tevatron 在 1995 年發現了頂夸克,已知最重的基本粒子。Lincoln 是那篇發現論文的共同作者。當時的論文報告了 38 個候選事件,其中大約一半是背景雜訊,意味著真正的頂夸克信號只有大約 19 個。整個搜尋過程花了六到十二個月的連續資料收集。相比之下,今天的 LHC 每秒就能製造一個頂夸克。曾經是諾貝爾獎級的發現,現在已經變成了「背景雜訊」。

能量的提升不是漸進的。LHC 每次碰撞的能量是 Tevatron 的七倍,每秒的碰撞次數是 Tevatron 的一百倍。Lincoln 指出這個差距讓兩台機器的科學能力完全不在同一個量級。在 Tevatron 上尋找希格斯玻色子,就像在一條小溪裡撈一條特定的魚,你知道魚可能在那裡,但水流太小、魚太少。LHC 的碰撞率讓同樣的搜尋從「可能需要再等三年」變成「幾個月就能確認」。

14000 噸的相機,和它更大的兄弟

LHC 上有兩個主要偵測器,各自獨立運作,互相驗證。CMS(Compact Muon Solenoid)長 21 公尺、高 15 公尺、重 14000 噸。Lincoln 在 CMS 工作,他說這是「小的那個」。ATLAS(A Toroidal LHC Apparatus)長 46 公尺、寬 24 公尺,重 7000 噸,雖然比 CMS 輕,但體積大了好幾倍。四個 ATLAS 並排可以填滿一座美式足球場。兩者都環繞著碰撞點建造,功能類似一台層層包裹的 3D 相機。

最內層的偵測器追蹤帶電粒子的路徑。中間層是量熱計,測量粒子撞入時沉積的能量。最外層專門捕捉穿透力最強的繆子,因為繆子能穿過內層所有材料,只有在最外圍才能被攔截。不同類型的粒子會在不同層留下不同的訊號模式:電子在內層留下軌跡,在量熱計中停下來;繆子一路穿過所有層;微中子什麼都不留下,只能從「失蹤的能量」推斷它的存在。研究者把所有層的訊號拼在一起,反推碰撞中產生了什麼粒子、飛往什麼方向、帶多少能量。整個偵測器就是一台把微觀事件翻譯成人類可以讀取的儀器。

LHC 的兩個偵測器之間存在一種「友善的競爭」。Lincoln 坦承兩邊都是世界級的團隊,但他開玩笑說「CMS 只是稍微比 ATLAS 酷一點」。這種雙偵測器設計不是浪費資源,而是物理學的標準做法:一個偵測器看到的異常信號可能是統計漲落或系統誤差,兩個獨立偵測器同時看到一致的信號,可信度才夠高。希格斯玻色子的發現就是在 CMS 和 ATLAS 同時確認之後才宣布的。

從十億篩到一千:觸發系統的藝術

LHC 裡的質子束每 25 奈秒交會一次,每秒約有四千萬次「交叉」。每次交叉平均有二十個碰撞同時發生,加起來大約是每秒十億次碰撞。這些碰撞的絕大多數是「無聊的」,反映的是已經被研究透徹的物理過程。真正有趣的事件,像是希格斯玻色子的產生,可能在十億次碰撞中只出現不到一次。

把每秒十億次碰撞的所有數據都存下來,在技術上不可能,在經濟上也不合理。Lincoln 描述了一套兩層的篩選系統,粒子物理學家稱為「觸發系統」(trigger system)。

第一層是硬體觸發。客製化的快速電子電路以接近光速的速度掃描偵測器的原始輸出,尋找異常的能量分佈模式,比如某個方向突然出現大量能量、或者能量分佈明顯不對稱。這一層在幾微秒內做出決定,把四千萬次交叉篩選到大約十萬次,壓縮比大約是 400 比 1。第二層是軟體觸發。商用處理器跑快速分析程式,對這十萬筆事件做更精細的物理判斷,進一步篩選到約一千筆寫入磁碟,壓縮比再乘以 100。從十億到十萬,再從十萬到一千,整體壓縮了一百萬倍。

Lincoln 強調這套系統「令人嘆為觀止」,因為它必須在幾微秒內決定哪些碰撞可能包含新物理,哪些可以永遠丟棄。觸發條件設得太嚴格,希格斯玻色子的信號可能被過濾掉,等於把發現扔進了垃圾桶;太寬鬆,儲存和分析的成本會爆炸。這個平衡點的拿捏,本身就是一門精密的工程藝術。

被保留下來的那一千筆事件,以 PB(petabyte)等級的資料流發送到全球各地的運算中心。研究生們在這些篩選過的資料裡繼續翻找,希望從中挖出幾個可能代表新發現的碰撞事件。Lincoln 形容這個過程就像大海撈針,但他們已經先把大海過濾了一百萬倍,只剩下最有可能藏著針的那一小桶水。

從 Tevatron 到 LHC:一場跨大西洋的接力賽

Fermilab 的 Tevatron 從 1983 年運轉到 2011 年,曾是世界上最強大的粒子加速器。除了發現頂夸克,它也是全球反質子產量最大的設施,每 2.3 秒發射約 10 兆個質子,產生約一億個反質子,換算下來大約十萬個質子才能換一個反質子。但在希格斯玻色子的搜尋上,Tevatron 終究力有未逮。

Lincoln 回憶了一個戲劇性的時間點。2012 年 7 月 2 日,CERN 宣布希格斯發現的兩天前,Fermilab 發表了最新分析,排除了大部分質量範圍,把希格斯釘在 120 到 145 GeV 的窗口裡。Fermilab 離答案已經非常近了,但還需要兩三年的數據才能跨過統計門檻。LHC 用壓倒性的能量和碰撞率在幾個月內完成了確認。Lincoln 用一個簡單的算術解釋差距:LHC 的能量是 Tevatron 的 3.5 倍,碰撞率是十倍,這兩個因素相乘,讓 LHC 的發現能力比 Tevatron 高了一個數量級以上。

Lincoln 後來從 Fermilab 的 CDF 偵測器轉到 CERN 的 CMS 偵測器工作。他說「字跡已經寫在牆上了」,Tevatron 不可能再做出 LHC 級別的發現。Fermilab 現在的角色不再是能量邊界的開拓者,而是把重心轉到世界上最強大的微中子束,用 DUNE 實驗探索反物質不對稱的謎團。兩個實驗室的關係不是競爭,而是接力:Tevatron 把搜尋範圍縮小到最後一個窗口,LHC 完成最後一擊,Fermilab 則帶著新的問題繼續往下一個方向前進。

粒子物理的歷史就是一部加速器能量和資料處理能力不斷升級的歷史。每一代機器都讓上一代的「稀有發現」變成「日常背景」,然後把搜尋的邊界推向更高的能量、更重的粒子、更罕見的事件。LHC 讓頂夸克從需要一年才能找到 38 個,變成每秒自動冒出一個。希格斯玻色子從「可能不存在」變成「確認存在」。下一個等待被發現的東西是什麼,沒有人知道。但 Lincoln 的態度很務實:繼續撞,繼續篩,繼續看。在這場遊戲裡,找不到東西也是一種發現,因為它告訴你答案不在你以為的地方。