他把五年數位人生壓進 1GB 資料庫,再養出兩個全職 AI 員工

AI Podcast 主持人 Nathan Labenz 花四個月打造個人 AI 基礎建設,從 Gmail、Slack、通話記錄等來源建起 1GB SQLite 記憶庫,搭配 500 篇 Wiki 和雙層代理人架構,讓兩個自主 AI 員工獨力完成來賓邀約、日用採購等任務。

他把五年數位人生壓進 1GB 資料庫,再養出兩個全職 AI 員工

本文整理自 The Cognitive Revolution 2026 年 5 月播出的單集。


Nathan Labenz 的 AI 助手知道他三年前跟某位投資人聊過什麼,記得去年某場通話裡提到的模糊想法,甚至能判斷哪些 Email 是他本人寫的、哪些是他轉發的 Claude 產出。這不是科幻場景,而是他每天在用的工作工具。支撐這一切的,是一個 1GB 的 SQLite 資料庫,裝著他過去五年的完整數位人生。

這位 The Cognitive Revolution Podcast 主持人在今年一月聽了資安研究員 Daniel Miessler(Unsupervised Learning 創辦人、個人 AI 基礎建設框架 PAI 的創造者)談他的系統之後,花了四個月從零建起自己的版本。在最近一集節目中,他把整套系統攤開來給 Miessler 看,逐一接受這位安全專家的「審計」:從資料擷取、摘要管線、代理人架構到財務控制,每個環節都沒有跳過。成果最直接的證明是,他的 AI 員工已經能獨力完成一整週的 Podcast 來賓邀約,而且「大部分來賓可能根本沒意識到自己在跟 AI 對話」。

從八個資料源建起「第二大腦」

建造第二大腦的第一步,是把散落在各處的數位足跡集中到同一個地方。Labenz 的做法很直接:從 Gmail 擷取所有「from:me」的對話串,也就是他參與過的每一條郵件討論。從 Slack 拉出他的私訊和參與的討論串,但排除了佔了 80% 資料量的自動化日誌頻道。透過 Beeper 這款跨平台整合工具統一 iMessage 和其他平台的私訊。再加上 Fireflies 記錄的三年通話錄音、所有 Podcast 逐字稿、以及 Twitter 發文記錄。八個來源,全部匯入一個本機端的 SQLite 資料庫。

擷取過程本身就充滿教訓。Gmail 的 API 相對寬鬆,幾個小時就跑完了。但 Slack 給個人開發者的速率限制低得驚人,光是蒐集資料就花了好幾週,不斷撞上限制然後重試。期間還發生過一次令他心痛的意外:Claude 在不理解時間成本的情況下,「好心地」刪掉了一整塊辛苦爬回來的 Slack 資料,打算重新抓取。它不知道那些資料是花了一週、持續碰壁才蒐集來的。「模型缺乏對時間流逝的直覺感受,」Labenz 總結這次教訓時說。不過他也補充了一件讓他驚訝的事:Claude 能一步步引導他走完 Google Cloud 的 OAuth 設定和 Slack 的權限配置,按鈕對按鈕地告訴他該點哪裡。「如果它能帶我走完 Google Cloud 的設定流程,這可能就是 AGI 的及格線了。」

原始資料有了,下一步是讓它變得可用。Labenz 設計了一條分層摘要管線:先以月為單位,把每月大約 20 萬到 30 萬 token 的原始通訊內容壓縮十倍,產出 2 到 3 萬 token 的月度摘要。這個壓縮率仍然保留了相當細緻的資訊,大約相當於每個工作天 1,000 個 token 的詳細記錄。月度摘要之上再疊加年度摘要,年度摘要之上再產出主題級的總覽。他還用 Gemini Flash 對 Email 進行品質評分,衡量原創性和實質性,把最能代表他思考風格的寫作樣本篩選出來,避免他轉發給朋友的 AI 產出「汙染」了他的個人寫作語料庫。

摘要管線之上還有一層 Wiki。大約 500 篇 Markdown 文章,涵蓋他與特定個人的關係、與特定組織的互動、以及他長期關注的主題。每篇 Wiki 文章都透過行內引用連結回原始文件,引用方式是兩到二十個字的獨特文字片段,搜尋該片段就能直接定位到來源文件。Miessler 對此表示認同,他自己也獨立發展出了類似的 Obsidian 式連結架構,「但不依賴 Obsidian 客戶端」。

不過這套摘要系統並非完美。Labenz 發現了一個模型特有的錯誤模式:它傾向把「曾經浮現過的計畫」永久保留為「進行中的事項」。最明顯的案例是,他在 2022 年底曾跟幾位投資人朋友聊過一個創業想法,對方表示「如果你真的做,我們會投」。結果三年後,月度摘要裡竟然寫著「這位投資人已投資了 Nathan 的公司」。Labenz 坦言,這是人類不會犯的錯誤:一個正常的助手會注意到後續完全沒有任何相關動作,自然推斷那件事沒有發生。他後來開發了一個審計技能來掃描摘要中可能有誤的陳述,效果不錯,但也承認「讓 AI 檢查自己的作業,原理有點玄」。

Miessler 在這個環節提出了一個關鍵的架構性建議:永遠保留原始資料。他的邏輯是,摘要的最佳壓縮程度完全取決於當下模型的能力,而模型能力正在快速進步。如果只保留舊模型產生的摘要,等到下一代模型問世時,你就無法用新模型從頭重建更好的理解。「你的第一個 prompt 應該是:看看我目前的系統,然後看看這邊的原始資料,從頭重建一個更好的版本,」Miessler 這樣描述理想的升級流程。Labenz 深表同意,他指出光是通話錄音的轉錄品質,三年前 Fireflies 的版本和現在能做到的就有明顯差距。

雙層代理人架構:一台筆電管思考,一台 Mac Mini 管執行

第二大腦只是系統的前半段。真正讓 Labenz 感到興奮的是後半段:兩個自主 AI「員工」,分別取名為 Aid(由 Claude Code 驅動)和 Clay(由 OpenClaw 驅動)。這兩個名字各自嵌入了「AI」兩個字母,既是對外互動時的隱性提示,也是 Labenz 對自己的持續提醒:「我對它們的本質和行為負有最終責任。」

Labenz 設計了一個清晰的雙層架構來管理代理人。筆電上的 Claude Code 是「高存取、低自主」層:它能存取所有帳號和完整的第二大腦資料庫,但規則是「只起草,不發送」。每一封它擬好的 Email 都會產生一個 Gmail 草稿連結,Labenz 打開來閱讀、編輯,然後自己按下發送鍵。Mac Mini 上的 Aid 和 Clay 則是「低存取、高自主」層:它們只能看到一個經過過濾的「助理版」Wiki,移除了任何聯絡人不會希望一個人類助理知道的敏感內容,但在較大的範圍內被授權自主行動。

兩台電腦之間用 Tailscale VPN 連接,只有 Labenz 的筆電、Mac Mini 和 iPhone 三台裝置在這個虛擬網路上。存取權限是單向的:筆電可以 SSH 進 Mac Mini,但 Mac Mini 不能反向連線到筆電。這個設計確保了自主代理人無法自行升級自己的權限,也無法直接觸碰完整的第二大腦資料。Mac Mini 還配了一個不斷電系統,是 Labenz 在某次出門旅行、遇到短暫停電後學到的教訓。他還用 Screens app 從手機遠端操控 Mac Mini 的圖形介面,用 Termius app 從手機下 SSH 指令,確保不管人在哪裡都能重啟出問題的服務。

代理人之間的溝通靠的是一個自建的訊息匯流排,架設在 Mac Mini 上。所有參與方,包括筆電上的 Claude、Mac Mini 上的 Aid 和 Clay、以及 Labenz 的手機,都可以在這個匯流排上寫入和讀取訊息。當代理人需要額外的資訊或權限時,它們會把請求寫進匯流排,筆電端持續輪詢,然後透過推播通知發送到 Labenz 的手機。Miessler 聽完後建議,GitHub Issues 其實可以取代這套自建的匯流排。Issues、標籤、留言、Email 通知這些現成功能,本身就構成了一套免費的專案管理基礎設施,而且模型天生就知道怎麼用 GitHub。Miessler 自己的三個專職代理人就是每五分鐘輪詢一次共用的 GitHub repo,認領開放的 Issue 來執行任務。

讓 AI 員工花錢、管帳號、獨立作業

怎麼讓代理人擁有足夠的自主權去完成實際任務,同時限制出錯時的損害範圍?Labenz 的解決方案涵蓋了三個面向:財務、帳號和對外互動。

在財務方面,他用 Mercury 的虛擬信用卡為每個代理人設定嚴格限制。每張卡鎖定特定商家或消費類別,例如一張只能在生鮮外送平台 Shipt 上使用、每週上限 500 美元的卡。這種設計讓他能接受「AI 買了錯的花生醬」這種程度的風險,同時排除了代理人進行大額或意外消費的可能。每次有新的一次性專案可能需要花錢時,就開一張新的虛擬卡,專案結束後關閉。Mercury 的 API 金鑰、MCP 整合和命令列工具,讓這些卡片的管理可以完全自動化。

帳號管理用了一套雙重保險庫策略。1Password 裡有兩個保險庫:「自動」庫的密碼代理人可以隨時取用,例如 Brave Search API、背景移除工具等低敏感度服務;「詢問」庫的密碼技術上存取權限相同,但代理人被指示必須先透過訊息匯流排取得核准才能使用。API 金鑰另外存放在 Infisical 裡,用類似的邏輯分層。這本質上是一個軟性權限層,彌補了目前缺少原生人類審核迴路的不足。

至於對外互動,Labenz 做了一個在節目中引發不少討論的決定:他的 AI 員工被指示「永遠不要說謊,但也不需要在每次互動開頭就主動宣布自己是 AI」。他的理由是,先展示工作品質,讓對方有基礎去評價這個互動的價值。如果被直接問到,絕對不能否認。至於電話溝通,他認為必須在一開始就揭露,因為目前 AI 語音仍然可以被辨認出來。最有說服力的案例是,Aid 獨力完成了一整週的 Podcast 來賓邀約:管理溝通、協調時段、確認出席,全部一手包辦。「大部分來賓似乎根本沒有發現,」Labenz 說,「而且沒有讓我們丟臉。」

我的觀察

這集節目展示的個人 AI 基礎建設,在一年前可能還會被當成極客的消遣。但 Labenz 的系統已經在產生真實的生產力價值:自動排程節目來賓、掃描信箱找到報稅需要的所有 1099 表格、根據通話紀錄和往來信件起草符合特定格式的投資備忘錄。一位朋友問他是否認識適合某個職缺的人選,他自己一時想不起來,結果 Claude 從資料庫裡翻出了兩個很好的人選。重點不在這些任務各自的技術難度,而在於它們加總起來構成了一個完整的「數位分身」工作流。

我認為這裡最值得關注的設計決策是那個「高存取低自主 vs 低存取高自主」的雙層模型。它直覺、好理解,而且天生就把風險分層處理了。你不需要讓一個高自主的代理人去碰你所有的帳號,同樣地,一個能看到你所有資訊的助手也不應該被允許自行發送訊息。這個框架不只適用於 Podcast 主持人,任何在思考「我該怎麼讓 AI 代替我做更多事」的人,都可以先從這兩個軸開始劃分。

但 Miessler 那句「永遠保留原始資料」的建議,可能是整場對話中最具長期價值的一句話。當下一代模型到來時,你要做的不是在舊摘要上疊加新摘要,而是直接把原始資料丟進去,讓它從頭重建一切。這個原則聽起來簡單,但它背後隱含的意思是:你今天精心設計的摘要管線,只是暫時的。在 AI 快速進步的世界裡,基礎設施最重要的品質不是完美,而是可重建。每月大約 1,000 美元的 AI 訂閱和 API 費用對多數人來說仍是不小的投入,但如果你接受「系統永遠在進化」這個前提,那麼第一步其實不複雜:匯出你的資料,保留原始檔,然後讓 AI 幫你走完剩下的設定流程。