微軟自研模型正式亮劍:七款 MAI 叫板 Opus 與 GPT,還要跟 Mayo Clinic 打造醫療模型

微軟 AI 負責人蘇萊曼在 Build 2026 發表七款 MAI 模型,其中 MAI Thinking 1 在 SWE-Bench Pro 上追平 Opus 4.6,MAI Code 1 Flash 僅 50 億參數就達 51% SWE-Bench Pro。Frontier Tuning 讓企業用自己的資料訓練專屬模型,Land O'Lakes 和 McKinsey 已驗證 10 倍成本效率。微軟還宣布與 Mayo Clinic 合建醫療前沿模型。

微軟自研模型正式亮劍:七款 MAI 叫板 Opus 與 GPT,還要跟 Mayo Clinic 打造醫療模型

本文整理自 Microsoft Build 2026 開場主題演講,2026 年 6 月 2 日。

{{< youtube FFMm454fxNA >}}


蘇萊曼的宣言:人本超級智慧

微軟 AI 負責人穆斯塔法.蘇萊曼(Mustafa Suleyman)上台的開場不是展示跑分,而是一段哲學宣言。他先丟出一個數字:過去 15 年,用來訓練前沿模型的運算量增加了一兆倍,也就是 12 個數量級。然後他說,微軟 AI 追求的是「人本超級智慧」(humanist superintelligence),明確設計來服務人和組織,而不是取代他們。

這段話的潛台詞要放在競爭脈絡裡才看得懂。OpenAI 的敘事圍繞 AGI(通用人工智慧),DeepMind 也在談類似的願景。蘇萊曼刻意跟這些敘事保持距離,選了一個更務實、更不嚇人的定位。他不是說「我們在追趕 AGI」,而是說「我們在打造讓企業變得更強的 AI」。這是一個品牌策略,也是一個產品策略:微軟的模型不需要是世界上「最聰明」的,它們需要是對企業「最有用」的。

但蘇萊曼也不是在示弱。他接下來發表的七款模型,每一款都在特定跑分上挑戰了競爭對手的頂級產品。數字說話。

七款 MAI 模型:從圖片到程式碼的全線壓制

MAI Image 2.5 和它的 Flash 版本在圖片編輯排行榜上排名第二,超越了 Nano Banana 2。它已經在 PowerPoint 裡上線,接下來會進入 OneDrive。Flash 版本速度更快,適合需要即時回應的場景。微軟沒有公布太多技術細節,但在排行榜上贏過 Google 的旗艦圖片模型,這件事本身就是一個訊號。

MAI Transcribe 1.5 是語音轉錄模型,支援 43 種語言,微軟宣稱它在每一種語言上都是同級最佳,而且速度是競爭對手的五倍。它正在整合進 GitHub(會議摘要)、Teams、Copilot 和 Dynamics 365 客服中心。語音轉錄聽起來不性感,但它是 agent 處理會議紀錄、客服通話和語音指令的基礎能力。這個模型還內建了防複製保護和數位浮水印。

真正的焦點是 MAI Thinking 1,一個中等重量的推理模型。它在 AIME 2025(數學推理測試)上拿到 97%,在 SWE-Bench Pro(軟體工程實作測試)上拿到 53%。53% 這個數字很敏感,因為它正好追平了 Anthropic 的 Claude Opus 4.6。蘇萊曼特別強調兩件事:MAI Thinking 1 是「零蒸餾」(zero distillation)訓練的,也就是沒有從其他模型學習,純粹靠自家的訓練資料和方法論。而且它的訓練資料具有「乾淨的商業授權血統」,對企業客戶來說,這代表法律風險更低。

最讓人驚訝的是 MAI Code 1 Flash。它只有 50 億參數,卻在 SWE-Bench Pro 上拿到 51%。作為對比,這個分數只比 Opus 4.6 和 MAI Thinking 1 低 2 個百分點,但模型小了幾十倍。它已經在 VS Code 裡上線。一個 50 億參數的模型能做到這種表現,代表它可以在本地裝置上跑,不需要雲端運算。這跟納德拉「不計量智慧」的願景完美呼應。

Maia 200 上的甜蜜組合:模型加晶片的垂直整合

蘇萊曼提到了一個容易被忽略但很重要的細節:MAI 模型在微軟自研的 Maia 200 晶片上跑時,額外獲得了 1.4 倍的每瓦效能提升。這是在 Maia 200 已經比頂級 GPU「每美元 token 多 30%」的基礎上再疊加的。

這代表什麼?微軟同時擁有模型和晶片,它可以做其他 AI 公司做不到的事:從模型架構的設計階段就針對特定硬體最佳化。OpenAI 和 Anthropic 的模型必須跑在通用 GPU 上,微軟的 MAI 模型可以跑在為它量身打造的加速器上。這種垂直整合帶來的效率優勢,會隨著模型和晶片的迭代持續擴大。

蘇萊曼預告更快、更高效的 MAI 模型將在幾個月內登上 Cobalt N1X。MAI 的策略不是追求「最大的模型」,而是追求「每瓦效能最高的模型」。在大型語言模型的運算成本已經成為企業採用 AI 最大障礙的今天,這個策略方向可能比拿下跑分冠軍更有實際價值。

Frontier Tuning:讓企業不再「租」智慧

整場 MAI 發表最銳利的競爭宣言來自蘇萊曼的一段話:「你不是在從一個共享模型租智慧。只有你能保留自己辛苦掙來的工作流程、知識、know-how 和機構資料的好處。只有你能控制產出的模型。」

這段話直指 OpenAI 和 Anthropic 的商業模式。這兩家公司賣的是共享的前沿模型:你付費使用,但模型的知識和能力是所有使用者共享的。微軟的 Frontier Tuning 提供了一個不同的路徑:用企業自己的資料、評估標準和強化學習環境(Reinforcement Learning Environment, RLE),把 MAI 模型訓練成專屬於你的版本。

demo 用美國大型農企 Land O'Lakes 作為案例。他們的奶油報告生成任務涉及多個手動步驟,需要近乎 100% 的精確度。微軟把這個任務編碼成一個 RLE,從 Microsoft 365 的使用模式中自動建議技能和評分標準。工具被虛擬化,讓 agent 可以模擬執行而不影響實際業務。經過調校的 MAI 模型在 Land O'Lakes 的任務上達到 90% 以上的準確率,成本效率是基準模型的 10 倍。

另一個案例是 McKinsey。微軟說 McKinsey 用 MAI 調校後的模型在他們的任務上打敗了 GPT-5.5,同樣是 10 倍的成本效率。而微軟內部的 Excel agent 用 MAI 調校後,品質追平 GPT-5.4,成本同樣低了 10 倍。這裡的關鍵洞察是:不是 MAI 的基礎模型比 GPT 強,而是針對特定企業任務調校後的 MAI 比通用的 GPT 更划算。

Frontier Tuning 的策略意涵很深。如果企業可以用自己的資料把一個中等大小的模型調校到跟頂級通用模型一樣好,甚至更好,那麼通用模型的溢價就會被侵蝕。企業保留了 RLE、追蹤紀錄和調校後的模型,這些資產會隨著使用越來越有價值。蘇萊曼把這個叫做企業的「護城河」。

Mayo Clinic:用全球最大的醫療資料集打造前沿模型

蘇萊曼宣布微軟將與 Mayo Clinic 合作,共同打造醫療領域的前沿模型。Mayo Clinic 的執行長 Gianrico Farrugia 博士描述了他們七年前就開始建立的平台:橫跨四大洲、涵蓋約一億人的縱貫性多模態醫療資料集,包括基因組資料。這大概是全球最大的結構化醫療資料集之一。

這項合作的意義不只是「又一個醫療 AI」。Mayo Clinic 不是一般的醫院系統,它是美國最受信任的醫療機構之一。而微軟提供的不只是模型,而是整個 Frontier Tuning 的架構:用 Mayo Clinic 的專業資料作為 RLE,訓練出一個專門為醫療場景最佳化的模型。如果成功,這會是 Frontier Tuning「讓企業參與前沿」這個概念最有說服力的驗證案例。

Microsoft Discovery:AI 驅動的科學發現正式上線

另一個值得單獨拉出來談的發表是 Microsoft Discovery 正式 GA(一般可用)。這是一個把前沿 AI 模型、高效能運算(HPC)、科學知識圖譜和自動化實驗室整合在一起的 agent 驅動科學發現平台,建構在 VS Code 上,操作邏輯跟軟體開發類似:規劃、執行、部署。

Cambridge Consultants(Capgemini 旗下)用 Discovery 來尋找能分解 PET 塑膠的蛋白質。他們的目標是找到可以在不加熱的情況下用酵素分解 PET 的蛋白質,讓塑膠真正能被回收而不是降級再利用。Discovery 的 agent 團隊先建立了結合公開科學文獻和內部知識的知識圖譜,然後在 HPC 上平行執行了數百萬次演化蛋白質變異搜尋,找出 80 個候選蛋白質。接著,一個自訂的實驗室 agent 直接把 DNA 序列提交到 Cambridge Consultants 的自動化實驗室系統,讓細菌合成這些蛋白質。

這裡有一個很有意思的遞迴。Discovery 平台本身就是用來發現 Majorana 2 量子晶片的新材料堆疊的。AI 幫忙設計了量子晶片的材料,量子晶片未來會加速 AI 無法處理的運算。而 Discovery 平台又用了 AI agent 來自動化科學實驗。這是三層技術互相加速的飛輪。

我的觀察:微軟在下一盤什麼棋

蘇萊曼在舞台上說的那些話,如果放在其他公司的嘴裡,可能只是公關辭令。但放在微軟的脈絡裡,它有很具體的支撐。微軟同時在三個層面布局:第一,託管 OpenAI 和 Anthropic 的模型作為平台收入來源(Azure Foundry 上有 11,000 多個模型);第二,推出自家 MAI 模型直接在跑分上叫板;第三,用 Frontier Tuning 讓企業客戶不再依賴任何單一模型供應商。

這三個層面看似矛盾,實則互補。短期內,OpenAI 和 Anthropic 的模型替微軟帶來 Azure 的流量和收入。中期,MAI 模型在特定企業場景上用更低的成本達到同等或更好的效果,逐步替換通用模型的需求。長期,Frontier Tuning 讓企業用自己的資料訓練專屬模型,而這些模型跑在微軟的晶片上、部署在微軟的雲端裡、用微軟的治理框架管理。到那個時候,不管你用的底層模型叫什麼名字,微軟都贏了。

蘇萊曼那句「你的 RLE 和你訓練出來的模型,它們就是你的護城河」,其實也可以反過來讀:微軟的護城河不是某一個模型,而是讓所有模型都跑在微軟平台上的這整套基礎設施。這是一個比「誰的模型最強」更大的棋局。