Appearance
中國具身智能的兩條路線:MotuBrain vs 自變量
同一個技術判斷,兩種不同的商業模式。一年後回看,誰賭對了路線?
作者:Ray 日期:2026 年 5 月 14 日
緣起
2026 年 1 月 29 日,中金機器人播客上線了一集訪談——自變量機器人創辦人王潜。訪談中他放了幾句很重的話:
過去兩年間,沒有任何一個專用模型真的做出來了。
2026 年真的會有一些正 ROI 的產能出現了。
三個月後的 4 月底,中國 AI 圈出現另一篇刷屏文章——生數科技悄無聲息推出 MotuBrain,號稱「世界動作模型雙料世界第一」。
把這兩件事擺在一起看,剛好構成 2026 上半年中國具身智能領域最值得記錄的一個時間切片——王潜在年初預測「2026 是真元年」,三個月後 MotuBrain 用一份論文部分驗證了這個預測。兩家頂尖公司、兩個清華系團隊、兩種技術選擇。表面看是路線之爭,深入看其實是商業模式之爭。
這篇文章嘗試把這兩條路線講清楚。一年後回看,誰賭對了路線會很有意思。
兩家公司的基本盤
生數科技(MotuBrain)
- 2023 年成立,北京
- 創辦人朱軍(清華大學人工智能學院副院長)、唐家渝(CEO,前字節跳動)
- 核心技術出處:清華 TSAIL 實驗室
- 主力產品 Vidu(影片生成模型,對標 Sora)、MotuBrain(世界動作模型)
- 2026 年宣布跟無界動力、深朴智能、星塵智能三家戰略合作
自變量機器人
- 2023 年成立,深圳
- 創辦人王潜(清華本碩、USC 博士、機器人學習出身)
- 2014 年參與神經網路注意力機制研究——比 Google 的 Transformer 早三年
- A++ 輪由字節、紅杉領投,先前投資方涵蓋阿里、美團
- 主力產品 WALL-OSS(開源具身基礎模型)
- 王潜 2026 年 1 月 29 日於中金機器人播客的訪談,是理解這家公司技術判斷的最佳一手材料
兩家都選擇了 World Action Model(世界動作模型)這條最前沿的技術路線。底層技術判斷 80% 一致。但商業模式上完全不同。
共識:他們在 80% 的問題上看法相同
讀王潜的訪談、讀 MotuBrain 的論文,會發現兩家在五個關鍵問題上判斷高度一致。
共識一:端到端贏過分層
當前主流爭論之一是「端到端模型 vs 分層架構」。分層派(典型是 Figure AI 的 Helix、Physical Intelligence 後期的 π0.5)認為應該分「快慢腦」——上層 VLM 慢慢思考,下層 VLA 快速執行。
兩家都選端到端。王潜的論證乾淨:
如果從極致的性能上來說,端到端的一定比分層的好。因為它最關鍵的一個點是,如果我們給它加上了一個 information 的 bottleneck,上下層之間的 alignment 相對來說是困難的。
MotuBrain 論文裡明確說「不依賴額外的 VLM planner、不需要 dual-system decomposition」——同樣是端到端立場。
共識二:通用優於專用
這是兩家最強的共同主張。王潜講得最直白:
過去兩年間,其實沒有任何一個像打螺絲或者是物流這樣的場景,真的做到了正的 ROI。一直到今天為止,沒有出現任何一個單點的專用模型真的做出來了。
他的論證來自 GPT-3 帶來的範式轉變——同時學一萬個任務,會比集中資源學一個任務表現更好。背後的邏輯是模型學到的不是任務本身的細節,而是任務背後的「共同結構」——物理規律、原子動作、物體屬性。
MotuBrain 的訓練設定也是 50 個任務聯合訓練、27,500 條軌跡。同一個邏輯。
共識三:真機資料碾壓仿真
這個共識在中國具身智能圈不是普遍共識。NVIDIA 的 GROOT 早期幾乎純用仿真資料。王潜給了一個非常具體的數字:
仿真資料和真實資料在訓練模型的時候,效率比目前是多少呢?我們的判斷差不多在五個數量級到六個數量級。
意思是要 10 萬到 100 萬倍的仿真資料,才等於 1 倍真機資料的效果。
GPU 也不是不要錢的,仿真也不是不要錢的。所以我們的看法是,做仿真資料的成本甚至要超過真機資料。
MotuBrain 同樣以真機資料為主。論文宣稱跨機器人本體適配只需要 50-100 條真機軌跡——這是「真機資料效率極高」這個共識的具體展現。
共識四:World Model 跟 VLA 是同一件事
主流業界常把這兩者當對立——「VLA 路線 vs World Model 路線」。1X 推出 World Model 時也是用「比 VLA 更先進」當賣點。
王潜直接反駁:
大家一般所說的 VLA 和 world model,在我們自己的架構下其實是一回事兒...這一個模型它既可以用來作為一個 world model 預測未來,也可以用來作為一個 VLA model 直接生成 action。
MotuBrain 的設計完全是同一思路——一個模型同時做世界預測和動作生成。
共識五:Data-centric 才是真功夫
從 Algorithm-centric 轉向了 Data-centric。以前可能是二八開,80% 是在 algorithm 上,20% 是在 data 上。今天可能 80% 是在 data 上,20% 是在 algorithm 上。
這個觀點王潜講得最清楚,但 MotuBrain 論文裡也透露同樣的態度——大量篇幅在講資料收集 pipeline,演算法本身用的是業界已知技術(DiT、Diffusion Transformer、FP8 量化)的組合。
真正的技術壁壘,從來不在演算法,在於資料工程的工業化程度。
附帶共識:王潜的年初預測,被 MotuBrain 部分驗證
王潜 1 月底訪談時說:
過去兩年間大家都說 2024 年是機器人商業化元年,2025 年是機器人商業化元年...大家有點被狼來了的故事給騙怕了。但是我覺得今天狼是有點真的來了。就是 2026 年真的會有一些正 ROI 的產能出現了。
三個月後 MotuBrain 發布。雖然「正 ROI 產能」要看下半年實際部署,但模型能力突破這一塊,三個月內就出現了具體證據——MotuBrain 把推論速度堆到 11 Hz、跨本體適配 50-100 軌跡。
換句話說,王潜年初的判斷不是憑空的,是基於對技術曲線的精準預測。這也讓他對 2026 下半年的「正 ROI 產能」預測更值得相信——如果你年初預測對了模型突破時間點,下半年的商業化判斷可信度就高。
分歧:他們在 20% 上選擇了不同的路
如果兩家在這麼多事上看法一致,分歧在哪?
在商業模式。
生數的選擇:純大腦供應商
生數對自己的定位非常清楚——「通用世界模型是連接數字世界與物理世界的橋樑」。他們的戰略部署是:
- 不做機器人本體
- 跟三家本體公司分別合作
- 深朴智能(應用層客戶)—— 用 MotuBrain 做大腦
- 星塵智能(本體層夥伴)—— Astribot S1 + MotuBrain 配對
- 無界動力(技術同盟)—— 兩家都做世界模型,互相驗證
這個布局像極了 OpenAI 在 LLM 領域的位置——做最強的模型,讓別人提供場景與身體。
自變量的選擇:軟硬一體
王潜的判斷完全相反:
機器人這種軟硬高度耦合的行業,很難單獨有純軟的這種平台的存在。
他舉了兩個例子:
- 大疆:早期做純飛控軟體,後來轉向軟硬一體。今天無人機市場沒有一個純軟平台存在的可能性
- 特斯拉:從第一天就同時做軟體和硬體,自動駕駛軟體公司今天也都開始自己做硬體
王潜的話講得很重:
整體商業模式上來講,純軟模式幾乎只能變成一個頭部的模式...遷移成本實在是有點低。
所以自變量自己做硬體——王潜原話:「我們的硬體說實話也做得不錯」。
路線歧異的根本原因
把兩家的選擇拆開看,分歧根源在於**「機器人作為產品」的特性判斷**。
| 議題 | 生數判斷 | 自變量判斷 |
|---|---|---|
| 大腦能否獨立於本體存在 | 能 | 不能 |
| 跨本體適配的難度 | 50-100 軌跡可解 | 仍是未解決問題 |
| 軟硬解耦的商業模式可行性 | 可行 | 純軟做不起來 |
| 終局市場結構 | 模型層集中 + 應用層分散 | 軟硬一體大廠主導 |
生數賭的是:跨本體適配能力會持續變強,到某個時間點,「換大腦」會像「換 SIM 卡」一樣容易。這時模型層會有壟斷者,本體層百花齊放。
自變量賭的是:機器人軟硬耦合太深、跨本體泛化仍是死結,純大腦廠商最終會被軟硬一體廠擠壓。
這兩個判斷不可能都對。一年後會出現一個明顯的分叉。
一個更深的觀察:歷史是否會重演?
如果把這個歧異放到歷史脈絡看,兩家其實在重演不同產業的軌跡。
生數的對標:Wintel / Android
- 微軟做 Windows、Intel 做晶片、各家 OEM 做電腦
- Google 做 Android、各家手機廠商做硬體
- 共同點:核心能力(OS / 模型)足夠通用,跨硬體適配成本足夠低,於是出現「軟硬分工」的市場結構
自變量的對標:大疆 / 特斯拉
- 大疆做飛控 + 雲台 + 機體一體
- 特斯拉做電池 + 三電系統 + 軟體 + 整車
- 共同點:當軟硬耦合深度超過某個門檻,「軟硬分工」效率反而不如「軟硬一體」
機器人最終會像 PC / 手機,還是像無人機 / 電動車?
這個問題沒有先驗答案。但有兩個變數可以追蹤:
變數一:跨本體泛化能力的進展 如果 2026-2027 年看到「同一個模型在 5 種以上不同本體上都跑得不錯」的證據,那生數路線贏面大。如果遲遲做不到,自變量路線贏面大。
變數二:機器人本體標準化的進展 PC 之所以能跑同一個 Windows,是因為硬體 ISA 高度標準化(x86)。Android 能跑同一套 OS,是因為手機硬體形態高度收斂(觸控螢幕 + 處理器 + 攝影機)。機器人會不會收斂?
王潜對這點的回答很有意思:
我覺得會收斂,但是未必會收斂到一種。
換句話說,他不認為機器人會像手機那樣高度標準化。這是他選擇軟硬一體的根本理由。
兩條路線之外的「第三類人」
但實際的產業布局比「兩條路線」複雜。
中國具身智能領域今天還有第三類玩家——整合者。他們不做模型、不做頂尖本體,但做場景落地、做客戶服務、做跨品牌 fleet 管理。
這類公司在兩岸都有大量存在——把模型廠商和本體廠商的能力,整合到真實的客戶場景裡。
整合者的位置在誰贏的劇本下會不一樣:
- 生數贏的劇本:模型層集中、本體層分散,整合者扮演關鍵中間層——把標準化的大腦適配到多樣化的場景,價值放大
- 自變量贏的劇本:軟硬一體大廠直接賣完整解決方案,整合者被壓縮——客戶直接買整套方案,不需要中間商
- 混合劇本:兩種模式並存於不同細分市場——靈巧操作場景軟硬一體、AMR 移動場景整合者主導
三個劇本沒有絕對的好壞,差別在於不同細分場景下會走到不同結局。從現有訊號看,短期內混合劇本最可能——靈巧操作場景由軟硬一體大廠主導,移動與多品牌混合的 fleet 場景仍會給整合者留出空間。
一個值得追蹤的「對賭」
未來 12-24 個月,建議追蹤幾個訊號,可以判斷誰賭對了:
訊號一:MotuBrain 跑在第三方本體上的真實表現
生數說 50-100 軌跡可以適配新本體。真實案例會在 2026 年下半年出現——MotuBrain 跑在星塵 Astribot S1、跑在無界動力本體、跑在深朴本體上的真實表現如何?
- 跑得好 → 生數路線得分
- 跑不好或需要大量調優 → 自變量路線得分
訊號二:自變量自家硬體的市場接受度
王潜說自家硬體「做得不錯」。但「不錯」跟「能賣」是兩件事。2026 年底前,看自變量的硬體出貨量、客戶口碑。
- 軟硬一體能跑出商業飛輪 → 自變量路線得分
- 硬體成為包袱、拖累融資跟估值 → 生數路線得分
訊號三:誰先在某個垂直場景做出真正的正 ROI
王潜自己預測 2026 會有「正 ROI 產能」。哪一條路線先做到?
- 生數陣營(深朴酒店養老、星塵工業物流)先做到 → 生數路線得分
- 自變量自家方案先做到 → 自變量路線得分
訊號四:國際大廠的選擇
Google DeepMind 跟 Boston Dynamics、三星合作的 Atlas 已經是軟硬一體典型。Tesla、Figure AI 也都是軟硬一體。唯一「純模型」的國際玩家是 Physical Intelligence——他們最終會自己做硬體嗎?
- Physical Intelligence 維持純軟 → 生數路線有國際同行
- Physical Intelligence 也轉向軟硬一體 → 自變量判斷被驗證
結語:為什麼這個對比值得記錄
我寫這篇文章不是要選邊站,是覺得這個對比本身就值得記錄。
在 LLM 領域,2018-2020 年也有類似的歧異時刻——OpenAI 押 decoder-only 的 GPT 路線、Google Brain 押 encoder-only 的 BERT 路線、DeepMind 押強化學習 + 領域應用(AlphaGo、AlphaStar、AlphaFold)。三條路在當時看不出誰會贏。
但 LLM 的演化還沒結束。到了 2024 年,遊戲規則又變了——預訓練 Scaling Law 撞牆,「把模型再放大」的回報明顯遞減。新的戰場是測試時計算(test-time compute)和 reasoning model。OpenAI 的 o1、o3 系列本質上是把 LLM 跟強化學習結合的產物——這讓 DeepMind 過去十年的 RL 功夫反而翻身。BERT 路線的雙向 encoder 思想也在 embedding、檢索、RAG 領域持續演化,沒死,只是換了戰場。
這個故事告訴我們什麼?「主場」不是一次決定的——它會隨技術曲線重新洗牌。2020 年看 OpenAI 一騎絕塵,誰也想不到 DeepMind 的 RL 底子會在 2024 年因為 reasoning model 翻身。今天的輸家可能是明天的贏家。
機器人領域可能不只是演化,是寒武紀爆發
但 LLM 的歷史只是參考。具身智能未來幾年發生的事,可能比 LLM 路線分歧更劇烈。
5.4 億年前,地球發生過一次「寒武紀大爆發」——在短短 2000 萬年(地質尺度上是一瞬間),幾乎所有現代動物門類的祖先突然同時出現。原因至今未完全清楚,主流理論認為是「達到某個複雜度門檻後,組合空間突然打開」——眼睛出現、捕食關係建立、體腔結構成熟,這些底層能力一旦齊備,多樣性就指數爆炸。
具身智能現在的狀態,跟寒武紀前夜很像:
- 過去 50 年,機器人領域慢慢演化——工業手臂、AGV、AMR、各種專用設計,每種都針對特定場景
- 2025-2030,底層能力剛好齊備——世界模型、跨本體適配、即時推理、軟硬一體工程能力、足夠的真機資料
- 接下來幾年,可能出現一波物種大爆發——各種以前想不到的機器人形態、用途、商業模式同時湧現
- 大部分會滅絕,少數會主宰某些生態位
如果這個比喻成立,那「生數 vs 自變量」這個對比只是其中一個切面。真正的問題不是「誰會贏」,而是「會冒出多少我們現在想不到的物種」。
可能是「裝著大腦的清潔機器人」——把高階模型大腦下放到傳統服務場景,整合者最關心的方向。可能是「會自己寫程式的工廠工人」——徹底改變製造業。可能是純粹的虛擬世界角色,從世界模型反向走回螢幕。可能是某種我們今天還不知道怎麼描述的東西。
回到生數和自變量
具身智能正在經歷類似的歷史時刻。生數和自變量是其中兩個最值得對照的案例——技術判斷如此接近、商業選擇如此分歧。但他們只是「寒武紀前夜的兩種早期物種」。
一年後回看,誰都可能是對的,也都可能是錯的。三年後回看,可能會發現真正勝出的是現在還沒誕生的新物種。
但留下記錄本身,就是參與這段歷史的一種方式。
我自己會做兩件事:
第一,記下現在的判斷——我覺得生數的純大腦路線跟自變量的軟硬一體路線會並存於不同細分市場,而真正的爆發會來自第三種、第四種我們現在還沒想到的形態。 第二,一年後回頭看這篇文章,檢視自己當時的判斷錯在哪裡——因為判斷對是運氣,判斷錯才有得學。
後記與延伸閱讀
本文寫於 2026 年 5 月。觀察兩家公司:
- 生數科技 MotuBrain:arXiv 2604.27792
- 自變量機器人 WALL-OSS:[開源頁面與技術報告]
- 中金機器人播客:王潜訪談完整版,2026-01-29,bilibili BV1fG6cBeEjX
- 同系列文章:〈機器人沒有 MMLU:當 Benchmark 還沒有共識的時候,我們該怎麼看「世界第一」?〉
寫於台北。本文不構成任何投資建議,僅為產業觀察筆記。