機器人沒有 MMLU：當 Benchmark 還沒有共識的時候，我們該怎麼看「世界第一」？

一個關於評測標準、行業成熟度，以及整合者位置價值的思考筆記。

作者：Ray 日期：2026 年 5 月 14 日

一切從一篇新聞稿開始

2026 年 4 月底，中國 AI 圈出現一篇刷屏文章：〈刚刚，国产AI双冠王！黑马世界模型打破全球纪录，一镜到底封神〉。

文章的主角是生數科技的 MotuBrain——一個機器人世界動作模型（World Action Model）。它「零宣發、悄無聲息地」同時拿下兩個國際榜單第一：

WorldArena：EWM Score 63.77，全球第一
RoboTwin 2.0：Clean 95.8、Randomized 96.1，雙場景第一

這篇文章被各個機器人產業群轉發，配上「國產之光」「具身智能新紀元」這類詞。如果你是業界人，看到這種新聞你會不會跟著激動？

我想先放下激動，問一個更根本的問題：

這兩個榜單，是行業標準嗎？

答案：機器人領域目前沒有 benchmark 共識

要對比著看才清楚。

LLM 領域長什麼樣

你今天發一個新的語言模型，社群會預期你報這些分數——MMLU（綜合知識）、HumanEval（程式能力）、GSM8K（數學）、MT-Bench（對話品質）、IFEval（指令遵循）、MATH、BBH、HumanEval+...

如果你不報，社群會質疑。如果你只挑對自己有利的報，行內人一眼看穿。

每個 benchmark，大家都知道它在測什麼、有什麼缺陷、該怎麼解讀。這是經過 7-8 年（從 2018 BERT 算起）累積出來的共識。

機器人領域長什麼樣

你今天發一個新的機器人模型，沒有一組大家都要報的 benchmark。你可以挑：

LIBERO（VLA 圈相對主流）
CALVIN（長程任務）
RLBench（老牌但採用率下降）
SimplerEnv（Google 系比較用）
RoboTwin 2.0（中國學術圈新興）
WorldArena（世界模型新生兒）
ManipArena（真機評測）
VLABench、Eval-Actions、LIBERO-PRO、LIBERO-Plus、LIBERO-Para......

而且這還只是 manipulation（操作）這一個子領域。Navigation（導航）、locomotion（運動）、HRI（人機互動）各有自己的一套，彼此不相通。

結論：機器人領域目前沒有 benchmark 共識，這是個結構性的、不成熟的狀態。

為什麼會這樣？四個結構性原因

1. 機器人本體（embodiment）太多種

LLM 只有「文字進、文字出」這一種輸入輸出格式。同一個 benchmark 可以餵給 GPT、Claude、Gemini，公平比較。

機器人完全不是這樣：

雙臂 vs 單臂 vs 人形 vs 四足 vs 輪式
兩指夾爪 vs 五指靈巧手 vs 真空吸盤
有觸覺感測器 vs 沒有
有深度相機 vs 只有 RGB
動作頻率 10Hz vs 50Hz vs 200Hz

一個在 Aloha 雙臂機器人上跑得很好的模型，丟到人形機器人上根本沒法用。所以 benchmark 必須綁定 embodiment，但綁定後又失去通用性。

2. 模擬 vs 真機的鴻溝

機器人 benchmark 大部分跑在模擬器裡（Isaac Sim、MuJoCo、SAPIEN）。但模擬器跟真實世界差距巨大：

模擬器裡的物體質量、摩擦力都是設定值，真實世界充滿不確定性
模擬器渲染的視覺跟真實相機看到的不一樣
模擬器沒有真正的硬體延遲、感測器噪聲、機械磨損

2026 年有篇叫 ManipArena 的論文做過實驗：拿模擬器上排名前幾名的 VLA 模型，到真機上重新跑，排名完全翻盤。論文的結論很尖銳：

Top simulation performers fail in real-world evaluation — a finding that reframes what "state of the art" means.
（頂尖模擬器表現者在真實世界評測中失敗——這個發現重新定義了什麼叫 SOTA。）

意思直白：模擬器 benchmark 的世界第一，到真機可能連及格都沒有。

3. 機器人 benchmark 是「過擬合磁鐵」

2025 年 10 月有篇論文叫 LIBERO-PRO，做了一個經典實驗。

LIBERO 是目前 VLA 領域最被廣泛採用的 benchmark，幾乎所有主流 VLA 模型（OpenVLA、π0、Octo）都會在上面報分數。許多頂尖模型在 LIBERO 上達到 90%+ 的成功率。

LIBERO-PRO 的研究者做了四種非常輕微的擾動：

把目標物體換成另一個不相關物體
把物體移到不同初始位置
完全移除目標物體
把指令改成胡言亂語

正常人類遇到這四種變動，會立刻發現「咦？情況不一樣了」並調整行為。

但這些拿 90%+ 的頂尖 VLA 模型，在四種擾動下成功率全部跌到 0.0%。它們的執行軌跡跟原本幾乎一模一樣。

換句話說，這些模型根本沒看畫面、沒讀指令，只是在重播訓練資料裡記住的動作序列。

論文的標題就直白寫著「Beyond Memorization」——超越記憶。

這意味著什麼？現有 benchmark 的高分，跟「會做事」幾乎無關。

4. 領域太新

LLM benchmark 文化從 2018 BERT、2019 GPT-2 開始累積，到現在 7-8 年。經歷過：

早期亂報 → 社群建立規範
過擬合問題 → 更難的 benchmark 出現
「閉卷考試 vs 開卷考試」之爭
訓練資料污染問題的長期討論

機器人 VLA 這波從 2023 RT-2 起算，才 2-3 年。WAM（世界動作模型）這條路線更新，2025 才開始有像樣的論文。整個共識建立的過程才剛剛開始。

回頭看 MotuBrain 的「雙料世界第一」

有了上面這些理解，再回頭看那兩個榜單：

RoboTwin 2.0

2025 年中發布，算新
主辦方有來頭（上海交大、港大、上海 AI Lab）
設計上比 LIBERO 進步——針對雙臂操作、加了強域隨機化
但國際引用率還很低，主流模型如 OpenVLA、π0、Octo 很少在 RoboTwin 上報數字
官方榜上目前只有 5 個 baseline 模型

地位：中國學術圈的新興 benchmark，不是全球標準。

WorldArena

2026 年 2 月才發論文，才 3 個月歷史
由清華 FIB 實驗室主辦
設計目的：專門評估「世界模型」——這本身就是個很新的概念
榜單上目前只有少數幾個模型提交

地位：剛出生的新生兒，幾乎沒有業界地位。

生數的挑榜策略其實很聰明（也很該警覺）

他們沒有在 LIBERO 上報分數。LIBERO 是 VLA 領域的事實標準，但去 LIBERO 上要正面對撞 π0、π0.5 這些國際對手。

反之，他們挑：

RoboTwin 2.0：中國學術圈支持、雙臂任務、剛好對應他們的訓練資料、競爭對手少
WorldArena：超新、剛好專門測「世界模型」、剛好對應他們的技術路線、競爭對手幾乎沒有

這不是不誠實——他們挑的兩個榜的確跟他們的技術定位最匹配。但「世界第一」這個詞借用了榜單的權威感，而這兩個榜本身的權威感還沒建立起來。

一個業界人該有的判讀方法

下次再看到「某 AI 公司在某 benchmark 拿世界第一」這類新聞，問三個問題：

問題一：這個 benchmark 多老？

半年內出來的要打折，因為主辦方還沒建立公信力，模型提交數也不夠。

問題二：主流模型有在上面報分嗎？

如果國際上的 OpenAI、Google、Meta、Anthropic 的同類產品沒在上面跑，「世界第一」基本就是自己挑賽道、自己畫靶。

問題三：官方榜單有多少參與者？

一個 leaderboard 只有 5-10 個模型，「第一」的含金量遠低於有 100+ 模型的榜單。

用這三個問題去看 MotuBrain：

WorldArena：3 個月新；無主流國際模型參與；提交數很少 → 嚴重打折
RoboTwin 2.0：1 年新；主流國際模型沒在上面報；官方榜只有 5 個 baseline → 中度打折

打完折剩下什麼？「在小圈子的新榜單裡初步領先」。這跟「全球公認最強」是兩件事。

但 MotuBrain 不是沒料

說了這麼多打折，要平衡一下——MotuBrain 真正值錢的東西不是榜單分數，而是這些：

第一，把推論速度從 0.2 Hz 加速到 11 Hz（54 倍加速）。這是工程功夫。論文裡列了完整堆疊：減少擴散步數、PyTorch 編譯優化、FP8 量化、DiT 快取、V2A 推論模式。11 Hz 才是商用化門檻——機器人要實時控制每秒至少要跑 10 次以上。

第二，跨機器人本體適配只要 50-100 條軌跡。傳統做法換個本體要幾千上萬筆資料。如果這個數字是真的，意味著未來機器人「換大腦」會變得很簡單。

第三，不需要上層 VLM 規劃器。傳統做法是「VLM 拆解任務 + VLA 執行動作」兩層架構。MotuBrain 用一個模型搞定兩層，部署成本大幅降低。

這些才是論文裡最該注意的。但新聞稿不會強調這些——因為太技術。新聞稿只會強調「世界第一」——因為這四個字最好懂、最有衝擊。

這就是為什麼業界人要學會繞過新聞稿、直接讀論文。

給業界人的四個實際建議

建議一：看到「benchmark 第一」要先做減法

預設打折。多少？看上面三個問題的答案。

新聞稿的「世界第一」，跟你客戶能不能用，是完全不同的兩件事。

建議二：業界該看的不是 benchmark

業界該看的是：

真機部署案例：誰真的把它放到工廠/醫院/餐廳跑超過 3 個月
失敗率與失敗模式：哪些情況會崩、會怎麼崩、崩了好不好恢復
訓練/部署成本：算力需求、雲端費用、能耗
整合難度：接 ROS 多難、接客戶現有 IT 系統多難
維護成本：壞了誰修、多久修好、零件供應穩定嗎
廠商穩定性：融資狀況、團隊穩定度、是否會跑路

這些從來不會出現在論文或榜單上。

建議三：「沒 benchmark 文化」的領域恰好是整合者的機會

想想機器人服務業（清潔、搬運、零售、餐飲、酒店、養老）目前的工作內容：

跨品牌機器人整合
跟客戶 IT 系統打通
電梯/門禁/POS 系統介接
Fleet 管理與 KPI 監控
客戶現場部署與維運

這些都是「benchmark 測不到、但客戶會付錢」的東西。

這對整合者反而是好事。意味著：

不需要去拼學術 benchmark（拼不過、不該拼、沒意義）
競爭力在「工程整合、垂直 know-how、客戶服務」這層
模型廠商把「大腦」這塊愈做愈強，整合者坐收紅利

這跟雲端 SaaS 業界的局面類似——AWS、Azure、GCP 把基礎設施做得愈來愈強，整合商和 SI 公司在上面做行業解決方案賺錢。

建議四：累積屬於自己的「內部 benchmark」

雖然現在沒共識，但共識遲早會建立。當共識建立後，會出現一個轉折點：

在那之前：客戶看廠商說什麼，廠商說了算
在那之後：客戶會開始問「你的方案在 XX benchmark 上表現如何？」變成採購流程的一部分

當這個轉折發生時，如果還停在「沒 benchmark 文化」的階段，就會被國際大廠用 benchmark 數字打到。

可以提早布局的是：累積自己場景下的「內部 benchmark」——任務成功率、平均故障間隔、能耗、人機協作效率、客戶滿意度、SLA 達成率，任何能用客戶現場真實資料跑出來的數字。

這種內部 benchmark 比學術 benchmark 對客戶更有說服力。而且別人模仿不了——因為這是獨家的場景資料。

一句話總結

機器人領域目前沒有 benchmark 共識，這既是這個領域不成熟的證據，也是「整合者」的機會窗口。

等到共識建立的那一天，遊戲規則會改變。在那之前，誰先用真實場景累積出可信的工程戰績，誰就有護城河。

新聞稿的「世界第一」吵一個月就過去了。客戶現場跑得穩的方案，才會留下來。

機器人沒有 MMLU：當 Benchmark 還沒有共識的時候，我們該怎麼看「世界第一」？ ​

一切從一篇新聞稿開始 ​

答案：機器人領域目前沒有 benchmark 共識 ​

LLM 領域長什麼樣 ​

機器人領域長什麼樣 ​

為什麼會這樣？四個結構性原因 ​

1. 機器人本體（embodiment）太多種 ​

2. 模擬 vs 真機的鴻溝 ​

3. 機器人 benchmark 是「過擬合磁鐵」 ​

4. 領域太新 ​

回頭看 MotuBrain 的「雙料世界第一」 ​

RoboTwin 2.0 ​

WorldArena ​

生數的挑榜策略其實很聰明（也很該警覺） ​

一個業界人該有的判讀方法 ​

問題一：這個 benchmark 多老？ ​

問題二：主流模型有在上面報分嗎？ ​

問題三：官方榜單有多少參與者？ ​

但 MotuBrain 不是沒料 ​

給業界人的四個實際建議 ​

建議一：看到「benchmark 第一」要先做減法 ​

建議二：業界該看的不是 benchmark ​

建議三：「沒 benchmark 文化」的領域恰好是整合者的機會 ​

建議四：累積屬於自己的「內部 benchmark」 ​

一句話總結 ​

延伸閱讀 ​