Skip to content

機器人沒有 MMLU:當 Benchmark 還沒有共識的時候,我們該怎麼看「世界第一」?

一個關於評測標準、行業成熟度,以及整合者位置價值的思考筆記。

作者:Ray 日期:2026 年 5 月 14 日


一切從一篇新聞稿開始

2026 年 4 月底,中國 AI 圈出現一篇刷屏文章:〈刚刚,国产AI双冠王!黑马世界模型打破全球纪录,一镜到底封神〉。

文章的主角是生數科技的 MotuBrain——一個機器人世界動作模型(World Action Model)。它「零宣發、悄無聲息地」同時拿下兩個國際榜單第一:

  • WorldArena:EWM Score 63.77,全球第一
  • RoboTwin 2.0:Clean 95.8、Randomized 96.1,雙場景第一

這篇文章被各個機器人產業群轉發,配上「國產之光」「具身智能新紀元」這類詞。如果你是業界人,看到這種新聞你會不會跟著激動?

我想先放下激動,問一個更根本的問題:

這兩個榜單,是行業標準嗎?


答案:機器人領域目前沒有 benchmark 共識

要對比著看才清楚。

LLM 領域長什麼樣

你今天發一個新的語言模型,社群會預期你報這些分數——MMLU(綜合知識)、HumanEval(程式能力)、GSM8K(數學)、MT-Bench(對話品質)、IFEval(指令遵循)、MATH、BBH、HumanEval+...

如果你不報,社群會質疑。如果你只挑對自己有利的報,行內人一眼看穿。

每個 benchmark,大家都知道它在測什麼、有什麼缺陷、該怎麼解讀。這是經過 7-8 年(從 2018 BERT 算起)累積出來的共識。

機器人領域長什麼樣

你今天發一個新的機器人模型,沒有一組大家都要報的 benchmark。你可以挑:

  • LIBERO(VLA 圈相對主流)
  • CALVIN(長程任務)
  • RLBench(老牌但採用率下降)
  • SimplerEnv(Google 系比較用)
  • RoboTwin 2.0(中國學術圈新興)
  • WorldArena(世界模型新生兒)
  • ManipArena(真機評測)
  • VLABench、Eval-Actions、LIBERO-PRO、LIBERO-Plus、LIBERO-Para......

而且這還只是 manipulation(操作)這一個子領域。Navigation(導航)、locomotion(運動)、HRI(人機互動)各有自己的一套,彼此不相通。

結論:機器人領域目前沒有 benchmark 共識,這是個結構性的、不成熟的狀態。


為什麼會這樣?四個結構性原因

1. 機器人本體(embodiment)太多種

LLM 只有「文字進、文字出」這一種輸入輸出格式。同一個 benchmark 可以餵給 GPT、Claude、Gemini,公平比較。

機器人完全不是這樣:

  • 雙臂 vs 單臂 vs 人形 vs 四足 vs 輪式
  • 兩指夾爪 vs 五指靈巧手 vs 真空吸盤
  • 有觸覺感測器 vs 沒有
  • 有深度相機 vs 只有 RGB
  • 動作頻率 10Hz vs 50Hz vs 200Hz

一個在 Aloha 雙臂機器人上跑得很好的模型,丟到人形機器人上根本沒法用。所以 benchmark 必須綁定 embodiment,但綁定後又失去通用性

2. 模擬 vs 真機的鴻溝

機器人 benchmark 大部分跑在模擬器裡(Isaac Sim、MuJoCo、SAPIEN)。但模擬器跟真實世界差距巨大:

  • 模擬器裡的物體質量、摩擦力都是設定值,真實世界充滿不確定性
  • 模擬器渲染的視覺跟真實相機看到的不一樣
  • 模擬器沒有真正的硬體延遲、感測器噪聲、機械磨損

2026 年有篇叫 ManipArena 的論文做過實驗:拿模擬器上排名前幾名的 VLA 模型,到真機上重新跑,排名完全翻盤。論文的結論很尖銳:

Top simulation performers fail in real-world evaluation — a finding that reframes what "state of the art" means.

(頂尖模擬器表現者在真實世界評測中失敗——這個發現重新定義了什麼叫 SOTA。)

意思直白:模擬器 benchmark 的世界第一,到真機可能連及格都沒有。

3. 機器人 benchmark 是「過擬合磁鐵」

2025 年 10 月有篇論文叫 LIBERO-PRO,做了一個經典實驗。

LIBERO 是目前 VLA 領域最被廣泛採用的 benchmark,幾乎所有主流 VLA 模型(OpenVLA、π0、Octo)都會在上面報分數。許多頂尖模型在 LIBERO 上達到 90%+ 的成功率。

LIBERO-PRO 的研究者做了四種非常輕微的擾動:

  1. 把目標物體換成另一個不相關物體
  2. 把物體移到不同初始位置
  3. 完全移除目標物體
  4. 把指令改成胡言亂語

正常人類遇到這四種變動,會立刻發現「咦?情況不一樣了」並調整行為。

但這些拿 90%+ 的頂尖 VLA 模型,在四種擾動下成功率全部跌到 0.0%。它們的執行軌跡跟原本幾乎一模一樣。

換句話說,這些模型根本沒看畫面、沒讀指令,只是在重播訓練資料裡記住的動作序列

論文的標題就直白寫著「Beyond Memorization」——超越記憶。

這意味著什麼?現有 benchmark 的高分,跟「會做事」幾乎無關

4. 領域太新

LLM benchmark 文化從 2018 BERT、2019 GPT-2 開始累積,到現在 7-8 年。經歷過:

  • 早期亂報 → 社群建立規範
  • 過擬合問題 → 更難的 benchmark 出現
  • 「閉卷考試 vs 開卷考試」之爭
  • 訓練資料污染問題的長期討論

機器人 VLA 這波從 2023 RT-2 起算,才 2-3 年。WAM(世界動作模型)這條路線更新,2025 才開始有像樣的論文。整個共識建立的過程才剛剛開始


回頭看 MotuBrain 的「雙料世界第一」

有了上面這些理解,再回頭看那兩個榜單:

RoboTwin 2.0

  • 2025 年中發布,算新
  • 主辦方有來頭(上海交大、港大、上海 AI Lab)
  • 設計上比 LIBERO 進步——針對雙臂操作、加了強域隨機化
  • 國際引用率還很低,主流模型如 OpenVLA、π0、Octo 很少在 RoboTwin 上報數字
  • 官方榜上目前只有 5 個 baseline 模型

地位:中國學術圈的新興 benchmark,不是全球標準

WorldArena

  • 2026 年 2 月才發論文,才 3 個月歷史
  • 由清華 FIB 實驗室主辦
  • 設計目的:專門評估「世界模型」——這本身就是個很新的概念
  • 榜單上目前只有少數幾個模型提交

地位:剛出生的新生兒,幾乎沒有業界地位

生數的挑榜策略其實很聰明(也很該警覺)

他們沒有在 LIBERO 上報分數。LIBERO 是 VLA 領域的事實標準,但去 LIBERO 上要正面對撞 π0、π0.5 這些國際對手。

反之,他們挑:

  • RoboTwin 2.0:中國學術圈支持、雙臂任務、剛好對應他們的訓練資料、競爭對手少
  • WorldArena:超新、剛好專門測「世界模型」、剛好對應他們的技術路線、競爭對手幾乎沒有

這不是不誠實——他們挑的兩個榜的確跟他們的技術定位最匹配。但「世界第一」這個詞借用了榜單的權威感,而這兩個榜本身的權威感還沒建立起來


一個業界人該有的判讀方法

下次再看到「某 AI 公司在某 benchmark 拿世界第一」這類新聞,問三個問題:

問題一:這個 benchmark 多老?

半年內出來的要打折,因為主辦方還沒建立公信力,模型提交數也不夠。

問題二:主流模型有在上面報分嗎?

如果國際上的 OpenAI、Google、Meta、Anthropic 的同類產品沒在上面跑,「世界第一」基本就是自己挑賽道、自己畫靶。

問題三:官方榜單有多少參與者?

一個 leaderboard 只有 5-10 個模型,「第一」的含金量遠低於有 100+ 模型的榜單。

用這三個問題去看 MotuBrain:

  • WorldArena:3 個月新;無主流國際模型參與;提交數很少 → 嚴重打折
  • RoboTwin 2.0:1 年新;主流國際模型沒在上面報;官方榜只有 5 個 baseline → 中度打折

打完折剩下什麼?「在小圈子的新榜單裡初步領先」。這跟「全球公認最強」是兩件事。


但 MotuBrain 不是沒料

說了這麼多打折,要平衡一下——MotuBrain 真正值錢的東西不是榜單分數,而是這些:

第一,把推論速度從 0.2 Hz 加速到 11 Hz(54 倍加速)。 這是工程功夫。論文裡列了完整堆疊:減少擴散步數、PyTorch 編譯優化、FP8 量化、DiT 快取、V2A 推論模式。11 Hz 才是商用化門檻——機器人要實時控制每秒至少要跑 10 次以上。

第二,跨機器人本體適配只要 50-100 條軌跡。 傳統做法換個本體要幾千上萬筆資料。如果這個數字是真的,意味著未來機器人「換大腦」會變得很簡單。

第三,不需要上層 VLM 規劃器。 傳統做法是「VLM 拆解任務 + VLA 執行動作」兩層架構。MotuBrain 用一個模型搞定兩層,部署成本大幅降低。

這些才是論文裡最該注意的。但新聞稿不會強調這些——因為太技術。新聞稿只會強調「世界第一」——因為這四個字最好懂、最有衝擊

這就是為什麼業界人要學會繞過新聞稿、直接讀論文


給業界人的四個實際建議

建議一:看到「benchmark 第一」要先做減法

預設打折。多少?看上面三個問題的答案。

新聞稿的「世界第一」,跟你客戶能不能用,是完全不同的兩件事。

建議二:業界該看的不是 benchmark

業界該看的是:

  • 真機部署案例:誰真的把它放到工廠/醫院/餐廳跑超過 3 個月
  • 失敗率與失敗模式:哪些情況會崩、會怎麼崩、崩了好不好恢復
  • 訓練/部署成本:算力需求、雲端費用、能耗
  • 整合難度:接 ROS 多難、接客戶現有 IT 系統多難
  • 維護成本:壞了誰修、多久修好、零件供應穩定嗎
  • 廠商穩定性:融資狀況、團隊穩定度、是否會跑路

這些從來不會出現在論文或榜單上

建議三:「沒 benchmark 文化」的領域恰好是整合者的機會

想想機器人服務業(清潔、搬運、零售、餐飲、酒店、養老)目前的工作內容:

  • 跨品牌機器人整合
  • 跟客戶 IT 系統打通
  • 電梯/門禁/POS 系統介接
  • Fleet 管理與 KPI 監控
  • 客戶現場部署與維運

這些都是「benchmark 測不到、但客戶會付錢」的東西

這對整合者反而是好事。意味著:

  • 不需要去拼學術 benchmark(拼不過、不該拼、沒意義)
  • 競爭力在「工程整合、垂直 know-how、客戶服務」這層
  • 模型廠商把「大腦」這塊愈做愈強,整合者坐收紅利

這跟雲端 SaaS 業界的局面類似——AWS、Azure、GCP 把基礎設施做得愈來愈強,整合商和 SI 公司在上面做行業解決方案賺錢。

建議四:累積屬於自己的「內部 benchmark」

雖然現在沒共識,但共識遲早會建立。當共識建立後,會出現一個轉折點:

  • 在那之前:客戶看廠商說什麼,廠商說了算
  • 在那之後:客戶會開始問「你的方案在 XX benchmark 上表現如何?」變成採購流程的一部分

當這個轉折發生時,如果還停在「沒 benchmark 文化」的階段,就會被國際大廠用 benchmark 數字打到

可以提早布局的是:累積自己場景下的「內部 benchmark」——任務成功率、平均故障間隔、能耗、人機協作效率、客戶滿意度、SLA 達成率,任何能用客戶現場真實資料跑出來的數字。

這種內部 benchmark 比學術 benchmark 對客戶更有說服力。而且別人模仿不了——因為這是獨家的場景資料。


一句話總結

機器人領域目前沒有 benchmark 共識,這既是這個領域不成熟的證據,也是「整合者」的機會窗口

等到共識建立的那一天,遊戲規則會改變。在那之前,誰先用真實場景累積出可信的工程戰績,誰就有護城河。

新聞稿的「世界第一」吵一個月就過去了。客戶現場跑得穩的方案,才會留下來。


延伸閱讀


寫於 2026 年 5 月,台北。本文不構成任何投資建議。

MIT Licensed