Appearance
World Model:通往 AGI 的關鍵賽道
當 AI 學會「想像」世界,機器才能真正理解現實
作者:Ray 日期:2025 年 12 月
引言:從文字到世界
2024 年 2 月,OpenAI 發布 Sora 預覽的那一刻,整個 AI 產業為之震動。不是因為它能生成漂亮的影片,而是因為它展示了一種全新的可能性——AI 或許真的能「理解」物理世界。
這背後的技術概念叫做 World Model(世界模型)。
如果說大型語言模型(LLM)教會了機器「讀寫」,那麼 World Model 的使命就是教會機器「看」和「做」。這不僅僅是技術演進,更可能是通往通用人工智慧(AGI)的必經之路。
Demis Hassabis(Google DeepMind)、Yann LeCun(Meta)、李飛飛(World Labs)——這些 AI 領域最頂尖的頭腦,都不約而同地將目光投向了 World Model。
這篇文章將帶你深入理解:
- 什麼是 World Model?為什麼它對 AGI 如此重要?
- 各大科技巨頭和新創公司如何佈局這條賽道?
- 誰在領先?未來將走向何方?
第一章:什麼是 World Model?
1.1 定義:AI 腦中的「模擬器」
World Model 是一種能夠理解並模擬世界運作方式的 AI 系統。
想像一下:當你看到一顆球滾向桌邊,你不需要真的看到它掉落,就能預測接下來會發生什麼。這種能力——在腦中「模擬」物理世界——正是 World Model 試圖賦予機器的。
根據 NVIDIA 的定義:
World Model 是「理解真實世界動態(包括物理和空間屬性)的生成式 AI 模型」。
更具體地說,World Model 具備以下能力:
| 能力 | 說明 | 範例 |
|---|---|---|
| 環境理解 | 理解 3D 空間中物體的位置和關係 | 知道杯子在桌上、門在牆上 |
| 物理預測 | 預測物體運動和交互的結果 | 預測球會反彈、水會流動 |
| 因果推理 | 理解行動與結果的因果關係 | 推門會開、按鈕會觸發 |
| 狀態記憶 | 記住環境的變化歷史 | 記得剛才移動過的物品位置 |
1.2 為什麼 LLM 不夠?
大型語言模型已經展現了驚人的能力,但它們有一個根本性的局限:缺乏對物理世界的理解。
李飛飛在她的宣言中寫道:
「今天,領先的 AI 技術如大型語言模型已開始改變我們獲取和使用抽象知識的方式。但它們仍是黑暗中的文字工匠——雄辯但缺乏經驗,博學但未接地氣。」
LLM 可以寫出完美的物理學論文,卻無法預測一個簡單的球會如何滾動。它們生活在「語言的世界」中,而非「物理的世界」中。
這就是 World Model 要解決的問題。
1.3 World Model 對 AGI 的意義
為什麼 AI 領域的頂尖研究者都認為 World Model 是 AGI 的關鍵?
1. 補足 LLM 的「接地」缺失
深度學習三巨頭——Yann LeCun(Meta)、Demis Hassabis(Google DeepMind)和 Yoshua Bengio(Mila)——都相信 World Model 對於構建真正智能、科學且安全的 AI 系統至關重要。
2. 為具身智能提供無限訓練環境
機器人和自動駕駛的最大瓶頸是訓練數據。在真實世界中收集數據既昂貴又危險。World Model 可以生成無限的模擬環境,讓 AI 在虛擬世界中安全地學習。
3. 實現認知-感知-行動的閉環
真正的智能需要三個組件協同運作:
- 感知(Perception):理解環境
- 認知(Cognition):推理和規劃
- 行動(Action):執行決策
World Model 正是連接這三者的橋樑。
第二章:主要玩家與技術路線
2.1 Google DeepMind — Genie 系列
定位:通用 World Model,AGI 研究導向
發展歷程:
- Genie 1(2024.03):首個基礎世界模型,從網路影片學習
- Genie 2(2024.12):生成可玩 3D 世界,支援鍵鼠操作
- Genie 3(2025.08):業界首個實時互動 World Model
技術特點:
Genie 3 代表了當前 World Model 的技術巔峰:
| 指標 | 規格 |
|---|---|
| 解析度 | 720p |
| 幀率 | 24 fps(實時) |
| 一致性維持 | 數分鐘 |
| 視覺記憶 | 約 1 分鐘 |
最令人驚訝的是,Genie 3 的物理一致性是一種湧現能力——研究人員並未明確編程,模型自己「學會」了記住之前生成的內容。
DeepMind 的願景:
「World Model 是通往 AGI 的關鍵墊腳石,因為它們使訓練 AI 代理成為可能,可以在無限豐富的模擬環境中進行學習。」
DeepMind 已經將 Genie 3 與其通用代理 SIMA 整合測試,讓 AI 在生成的世界中執行任務,驗證 AGI 路徑的可行性。
2.2 World Labs — Marble
定位:空間智能先驅,創意產業導向
創辦人:李飛飛(ImageNet 創建者,「AI 教母」)
核心理念:
李飛飛提出了「空間智能」(Spatial Intelligence)的概念,認為這是 AI 發展的下一個前沿:
「空間智能將改變我們創造和互動真實與虛擬世界的方式——徹底變革敘事、創意、機器人、科學發現等領域。」
Marble 的獨特之處:
與其他 World Model 最大的不同在於:Marble 創建持久、可下載的 3D 環境,而非即時生成後即消失。
| 功能 | 說明 |
|---|---|
| 多模態輸入 | 文字、圖片、影片、全景圖、3D 佈局 |
| 持久化環境 | 生成後可保存、編輯、導出 |
| 輸出格式 | Gaussian Splat、三角網格、影片 |
| 編輯工具 | Chisel(結構-風格分離編輯器) |
| VR 支援 | 已兼容 Vision Pro、Quest 3 |
商業化進程:
World Labs 於 2024 年 9 月以 2.3 億美元融資成立,2025 年 11 月 Marble 正式商業化,提供免費和付費層級,是目前商業化速度最快的 World Model 公司。
2.3 NVIDIA — Cosmos
定位:物理 AI 基礎設施,開源生態策略
發布時間:2025 年 1 月(CES 2025)
Jensen Huang 的宣言:
「機器人的 ChatGPT 時刻即將到來。就像大型語言模型一樣,World Foundation Model 對於推進機器人和自動駕駛開發至關重要。我們創建 Cosmos 是為了讓物理 AI 民主化,讓通用機器人觸手可及。」
Cosmos 的戰略定位:
NVIDIA 採取了與 DeepMind、OpenAI 截然不同的策略——完全開源。
| 版本 | 發布時間 | 主要特性 |
|---|---|---|
| Cosmos 1.0 | 2025.01 | 基礎 WFM,物理感知生成 |
| Cosmos Transfer | 2025.03 | 3D 模擬轉真實影片 |
| Cosmos Reason | 2025.08 | 7B 推理 VLM,物理常識 |
生態系統優勢:
目前已採用 Cosmos 的公司包括:
- 人形機器人:1X、Figure AI、Agility、XPENG
- 工業機器人:Agile Robots、Neura Robotics、Skild AI
- 自動駕駛:Uber、Waabi、Wayve
- 其他:Fourier、Virtual Incision
這種「基礎設施」定位讓 NVIDIA 在商業化方面遙遙領先。
2.4 OpenAI — Sora
定位:創意工具 + 世界模擬器
發展歷程:
- Sora 預覽(2024.02):震撼業界,被稱為視頻生成的「GPT-1 時刻」
- Sora Turbo(2024.12):正式發布,面向創作者
- Sora 2(2025.09):大幅提升物理一致性,加入同步音訊
技術哲學:
OpenAI 將 Sora 定位為「世界模擬器」:
「Sora 作為能夠理解和模擬現實世界的模型基礎,我們相信這種能力將是實現 AGI 的重要里程碑。」
Sora 2 的突破:
Sora 2 團隊負責人 Bill Peebles 表示:
「我們已經達到了視頻的 GPT-3.5 時刻。當模型犯錯時,它實際上是以一種非常獨特的方式失敗——不是模型失敗,而是模型內部隱含建模的『代理』失敗。」
這意味著 Sora 2 開始展現出對「因果」而非僅僅「相關」的理解。
局限:
相較於 Genie 3,Sora 更偏向「生成」而非「互動」。它能創造精美的影片,但用戶無法「進入」並操控這個世界。
2.5 Meta — JEPA 架構
定位:非生成式路線,理論創新導向
核心人物:Yann LeCun(圖靈獎得主,Meta 首席 AI 科學家)
與主流的根本分歧:
LeCun 認為當前的生成式 AI(包括 LLM 和視頻生成模型)是通往人類級智能的「死胡同」:
「LLM 在語言層面表現良好,但它們不理解世界。它們缺乏常識和因果關係,只是大量統計相關性的堆疊。」
JEPA 架構的核心思想:
| 維度 | 生成式路線(Sora、Genie) | JEPA 路線 |
|---|---|---|
| 預測目標 | 像素/token | 抽象表徵 |
| 學習方式 | 重建缺失內容 | 預測狀態變化 |
| 計算效率 | 較低 | 高(號稱比 Cosmos 快 30x) |
| 不確定性處理 | 嘗試填補所有細節 | 可忽略不可預測的部分 |
發展里程碑:
- I-JEPA(2023.06):圖像表徵預測
- V-JEPA(2024.02):視頻表徵預測
- V-JEPA 2(2025.06):物理世界理解
重大變局:
2025 年 11 月,LeCun 宣布離開 Meta,創辦專注於「先進機器智能」(AMI)的新公司。這預示著 JEPA 路線可能迎來獨立發展的新階段。
2.6 Decart — Oasis
定位:實時遊戲生成,消費端應用
核心產品:Oasis——首個可玩的 AI 生成開放世界
技術特點:
- 在 Minecraft 遊戲影片上訓練
- 實時 20 fps 生成
- 接收鍵鼠輸入,模擬物理和遊戲規則
商業成績:
- 2024 年 10 月開源發布
- 2024 年 12 月融資 3200 萬美元
- 2025 年 8 月以 31 億美元估值融資 1 億美元
技術願景:
Decart 與 Etched(AI 晶片公司)合作,計劃在專用晶片上實現 4K 遊戲生成。他們相信:
「這類模型甚至可能通過即時根據用戶偏好生成內容來增強現代娛樂平台,提供引入用戶互動新可能性的遊戲體驗。」
2.7 Wayve — GAIA 系列
定位:自動駕駛專用 World Model
發展歷程:
- GAIA-1(2023):9B 參數,視頻+文字+動作輸入
- GAIA-2(2025.03):增強可控性,多國數據
- GAIA-3(2025.12):15B 參數,專注安全驗證
技術特點:
GAIA 系列專為自動駕駛設計,具備其他通用 World Model 所沒有的能力:
| 能力 | 說明 |
|---|---|
| 多攝像頭一致性 | 同時生成多視角一致的影像 |
| 安全場景模擬 | 生成罕見但關鍵的危險情境 |
| 精細控制 | 控制車輛行為、天氣、其他車輛 |
| 跨地域泛化 | 訓練數據跨 9 國 3 大洲 |
應用價值:
Wayve 首席科學家 Jamie Shotton 表示:
「GAIA-3 將 World Modeling 從視覺合成工具轉變為自動駕駛評估的基礎。它能重新創建真實世界環境的動態——從日常交通到罕見的安全關鍵事件。」
第三章:技術路線對比
3.1 生成式 vs 表徵預測
當前 World Model 領域存在兩大技術路線的根本分歧:
┌─────────────────────────────────────────────────────────────┐
│ World Model 技術路線 │
├──────────────────────────┬──────────────────────────────────┤
│ 生成式路線 │ 表徵預測路線 │
│ (DeepMind, OpenAI, │ (Meta JEPA) │
│ NVIDIA, World Labs) │ │
├──────────────────────────┼──────────────────────────────────┤
│ • 直接生成像素/視頻 │ • 在抽象空間中預測狀態 │
│ • 從大規模視頻數據學習 │ • 學習本質結構而非表面 │
│ • 物理理解從規模中「湧現」 │ • 明確建模因果關係 │
│ • 計算成本較高 │ • 效率高(30x) │
│ • 商業化進展快 │ • 仍在研究階段 │
└──────────────────────────┴──────────────────────────────────┘3.2 Genie vs Marble 詳細對比
作為當前最先進的兩個通用 World Model,Genie 3 和 Marble 代表了不同的設計哲學:
| 維度 | Genie 3 (DeepMind) | Marble (World Labs) |
|---|---|---|
| 生成方式 | 實時逐幀生成 | 持久化生成後編輯 |
| 互動性 | 即時可控(鍵鼠) | 創建後進行編輯 |
| 輸出格式 | 實時視頻流 | 3D 資產(可導出) |
| 物理理解 | 湧現式物理一致性 | 尚未明確建模動態 |
| 編輯能力 | 文字提示改變世界 | 完整 3D 編輯工具鏈 |
| 主要應用 | AI Agent 訓練 | 創意製作、VR/AR |
| 開放程度 | 研究預覽 | 已商業化 |
3.3 各家技術維度雷達圖
實時互動
↑
95│ DeepMind
85│ Decart
60│ NVIDIA
50│ Wayve
45│ WorldLabs
40│ OpenAI
30│ Meta
←─────────────────────┼─────────────────────→
開源生態 │ 3D生成
NVIDIA 95 │ WorldLabs 95
Meta 85 │ DeepMind 80
Decart 80 │ NVIDIA 75
DeepMind 40 │ Wayve 70
Wayve 35 │ OpenAI 65
WorldLabs 30 │ Decart 55
OpenAI 25 │ Meta 50
↓
商業化
NVIDIA 90
OpenAI 85
WorldLabs 80
Wayve 75
Decart 70
Meta 40
DeepMind 30第四章:競爭態勢與領先者分析
互動式競爭態勢分析圖表 - 點擊查看各公司詳細資訊
第五章:技術路線之爭
5.1 生成式陣營的邏輯
以 DeepMind、OpenAI、NVIDIA 為代表的生成式陣營相信:
「規模帶來湧現」
當你用足夠多的視頻數據訓練足夠大的模型,物理理解會自然「湧現」。Genie 3 的物理一致性並非程式設計的結果,而是從數據中自動學會的。
這條路線的優勢:
- ✅ 商業化進展快
- ✅ 效果直觀可見
- ✅ 可利用現有大規模視頻數據
劣勢:
- ❌ 計算成本極高
- ❌ 難以保證物理正確性
- ❌ 可解釋性差
5.2 LeCun 的反對意見
Yann LeCun 認為這條路根本走不通:
「用 LLM 理解真實世界,就像只靠說話來教人開車。你可以背誦所有交通規則,但你永遠學不會真正開車。」
他提出的 JEPA 架構核心思想:
不預測像素,預測抽象表徵
- 像素級預測浪費計算資源在不重要的細節上
- 抽象表徵捕捉本質結構
明確建模不確定性
- 世界本質上是不完全可預測的
- 好的 World Model 應該知道什麼是不可預測的
效率優先
- V-JEPA 2 比 Cosmos 快 30 倍
- 更少的數據,更好的泛化
5.3 誰會贏?
這場技術路線之爭的結果可能決定 AGI 的走向。目前來看:
短期(1-2年):生成式路線領先
- 商業化更成熟
- 效果更直觀
- 資源投入更大
中期(3-5年):可能出現融合
- 生成式處理感知
- 表徵預測處理推理
- 兩者結合可能是最優解
長期:取決於 AGI 的真正需求
- 如果 AGI 需要「理解」而非「模仿」,JEPA 可能勝出
- 如果規模確實能帶來理解,生成式可能持續領先
第六章:產業應用與商業前景
6.1 主要應用場景
| 領域 | 應用 | 代表公司 | 成熟度 |
|---|---|---|---|
| 機器人訓練 | 在模擬環境中訓練機器人 | NVIDIA、DeepMind | ⭐⭐⭐⭐ |
| 自動駕駛 | 生成安全測試場景 | Wayve、NVIDIA | ⭐⭐⭐⭐⭐ |
| 遊戲/娛樂 | AI 生成遊戲內容 | Decart、DeepMind | ⭐⭐⭐ |
| 創意製作 | 3D 環境/影片生成 | World Labs、OpenAI | ⭐⭐⭐⭐ |
| VR/AR | 沉浸式體驗創建 | World Labs | ⭐⭐⭐ |
| 科學模擬 | 物理/化學實驗模擬 | 尚在探索 | ⭐⭐ |
6.2 商業模式
1. 基礎設施模式(NVIDIA)
- 開源模型 + 專有硬體
- 通過 GPU 銷售獲利
- 建立生態系統鎖定
2. API 服務模式(OpenAI、World Labs)
- 按使用量收費
- 免費層級吸引用戶
- 付費層級提供更多功能
3. 垂直解決方案(Wayve)
- 與車廠深度合作
- 技術授權 + 聯合開發
- 專注特定行業
4. 研究驅動模式(DeepMind、Meta)
- 優先技術突破
- 商業化節奏較慢
- 長期佈局 AGI
6.3 市場規模預測
雖然 World Model 仍是新興領域,但其潛在市場規模巨大:
- 機器人訓練模擬:預計 2030 年達 500 億美元
- 自動駕駛模擬:預計 2030 年達 300 億美元
- 創意工具市場:預計 2030 年達 200 億美元
- 遊戲內容生成:預計 2030 年達 150 億美元
第七章:未來展望
7.1 2026 年預測
DeepMind + NVIDIA 雙寡頭格局
- DeepMind 在技術前沿保持領先
- NVIDIA 通過開源生態主導產業落地
LeCun 新公司成為最大變數
- 如果 JEPA 路線證明有效
- 可能顛覆當前生成式主導格局
World Labs 快速擴張
- 在創意產業建立強勢地位
- 可能成為「3D 內容的 Adobe」
「機器人 ChatGPT 時刻」到來
- World Model 成為機器人的核心基礎設施
- 人形機器人開始規模化部署
7.2 通往 AGI 的路徑
World Model 在 AGI 藍圖中的位置:
┌─────────────────────────────────────────────────────────────┐
│ AGI 架構 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 感知層 │ → │ World Model │ → │ 行動層 │ │
│ │ (Vision, │ │ (環境理解, │ │ (規劃, │ │
│ │ Audio...) │ │ 物理預測) │ │ 執行) │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ ↑ ↑ ↑ │
│ └──────────────────┴──────────────────┘ │
│ 反饋迴路 │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 語言理解層 (LLM) │ │
│ │ 任務理解、推理、溝通 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘World Model 是連接「理解語言」和「行動於世界」的關鍵橋樑。沒有它,AI 只能停留在數位世界;有了它,AI 才能真正進入物理世界。
7.3 風險與挑戰
計算成本
- 目前 World Model 訓練成本極高
- 需要專用硬體突破
物理準確性
- 湧現式物理理解仍不完美
- 關鍵應用(醫療、自駕)需要更高可靠性
倫理與安全
- 生成內容的真假難辨
- 可能被用於虛假信息
版權問題
- 訓練數據的版權爭議
- 生成內容的權利歸屬
結語:想像力的邊界
1943 年,蘇格蘭心理學家 Kenneth Craik 提出了一個革命性的想法:
「如果有機體在其頭腦中攜帶外部現實的『小規模模型』,它就能夠嘗試各種替代方案,得出哪個是最佳的結論……以更完整、更安全、更有能力的方式做出反應。」
80 年後,我們正在用矽基晶片實現這個願景。
World Model 不僅僅是一項技術進步,它代表著我們對「智能」本質理解的深化。真正的智能不是記住更多的知識,而是能夠在腦中「模擬」世界,預見行動的後果,並據此做出明智的決策。
從 Genie 的實時互動,到 Marble 的空間智能,從 Cosmos 的產業落地,到 JEPA 的理論創新——我們正在見證 AI 從「語言智能」向「世界智能」的歷史性跨越。
這場競賽才剛剛開始。贏家將不僅定義 AI 的未來,更將重塑人類與機器的關係。
附錄:參考資源
官方資源
- Google DeepMind Genie 3 發布
- World Labs Marble
- NVIDIA Cosmos
- OpenAI Sora
- Meta V-JEPA
- Wayve GAIA
- Decart Oasis
學術論文
- LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence
- OpenAI (2024). Video generation models as world simulators
- Ha, D., & Schmidhuber, J. (2018). World Models
延伸閱讀
- 李飛飛:From Words to Worlds: Spatial Intelligence is AI's Next Frontier
- Quanta Magazine: World Models, an Old Idea in AI, Mount a Comeback