Appearance
Embedding Atlas:讓 AI 幫你把大量文字變成一張藏寶圖
🔗 GitHub:https://github.com/apple/embedding-atlas
🎮 線上 Demo:https://apple.github.io/embedding-atlas
作者:Ray 日期:2025 年 11 月
前言:大量文字資料的困境
你是否遇過這些情況?
- 行銷部門收到上千則客戶回饋,不知從何看起
- HR 要分析員工滿意度調查的開放式回答,只能一則一則讀
- 客服主管想知道客訴的主要類型,但資料太多無法人工分類
傳統做法不外乎:人工標籤、關鍵字搜尋、或者做成文字雲。但這些方法不是太慢,就是太粗糙,很難真正「看懂」資料的全貌。
Apple 最近開源了一個工具——Embedding Atlas,正好能解決這個問題。
什麼是 Embedding Atlas?
簡單說,它是一個把大量文字自動變成互動地圖的工具。
運作原理是這樣的:
- 把文字變成數字:AI 會把每段文字轉換成一組「嵌入向量」(你可以想像成文字的 GPS 座標)
- 相似的聚在一起:意思相近的文字,座標會很接近
- 降維成 2D 地圖:透過演算法把高維資料壓縮成平面,讓人眼可以看
- 自動分群與標籤:工具會自動把相似的資料圈成一群,並嘗試命名
最後你看到的,就是一張可以放大、縮小、點擊、篩選的互動式資料地圖。
核心功能一覽
| 功能 | 說明 |
|---|---|
| 🏷️ 自動聚類與標籤 | 不用人工分類,AI 自動把相似資料分群 |
| 🫧 密度視覺化 | 一眼看出哪裡資料最密集、哪裡是離群值 |
| 🔍 即時搜尋 | 輸入關鍵字,立刻找到相關資料點 |
| 📊 多欄位篩選 | 結合其他欄位(日期、類別)交叉分析 |
| 🚀 高效能 | 支援到幾百萬筆資料,瀏覽器內流暢運行 |
| 🔒 資料隱私 | 完全本機運算,資料不會上傳到任何地方 |
辦公室應用場景
📢 行銷部門
應用:客戶回饋與市場聲量分析
把客戶問卷的開放題、社群評論、產品 Review 匯入工具,30 秒後就能看到:
- 客戶主要在討論哪些主題
- 正面 vs 負面評價的分佈
- 競品討論集中在哪些面向
效益:從「一則一則讀」變成「一眼看全貌」,分析時間從數天縮短到數小時。
👥 人力資源部門
應用 1:員工滿意度調查分析
員工填寫的開放式回答,往往藏著最真實的心聲。把這些回答視覺化後,可以清楚看到:
- 員工抱怨集中在哪幾個主題(薪資?主管?工作量?)
- 不同部門的回饋有什麼差異
- 哪些是個案、哪些是普遍現象
應用 2:離職面談紀錄探勘
累積多年的離職面談紀錄,用這工具一次視覺化,找出離職原因的長期趨勢。
📞 客服部門
應用:客訴分類與異常偵測
把客服紀錄、客訴信件匯入後:
- 自動看出客訴的主要類型與比例
- 發現新興的問題類型(地圖上出現新的群集)
- 找出離群的特殊案例,優先處理
📚 知識管理
應用:內部文件盤點
公司累積大量 SOP、技術文件、會議紀錄,用這工具可以:
- 看出哪些主題文件最多、哪些缺乏
- 找出內容重複的文件
- 發現「孤島知識」——沒被其他文件參照的內容
怎麼開始使用?
最簡單的方式:命令列一行搞定
bash
# 用 uv 執行(不需預先安裝)
uvx embedding-atlas your_data.csv --text "要分析的欄位名稱"執行後打開 http://localhost:5055/,就能看到互動介面。
在 Jupyter Notebook 中使用
python
from embedding_atlas import EmbeddingAtlas
import pandas as pd
df = pd.read_csv("customer_feedback.csv")
EmbeddingAtlas(df, text="feedback_content")資料準備
只需要準備一個 CSV 檔,包含:
- 一個文字欄位(你想分析的內容)
- 其他欄位(日期、類別等)可用於篩選
不需要向量資料庫,不需要複雜的 ETL,工具會自動處理嵌入向量的計算。
跟其他工具的差異
| Embedding Atlas | 傳統文字雲 | 向量資料庫 | |
|---|---|---|---|
| 能看出語意關係 | ✅ | ❌ | ❌(要另外視覺化) |
| 互動探索 | ✅ | ❌ | ❌ |
| 上手難度 | 低 | 低 | 高 |
| 適合場景 | 探索、分析 | 簡報展示 | 生產環境檢索 |
技術細節(給工程師)
- 嵌入模型:預設使用
all-MiniLM-L6-v2(文字)或ViT(圖片),可自訂 - 降維演算法:UMAP(WebAssembly 實作)
- 前端渲染:WebGPU(支援 WebGL 2 fallback)
- 資料庫:DuckDB(跑在瀏覽器的輕量資料庫)
- 整合方式:支援 React、Svelte 元件嵌入
如果已經有自己計算好的嵌入向量,可以直接傳入 x、y 座標:
bash
embedding-atlas data.csv --x projection_x --y projection_y結語
Embedding Atlas 降低了「理解大量文字資料」的門檻。以前需要資料科學家才能做的嵌入向量分析,現在行銷、HR、客服主管都能自己探索。
它不是要取代深度分析,而是讓你在動手分析之前,先看懂資料的全貌。
當你下次面對幾千則客戶回饋、員工意見、或客訴紀錄時,不妨試試這個工具。30 秒後,你會對資料有完全不同的理解。
📎 相關資源