Skip to content

Embedding Atlas:讓 AI 幫你把大量文字變成一張藏寶圖

🔗 GitHub:https://github.com/apple/embedding-atlas

🎮 線上 Demo:https://apple.github.io/embedding-atlas

作者:Ray 日期:2025 年 11 月


前言:大量文字資料的困境

你是否遇過這些情況?

  • 行銷部門收到上千則客戶回饋,不知從何看起
  • HR 要分析員工滿意度調查的開放式回答,只能一則一則讀
  • 客服主管想知道客訴的主要類型,但資料太多無法人工分類

傳統做法不外乎:人工標籤、關鍵字搜尋、或者做成文字雲。但這些方法不是太慢,就是太粗糙,很難真正「看懂」資料的全貌。

Apple 最近開源了一個工具——Embedding Atlas,正好能解決這個問題。


什麼是 Embedding Atlas?

簡單說,它是一個把大量文字自動變成互動地圖的工具。

運作原理是這樣的:

  1. 把文字變成數字:AI 會把每段文字轉換成一組「嵌入向量」(你可以想像成文字的 GPS 座標)
  2. 相似的聚在一起:意思相近的文字,座標會很接近
  3. 降維成 2D 地圖:透過演算法把高維資料壓縮成平面,讓人眼可以看
  4. 自動分群與標籤:工具會自動把相似的資料圈成一群,並嘗試命名

最後你看到的,就是一張可以放大、縮小、點擊、篩選的互動式資料地圖


核心功能一覽

功能說明
🏷️ 自動聚類與標籤不用人工分類,AI 自動把相似資料分群
🫧 密度視覺化一眼看出哪裡資料最密集、哪裡是離群值
🔍 即時搜尋輸入關鍵字,立刻找到相關資料點
📊 多欄位篩選結合其他欄位(日期、類別)交叉分析
🚀 高效能支援到幾百萬筆資料,瀏覽器內流暢運行
🔒 資料隱私完全本機運算,資料不會上傳到任何地方

辦公室應用場景

📢 行銷部門

應用:客戶回饋與市場聲量分析

把客戶問卷的開放題、社群評論、產品 Review 匯入工具,30 秒後就能看到:

  • 客戶主要在討論哪些主題
  • 正面 vs 負面評價的分佈
  • 競品討論集中在哪些面向

效益:從「一則一則讀」變成「一眼看全貌」,分析時間從數天縮短到數小時。


👥 人力資源部門

應用 1:員工滿意度調查分析

員工填寫的開放式回答,往往藏著最真實的心聲。把這些回答視覺化後,可以清楚看到:

  • 員工抱怨集中在哪幾個主題(薪資?主管?工作量?)
  • 不同部門的回饋有什麼差異
  • 哪些是個案、哪些是普遍現象

應用 2:離職面談紀錄探勘

累積多年的離職面談紀錄,用這工具一次視覺化,找出離職原因的長期趨勢。


📞 客服部門

應用:客訴分類與異常偵測

把客服紀錄、客訴信件匯入後:

  • 自動看出客訴的主要類型與比例
  • 發現新興的問題類型(地圖上出現新的群集)
  • 找出離群的特殊案例,優先處理

📚 知識管理

應用:內部文件盤點

公司累積大量 SOP、技術文件、會議紀錄,用這工具可以:

  • 看出哪些主題文件最多、哪些缺乏
  • 找出內容重複的文件
  • 發現「孤島知識」——沒被其他文件參照的內容

怎麼開始使用?

最簡單的方式:命令列一行搞定

bash
# 用 uv 執行(不需預先安裝)
uvx embedding-atlas your_data.csv --text "要分析的欄位名稱"

執行後打開 http://localhost:5055/,就能看到互動介面。

在 Jupyter Notebook 中使用

python
from embedding_atlas import EmbeddingAtlas
import pandas as pd

df = pd.read_csv("customer_feedback.csv")
EmbeddingAtlas(df, text="feedback_content")

資料準備

只需要準備一個 CSV 檔,包含:

  • 一個文字欄位(你想分析的內容)
  • 其他欄位(日期、類別等)可用於篩選

不需要向量資料庫,不需要複雜的 ETL,工具會自動處理嵌入向量的計算。


跟其他工具的差異

Embedding Atlas傳統文字雲向量資料庫
能看出語意關係❌(要另外視覺化)
互動探索
上手難度
適合場景探索、分析簡報展示生產環境檢索

技術細節(給工程師)

  • 嵌入模型:預設使用 all-MiniLM-L6-v2(文字)或 ViT(圖片),可自訂
  • 降維演算法:UMAP(WebAssembly 實作)
  • 前端渲染:WebGPU(支援 WebGL 2 fallback)
  • 資料庫:DuckDB(跑在瀏覽器的輕量資料庫)
  • 整合方式:支援 React、Svelte 元件嵌入

如果已經有自己計算好的嵌入向量,可以直接傳入 x、y 座標:

bash
embedding-atlas data.csv --x projection_x --y projection_y

結語

Embedding Atlas 降低了「理解大量文字資料」的門檻。以前需要資料科學家才能做的嵌入向量分析,現在行銷、HR、客服主管都能自己探索。

它不是要取代深度分析,而是讓你在動手分析之前,先看懂資料的全貌

當你下次面對幾千則客戶回饋、員工意見、或客訴紀錄時,不妨試試這個工具。30 秒後,你會對資料有完全不同的理解。


📎 相關資源

MIT Licensed