檢索增強生成（RAG）完全指南：從原理到實戰

luk 收錄於 Artificial-Intelligence

2025-01-14 約 400 字預計閱讀 2 分鐘

為什麼 RAG 是 LLM 時代的必備技術？

想像大語言模型（LLM）是一位擁有淵博知識的頂尖學者。

預訓練就像這位學者在學校裡閱讀了數萬本書，形成了強大的語言能力和世界觀。
然而，他參加的是閉卷考試（直接提問 LLM）：他無法回憶起所有細節，容易遺忘最近發生的事，也無法參考他從未讀過的公司內部文件。
RAG的作用，就是將閉卷考試變為開卷考試。當問題出現時，先讓他迅速查閱相關的參考資料，然後根據手邊的文件作答，確保答案的準確性和時效性。

理解 RAG，是從「玩轉」LLM 提升到「應用」LLM 解決實際業務問題的關鍵。

🧠 LLM 的三大知識困境

在沒有 RAG 之前，直接使用預訓練 LLM 進行問答，面臨三大挑戰：

1. 幻覺（Hallucination）

當模型被問到一個它不確定的細節時，它傾向於編造聽起來合理但事實上錯誤的資訊。這源於其訓練目標是「產生最可能的下一個詞」，而非「產生事實準確的詞」。

2. 知識過時（Knowledge Staleness）

LLM 的知識截止日期是其最後一次預訓練的時間點。對於訓練之後發生的新事件、最新財報、或法規變動，LLM 無法獲知。
範例：你問 2024 年的模型誰贏得了 2025 年的奧斯卡獎，它會根據過去的資訊來猜測或給出過時的答案。

3. 知識隔離（Knowledge Isolation）

LLM 無法存取你的專屬領域知識，例如公司的產品手冊、內部郵件、私有程式碼文件或未公開的研究報告。若要讓 LLM 基於這些文件回答，傳統方法成本過高。

🔎 RAG（檢索增強生成）是什麼？

RAG 是一種將檢索系統 (Retriever) 和 生成模型 (Generator) 結合的技術，其目標是：在 LLM 生成回覆之前，先從外部知識庫中檢索相關的片段（Context），然後將這些片段作為提示詞的一部分輸入給 LLM，引導模型生成基於事實的答案。

RAG 的核心：將答案的依據外部化

特性	傳統 LLM（閉卷）	RAG LLM（開卷）
知識來源	模型參數（記憶）	外部知識庫（參考資料）
問答流程	問句 → 直接生成答案	問句 → 檢索相關資料 → 根據資料生成答案
知識更新	需重新訓練或微調模型	只需更新外部資料庫
準確性	依賴記憶，易產生幻覺	基於事實，準確性高

📐 RAG 的標準架構流程

RAG 系統分為兩個主要階段：索引階段（預處理）和運行階段（問答）。

1. 索引階段（Indexing Phase）：建構知識庫

這個階段的目標是將非結構化的原始文件（PDF、網頁、手冊等）轉變為可供快速檢索的向量資料庫。

資料擷取 (Data Ingestion)：從各種來源（網站、資料夾、資料庫）收集文件。
分塊 (Chunking)：將文件切分成較小的、有意義的文本片段（Chunk）。這是 RAG 成功的關鍵一步。塊太長會稀釋資訊，塊太短會失去上下文。
嵌入 (Embedding)：使用嵌入模型（如 OpenAI Embedding, BGE）將每個文本塊轉換成一個高維向量（Embedding）。向量能捕捉文本的語義資訊。
向量儲存 (Vector Storage)：將這些向量儲存到向量資料庫（Vector Database，如 Pinecone, Weaviate, Milvus）中，以便進行高效的相似性搜尋。

2. 運行階段（Retrieval and Generation Phase）

當使用者提出一個問題時，系統會執行以下三個步驟：

查詢嵌入 (Query Embedding)：使用與索引階段相同的嵌入模型，將使用者的問題轉換為一個查詢向量。
檢索 (Retrieval)：在向量資料庫中，根據語義相似度（通常計算向量間的距離或餘弦相似度），找出與查詢向量最接近的 K 個文本塊（Top-K Chunks）。
增強與生成 (Augmentation & Generation)：
- 系統創建一個增強提示詞 (Augmented Prompt)，其結構為：[System Instruction] + [Retrieved Context] + [User Query]。
- 將此提示詞傳給 LLM（生成模型），LLM 根據這些可靠的外部資訊生成最終答案。

🚀 RAG 的關鍵優勢

使用 RAG 技術可以帶來多重優勢：

1. 提高真實性與可靠性 (Groundedness) RAG 強制 LLM 必須參考檢索到的事實，從而大大減少「幻覺」，使答案更可靠。

2. 保持知識常新 (Up-to-Date) 若知識庫中的一份文件更新了，RAG 系統只需重新索引該文件。無需對 LLM 進行耗時且昂貴的再訓練。

3. 處理領域特定知識 (Domain Specificity) 企業可以建立自己的私人知識庫，讓 LLM 立即應用於特定領域的問答，例如醫療診斷、法律條文或內部程式碼庫。

4. 成本效益高 (Cost-Effectiveness) 相較於對大型模型進行昂貴的全量微調 (Full Fine-tuning) 以注入新知識，RAG 僅需維護一個向量資料庫，且通常只需要較小的 LLM 即可勝任。

5. 提升可解釋性 (Interpretability) 由於 LLM 的答案是基於檢索到的文本塊，RAG 系統可以提供引用來源 (Citations)，標明答案來自哪個文件或哪個頁面，大大增加了結果的透明度和用戶信任度。

🛠️ RAG 實戰的優化與進階

RAG 並非一勞永逸，其效果極度依賴於資料處理和檢索策略。進階的 RAG 專案通常會包含以下優化步驟：

優化技術	目的	說明
Reranking (重新排序)	提升檢索準確性	初步檢索 Top-50，再用更強大的模型對這 50 個結果進行二次評分排序，選出最相關的 Top-5。
Query Transformation (查詢轉換)	解決檢索語義偏差	當用戶問題很複雜時，先讓 LLM 將複雜問題分解成多個簡單的子問題，分別檢索，再將結果合併。
Multi-Hop RAG (多跳 RAG)	處理複雜推理	檢索結果中缺少答案？讓 LLM 根據第一個結果生成新的檢索查詢，進行第二次檢索，直到找到完整答案。
Chunking 策略優化	確保上下文完整	使用表格感知、程式碼感知或根據文件結構（標題、段落）的分塊策略。

📊 RAG 與微調（Fine-Tuning）的選擇

RAG 和微調（Fine-Tuning）都是客製化 LLM 的方法，但適用場景不同：

特性	RAG（檢索增強生成）	Fine-Tuning（微調）
適用場景	注入新事實、領域知識、即時資訊	改變模型風格、語氣、輸出格式、或教會模型特定技能（如 JSON 輸出）
數據形式	非結構化文件（PDF, TXT, HTML）	結構化問答對（Prompt-Completion Pairs）
知識更新	快速（秒級），只需更新向量庫	慢速（小時級），需重新訓練模型權重
成本	低（主要是 Embedding 和資料庫費用）	高（需要大量 GPU 算力）
輸出引用	有（可提供引用來源）	無（知識融入模型權重）

黃金原則：

需要新知識 / 事實？ → 選 RAG。
需要改變行為 / 語氣？ → 選微調。
現代應用：通常會同時使用 RAG 和微調，微調改善模型的遵循指令能力（行為），RAG 注入最新的領域知識（事實）。

🏁 總結

RAG 技術的出現，成功地將 LLM 的強大推理和語言能力與外部知識庫的準確性結合起來。

核心問題	RAG 解決方案	體現的價值
幻覺與不準確	外部知識作為「事實錨點」	答案可靠性大幅提升
知識過時	向量資料庫的即時更新	知識庫常新，資訊即時
私有資料利用	建立私人知識庫	LLM 服務於企業專屬領域

RAG 已經成為企業在 AI 應用中實現知識問答、智慧客服、文件摘要等功能時的標準架構。它代表了 LLM 應用從單純的語言生成，邁向真正基於事實的知識服務的關鍵一步。

🔗 延伸閱讀

📄 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks - 原始 RAG 論文
💻 LangChain/LlamaIndex RAG 框架 - RAG 實作入門
📚 向量資料庫的原理 - 深入理解 RAG 的基礎設施