讓 AI 從「背題」到「解題」：反洗錢（AML）實戰帶給我們的微調啟示

分類: BLOG

標籤: AML, CoT, GRPO, LLM

在 AI 領域，許多人最常問的問題是：「模型訓一次要多久？」但對台智雲來說，微調從來不是「訓練一次」的動作，而是一場關於品質管理與持續進化的「長期關係」。

如果說前兩篇我們談了流程與模型分類，這一篇我們要深入實戰現場，看看當 LLM 遇上法規極其嚴苛的「反洗錢（AML）」任務時，我們是如何讓它從一個從只依賴表面語義判斷的機器，進化成能進行多步推理的金融專家。

傳統的 AML 系統在解析結構化資料（如轉帳金額）很強，但在面對非結構化資料（如新聞報導、法院公告）時卻很頭痛。我們希望 AI 能從冗長的新聞中判斷：這是否涉及非法行為？相關人物是誰？他們的關係為何？

這不是單純的關鍵字匹配，這需要「推理」。

在 AML 案例中，我們經歷了五次關鍵的技術躍遷，每一次都是為了解決最現實的落地痛點：

從 LoRA 開始驗證可行性：我們最初用最輕量的 LoRA 微調，驚訝地發現模型能聽懂題目，這給了團隊信心——這條路走得通！
導入蒸餾模型（Distillation）：為了讓 8B 小模型學習 70B 模型的推理方式，我們不教答案，而是教「大模型怎麼想」。我們把大模型的**推理鏈（CoT）**抽出來餵給小模型，讓它學會抽象邏輯的投影。
CoT 資料擴增：教模型「怎麼想」：我們發現模型有時會「答對，但理由瞎掰」。於是我們補強了推理鏈品質，讓模型從學習「字元（Token）」升級到學習「步驟（Step）」。
Self-Refine：學會「自我修正」：我們引入了「先犯錯、再檢查、再修正」的機制。這讓模型在訓練過程中學會辨識自己的推理盲點，邏輯密度因此大幅提升。
GRPO：讓推理每一步都穩定：這是最後的關鍵。我們不給絕對分數，而是給「相對獎勵」。告訴模型這四個推理路徑中哪一個最合理。這讓模型不再只是偶爾很強，而是變得極其可靠。

透過這個案例，我們總結出企業級微調的三大成功要素：

結語：建立一套「會長大」的 Pipeline

微調是一場馬拉松。當我們把資料管線（Pipeline）、自動化評估與算力基礎設施串聯起來，模型就不再是一個靜止的檔案，而是一個會隨著業務資料持續更新、越用越準的「數位資產」。

台智雲不僅提供算力，更提供這套經過戰場所驗證的工程經驗，協助台灣企業在 AI 時代，建立起真正屬於自己的數位韌性。