讓 AI 從「背題」到「解題」:反洗錢(AML)實戰帶給我們的微調啟示

分類: BLOG
標籤: AML, CoT, GRPO, LLM

在 AI 領域,許多人最常問的問題是:「模型訓一次要多久?」但對台智雲來說,微調從來不是「訓練一次」的動作,而是一場關於品質管理與持續進化的「長期關係」。

如果說前兩篇我們談了流程與模型分類,這一篇我們要深入實戰現場,看看當 LLM 遇上法規極其嚴苛的「反洗錢(AML)」任務時,我們是如何讓它從一個從只依賴表面語義判斷的機器,進化成能進行多步推理的金融專家。

戰場紀實:為什麼「背答案」在金融業行不通?

傳統的 AML 系統在解析結構化資料(如轉帳金額)很強,但在面對非結構化資料(如新聞報導、法院公告)時卻很頭痛。我們希望 AI 能從冗長的新聞中判斷:這是否涉及非法行為?相關人物是誰?他們的關係為何?

這不是單純的關鍵字匹配,這需要「推理」。

實戰路徑:被「為什麼」推著走的進化史

在 AML 案例中,我們經歷了五次關鍵的技術躍遷,每一次都是為了解決最現實的落地痛點:

  1. 從 LoRA 開始驗證可行性:我們最初用最輕量的 LoRA 微調,驚訝地發現模型能聽懂題目,這給了團隊信心——這條路走得通!
  2. 導入蒸餾模型(Distillation):為了讓 8B 小模型學習 70B 模型的推理方式,我們不教答案,而是教「大模型怎麼想」。我們把大模型的**推理鏈(CoT)**抽出來餵給小模型,讓它學會抽象邏輯的投影。
  3. CoT 資料擴增:教模型「怎麼想」:我們發現模型有時會「答對,但理由瞎掰」。於是我們補強了推理鏈品質,讓模型從學習「字元(Token)」升級到學習「步驟(Step)」。
  4. Self-Refine:學會「自我修正」:我們引入了「先犯錯、再檢查、再修正」的機制。這讓模型在訓練過程中學會辨識自己的推理盲點,邏輯密度因此大幅提升。
  5. GRPO:讓推理每一步都穩定:這是最後的關鍵。我們不給絕對分數,而是給「相對獎勵」。告訴模型這四個推理路徑中哪一個最合理。這讓模型不再只是偶爾很強,而是變得極其可靠。

總結:好模型不是「訓」出來的,是「管」出來的

透過這個案例,我們總結出企業級微調的三大成功要素:

  • 資料決定天花板:來源不重要,清洗與標註的「任務定義」才重要。
  • 選對模型家族:Gemma 推理快、Phi 省資源、DeepSeek-R1 擅長邏輯。選對大腦,事半功倍。
  • 評估不只看 Loss:在金融場景,我們更看重 Latency(延遲)、一致性以及「LLM as a judge」的評分,這才是真實的業務指標。

結語:建立一套「會長大」的 Pipeline

微調是一場馬拉松。當我們把資料管線(Pipeline)、自動化評估與算力基礎設施串聯起來,模型就不再是一個靜止的檔案,而是一個會隨著業務資料持續更新、越用越準的「數位資產」。

台智雲不僅提供算力,更提供這套經過戰場所驗證的工程經驗,協助台灣企業在 AI 時代,建立起真正屬於自己的數位韌性。

訂閱台智雲 EDM

訂閱台智雲 EDM

AI雲與算力方案諮詢

業務諮詢
Sales Contact Form