在 AI 領域,許多人最常問的問題是:「模型訓一次要多久?」但對台智雲來說,微調從來不是「訓練一次」的動作,而是一場關於品質管理與持續進化的「長期關係」。
如果說前兩篇我們談了流程與模型分類,這一篇我們要深入實戰現場,看看當 LLM 遇上法規極其嚴苛的「反洗錢(AML)」任務時,我們是如何讓它從一個從只依賴表面語義判斷的機器,進化成能進行多步推理的金融專家。
戰場紀實:為什麼「背答案」在金融業行不通?
傳統的 AML 系統在解析結構化資料(如轉帳金額)很強,但在面對非結構化資料(如新聞報導、法院公告)時卻很頭痛。我們希望 AI 能從冗長的新聞中判斷:這是否涉及非法行為?相關人物是誰?他們的關係為何?
這不是單純的關鍵字匹配,這需要「推理」。
實戰路徑:被「為什麼」推著走的進化史
在 AML 案例中,我們經歷了五次關鍵的技術躍遷,每一次都是為了解決最現實的落地痛點:
- 從 LoRA 開始驗證可行性:我們最初用最輕量的 LoRA 微調,驚訝地發現模型能聽懂題目,這給了團隊信心——這條路走得通!
- 導入蒸餾模型(Distillation):為了讓 8B 小模型學習 70B 模型的推理方式,我們不教答案,而是教「大模型怎麼想」。我們把大模型的**推理鏈(CoT)**抽出來餵給小模型,讓它學會抽象邏輯的投影。
- CoT 資料擴增:教模型「怎麼想」:我們發現模型有時會「答對,但理由瞎掰」。於是我們補強了推理鏈品質,讓模型從學習「字元(Token)」升級到學習「步驟(Step)」。
- Self-Refine:學會「自我修正」:我們引入了「先犯錯、再檢查、再修正」的機制。這讓模型在訓練過程中學會辨識自己的推理盲點,邏輯密度因此大幅提升。
- GRPO:讓推理每一步都穩定:這是最後的關鍵。我們不給絕對分數,而是給「相對獎勵」。告訴模型這四個推理路徑中哪一個最合理。這讓模型不再只是偶爾很強,而是變得極其可靠。
總結:好模型不是「訓」出來的,是「管」出來的
透過這個案例,我們總結出企業級微調的三大成功要素:
- 資料決定天花板:來源不重要,清洗與標註的「任務定義」才重要。
- 選對模型家族:Gemma 推理快、Phi 省資源、DeepSeek-R1 擅長邏輯。選對大腦,事半功倍。
- 評估不只看 Loss:在金融場景,我們更看重 Latency(延遲)、一致性以及「LLM as a judge」的評分,這才是真實的業務指標。
結語:建立一套「會長大」的 Pipeline
微調是一場馬拉松。當我們把資料管線(Pipeline)、自動化評估與算力基礎設施串聯起來,模型就不再是一個靜止的檔案,而是一個會隨著業務資料持續更新、越用越準的「數位資產」。
台智雲不僅提供算力,更提供這套經過戰場所驗證的工程經驗,協助台灣企業在 AI 時代,建立起真正屬於自己的數位韌性。