AI模型訓練策略新進展 RLSD兼顧穩定與效率

2026-04-11

商傳媒｜葉安庭／綜合外電報導

人工智慧領域研究人員近日提出一項名為「自我蒸餾強化學習」（RLSD）的新型策略，旨在解決大型語言模型（LLM）訓練過程中，如何同時維持學習穩定性與提升效率的挑戰。這項研究結合了傳統上兩種主要的模型訓練途徑，為AI開發帶來新的方向。

現行大型語言模型的訓練主要有兩種策略。其一是「策略蒸餾」（on-policy distillation, OPD），透過一個大型的「教師模型」在每個步驟中，為「學生模型」提供密集、細緻到詞元（token）層級的指導。另一種是「可驗證獎勵強化學習」（reinforcement learning with verifiable rewards, RLVR），這種方法從環境中獲取稀疏、二進位的回饋（例如正確或錯誤、已解決或未解決），並與真實情況連結。

然而，研究發現純粹的「策略自我蒸餾」（on-policy self-distillation, OPSD）——即模型本身同時扮演學生與教師角色——存在穩定性問題。儘管在初期能迅速改善模型表現，但很快就會因為「資訊洩漏」導致學習崩潰。這是由於教師模型知識源自學生模型自身，會不斷強化錯誤而非修正，進而產生不穩定、容易自我滿足但無法泛化的解決方案。在純粹的OPSD中，學生與教師模型間的克勞爾散度（KL divergence）表現出不穩定性，顯示模型在震盪中學習到不穩固的解方。

相較之下，RLVR雖能提供可靠的方向性回饋，但當正確結果出現頻率不高時，學習進度會顯得緩慢。而自我蒸餾雖能提供密集的即時回饋，卻因缺乏外部事實的依據，容易引發資訊洩漏。

為解決上述問題，研究人員提出了RLSD策略。此方法精巧地將RLVR與自我蒸餾的角色分開。RLSD利用RLVR提供稀疏但 anchored 於真實情況的方向性回饋，同時運用自我蒸餾來校準策略梯度更新的幅度，而非直接作為學習目標。這種方式透過計算學生與教師模型在詞元層級的策略差異，將學習重點放在分歧最大的區域。

透過結合兩者優勢，RLSD策略避免了資訊洩漏問題，因為學習方向來自環境，而學習幅度的校準則來自模型本身的自我比較。根據研究結果顯示，RLSD不僅能維持RLVR的訓練穩定性，更能達到比單純RLVR更高的收斂上限。這項混合式方法使學習能更集中於正確路徑中的關鍵步驟，以及錯誤路徑中容易出錯的環節，為AI模型訓練帶來更智慧、更高效的解決方案。