階躍AI發表StepAudio 2.5 Realtime 以RLHF強化角色扮演語音

2026-05-25

階躍AI發表StepAudio 2.5 Realtime 以RLHF強化角色扮演語音

商傳媒｜林昭衡／綜合外電報導

上海人工智慧實驗室階躍AI（StepFun）於昨（24）日發布了其最新端對端即時語音大型語言模型StepAudio 2.5 Realtime。該模型不僅支援高度客製化角色設定，更透過專為角色扮演情境優化的強化學習人類回饋（RLHF）技術，以及卓越的類語言理解能力，提供業界領先的語音互動體驗。

StepAudio 2.5 Realtime 採用端對端設計，有別於傳統將語音識別、推論和合成分為多個連續步驟的流水線系統，能透過單一統一系統直接實現音訊輸入與輸出。這項技術目前支援中文和英文，並可透過 WebSocket API 供開發者介接使用。

階躍AI團隊為此模型建立了一個百萬級的角色特徵矩陣，起始於超過一萬個高品質原生角色，並透過演算法擴增。在訓練過程中，該模型結合了數百萬個真實世界對話樣本，且特別針對角色扮演情境中的語者一致性進行了 RLHF 優化。RLHF 是一種利用人類偏好訊號來訓練獎勵模型，進而引導語言模型行為的技術，其應用於角色扮演的穩定性是 StepAudio 2.5 Realtime 的設計重點。

此外，StepAudio 2.5 Realtime 繼承了 StepAudio 2.5 TTS 的語音合成能力，並透過強化學習深度融合語音理解與生成。階躍AI稱之為「全域場景級語調設定」（global scene-level tonal setting）與「句內細節雕塑」（intra-sentence detail sculpting），意即模型能為回應設定整體情感基調，同時調整個別句子內的微細聲學細節。

該模型還展現出優異的類語言理解能力。類語言是指語音中的非語言聲學資訊，例如語氣、語速、停頓、嘆息和笑聲。透過分析這些元素，模型能感知使用者的情緒和潛在意圖，例如從低沉語調識別疲勞，或從快速語速判斷沮喪。這項能力需要模型直接處理音訊特徵，而非僅依賴轉錄文本。

StepAudio 2.5 Realtime 在今年四月進行的類語言理解基準測試中獲得 82.18 分，展現其對語速、情緒、年齡等聲學特徵的感知能力。階躍AI表示，透過全面的主觀與客觀評估，StepAudio 2.5 Realtime 在多個維度上的表現已領先其他即時語音模型。