合作媒體

階躍AI發表StepAudio 2.5 Realtime 以RLHF強化角色扮演語音

商傳媒|林昭衡/綜合外電報導

上海人工智慧實驗室階躍AI(StepFun)於昨(24)日發布了其最新端對端即時語音大型語言模型StepAudio 2.5 Realtime。該模型不僅支援高度客製化角色設定,更透過專為角色扮演情境優化的強化學習人類回饋(RLHF)技術,以及卓越的類語言理解能力,提供業界領先的語音互動體驗。

StepAudio 2.5 Realtime 採用端對端設計,有別於傳統將語音識別、推論和合成分為多個連續步驟的流水線系統,能透過單一統一系統直接實現音訊輸入與輸出。這項技術目前支援中文和英文,並可透過 WebSocket API 供開發者介接使用。

階躍AI團隊為此模型建立了一個百萬級的角色特徵矩陣,起始於超過一萬個高品質原生角色,並透過演算法擴增。在訓練過程中,該模型結合了數百萬個真實世界對話樣本,且特別針對角色扮演情境中的語者一致性進行了 RLHF 優化。RLHF 是一種利用人類偏好訊號來訓練獎勵模型,進而引導語言模型行為的技術,其應用於角色扮演的穩定性是 StepAudio 2.5 Realtime 的設計重點。

此外,StepAudio 2.5 Realtime 繼承了 StepAudio 2.5 TTS 的語音合成能力,並透過強化學習深度融合語音理解與生成。階躍AI稱之為「全域場景級語調設定」(global scene-level tonal setting)與「句內細節雕塑」(intra-sentence detail sculpting),意即模型能為回應設定整體情感基調,同時調整個別句子內的微細聲學細節。

該模型還展現出優異的類語言理解能力。類語言是指語音中的非語言聲學資訊,例如語氣、語速、停頓、嘆息和笑聲。透過分析這些元素,模型能感知使用者的情緒和潛在意圖,例如從低沉語調識別疲勞,或從快速語速判斷沮喪。這項能力需要模型直接處理音訊特徵,而非僅依賴轉錄文本。

StepAudio 2.5 Realtime 在今年四月進行的類語言理解基準測試中獲得 82.18 分,展現其對語速、情緒、年齡等聲學特徵的感知能力。階躍AI表示,透過全面的主觀與客觀評估,StepAudio 2.5 Realtime 在多個維度上的表現已領先其他即時語音模型。