合作媒體

Cohere AI發表高效語音辨識模型 搶攻企業語音智慧應用

商傳媒|何映辰/台北報導

人工智慧公司 Cohere AI 今日宣布推出其最新的自動語音辨識(ASR)模型「Cohere Transcribe」,旨在將非結構化語音轉換為具洞察力的文字,進而推動企業語音智慧的發展。該模型一經發布,便以平均 5.42% 的詞錯誤率(WER)榮登 Hugging Face 開放 ASR 排行榜榜首,展現出領先業界的精準度。

MarkTechPost 指出,Cohere Transcribe 在多項基準測試中表現優異,例如在 AMI 測試中獲得 8.13 分,在 LibriSpeech clean 數據集上僅錄得 1.25% 的錯誤率。這項成績超越了包括 Whisper Large v3(平均 WER 7.44%)、ElevenLabs Scribe v2(5.83%)及 Qwen3-ASR-1.7B(5.76%)等多個市場主要競爭者。在人為偏好測試中,Transcribe 更在與 IBM Granite 4.0 及 NVIDIA Canary Qwen 2.5B 的比較中,分別獲得 78% 與 67% 的青睞度。

該模型採用大型 Conformer 編碼器搭配輕量級 Transformer 解碼器的混合架構,此設計結合了卷積神經網路(CNN)的局部特徵捕捉能力與轉換器(Transformer)的全局上下文理解力。Cohere Transcribe 目前支援包含英文、德文、法文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、阿拉伯文、越南文、中文、日文及韓文等 14 種語言,顯示其廣泛的應用潛力。

Cohere AI 將 Transcribe 定位為高精度、生產導向的 ASR 模型,能夠以 35 秒為單位的音頻區塊進行處理,並透過分塊與重組機制處理長達 55 分鐘的音頻文件,同時有效管理 GPU 記憶體。不過,此模型為純粹的自動語音辨識工具,不內建說話者分離或時間戳記功能,且在預先定義目標語言時能發揮最佳效能,不支援自動語言偵測或針對語言切換進行優化。