Cohere AI發表高效語音辨識模型搶攻企業語音智慧應用

2026-03-27

商傳媒｜何映辰／台北報導

人工智慧公司 Cohere AI 今日宣布推出其最新的自動語音辨識（ASR）模型「Cohere Transcribe」，旨在將非結構化語音轉換為具洞察力的文字，進而推動企業語音智慧的發展。該模型一經發布，便以平均 5.42% 的詞錯誤率（WER）榮登 Hugging Face 開放 ASR 排行榜榜首，展現出領先業界的精準度。

MarkTechPost 指出，Cohere Transcribe 在多項基準測試中表現優異，例如在 AMI 測試中獲得 8.13 分，在 LibriSpeech clean 數據集上僅錄得 1.25% 的錯誤率。這項成績超越了包括 Whisper Large v3（平均 WER 7.44%）、ElevenLabs Scribe v2（5.83%）及 Qwen3-ASR-1.7B（5.76%）等多個市場主要競爭者。在人為偏好測試中，Transcribe 更在與 IBM Granite 4.0 及 NVIDIA Canary Qwen 2.5B 的比較中，分別獲得 78% 與 67% 的青睞度。

該模型採用大型 Conformer 編碼器搭配輕量級 Transformer 解碼器的混合架構，此設計結合了卷積神經網路（CNN）的局部特徵捕捉能力與轉換器（Transformer）的全局上下文理解力。Cohere Transcribe 目前支援包含英文、德文、法文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、阿拉伯文、越南文、中文、日文及韓文等 14 種語言，顯示其廣泛的應用潛力。

Cohere AI 將 Transcribe 定位為高精度、生產導向的 ASR 模型，能夠以 35 秒為單位的音頻區塊進行處理，並透過分塊與重組機制處理長達 55 分鐘的音頻文件，同時有效管理 GPU 記憶體。不過，此模型為純粹的自動語音辨識工具，不內建說話者分離或時間戳記功能，且在預先定義目標語言時能發揮最佳效能，不支援自動語言偵測或針對語言切換進行優化。