商傳媒|葉安庭/綜合外電報導
印度新創公司Sarvam AI近日獲得Google執行長桑德爾·皮蔡(Sundar Pichai)的高度肯定,其開發的人工智慧模型在處理印度多元語言和視覺理解任務方面展現卓越能力。該模型旨在深入發掘印度本地知識,並解決全球主流模型對印度語言支援不足的問題。
Sarvam AI的核心視覺語言模型(VLM)是一個高效能的3B狀態空間模型,不僅具備圖像標註、場景文字識別、圖表解讀及複雜表格解析等視覺理解功能,更在涵蓋22種官方印度語言的高品質資料集上進行訓練。據Sarvam AI執行長普拉蒂尤什·庫馬爾(Pratyush Kumar)指出,Sarvam Vision在olmcOCR-Bench(僅限英語子集)上達到84.3%的領先準確度,超越了Gemini 3 Pro等頂尖模型。
除了視覺理解,Sarvam AI的語音辨識模型支援10種印度語言,擁有7400萬個參數,僅佔約294MB的裝置空間。此模型能自動識別所說語言,並以約8.5倍於即時的速度處理語音,在Qualcomm Snapdragon 8 Gen 3晶片上的首次詞元生成時間少於300毫秒。其語音合成模型則有2400萬個參數和約60MB的裝置空間,可進行客製化語音複製,僅需約一小時的音訊資料即可部署。
此外,Sarvam AI的翻譯模型擁有1.5億個參數,在裝置上的佔用空間約為334MB。該模型能處理110種語言對的雙向翻譯,其中包括10種印度語言和英語,並且無需透過中介語言。這項技術對於解鎖實體文件、掃描檔案及歷史文獻中的印度知識至關重要。該公司於2023年8月成立,其文件智慧API曾免費提供至2026年2月,供使用者探索和建構Sarvam Vision應用。








