商傳媒|何映辰/台北報導
印度人工智慧(AI)新創公司 Sarvam AI 近期獲得 Google 執行長桑德爾·皮查伊(Sundar Pichai)的高度讚揚,該公司旗下的 Sarvam Vision 模型在多項技術評測中表現出色,特別是在處理印度本土語言與視覺理解任務方面展現獨特優勢。
Sarvam AI 於 2023 年 8 月由維維克·拉加萬(Vivek Raghavan)與普拉蒂尤什·庫馬爾(Pratyush Kumar)共同創立。根據 Sarvam AI 執行長庫馬爾的說法,Sarvam Vision 模型在 olmOCR-Bench (英文子集) 測試中達到 84.3% 的精確度,超越了諸如 Gemini 3 Pro 和 DeepSeek OCR 2 等主流模型。這項技術的核心能力包括圖像說明、場景文字辨識、圖表解讀以及複雜表格分析。
Sarvam AI 的主要目標之一,是將深藏於實體文件、掃描檔案與歷史典藏中的印度知識數位化。該公司也致力於為印度使用者帶來在地化的 AI 功能。有別於許多全球性模型將印度語言視為次要,導致區域文字的準確性偏低,Sarvam AI 的多模態大型語言模型 (VLM) 具備 30 億參數,專為推動在地化語言處理而設計,確保能針對印度文字提供更高的精確度。
為達成此目標,Sarvam AI 模型採用高品質數據集進行訓練,涵蓋了 22 種官方印度語言,包括多樣的金融文件、文學作品、報紙及歷史文獻等。此外,該公司還開發了多項專業模型:其語音辨識模型支援 10 種印度語言,僅需一個 7,400 萬參數、約 294 MB 大小的模型檔案,即可自動識別語種,無需使用者手動選擇。此模型能在高通(Qualcomm)Snapdragon 8 Gen 3 晶片上以約 8.5 倍即時速度處理語音,並在 300 毫秒內提供首個字符的輸出。
在語音合成方面,Sarvam AI 的模型佔用約 60 MB 空間並具備 2,400 萬參數,在標準測試中實現平均字符錯誤率 0.0173,顯示其合成語音與預期文字高度吻合。該模型也支援客製化語音複製功能,僅需約一小時的音訊資料,即可在同一個 60 MB 模型檔案內新增語音。
此外,翻譯模型擁有 1.5 億參數,裝置佔用空間約 334 MB,支援 110 種語言對的雙向翻譯,其中包括 10 種印度語言與英文,且無需透過任何中介語言即可直接翻譯。
Sarvam AI 的獨特之處在於其對印度語言的優先處理與深度視覺理解能力。相較於 Gemini 和 ChatGPT 等模型,Sarvam AI 不僅能從文件或圖像中提取文字,更能深入解讀視覺元素以獲取更豐富的知識,這使其在處理包含印度語言的複雜文件時,能展現更優異的理解能力。該公司文件智慧(Document Intelligence)應用程式介面(API)已於 2026 年 2 月開放免費使用,供開發者探索與建構相關應用。







