印度AI新星Sarvam AI獲皮查伊肯定專攻在地語言與視覺理解

2026-03-18

商傳媒｜何映辰／台北報導

印度人工智慧（AI）新創公司 Sarvam AI 近期獲得 Google 執行長桑德爾·皮查伊（Sundar Pichai）的高度讚揚，該公司旗下的 Sarvam Vision 模型在多項技術評測中表現出色，特別是在處理印度本土語言與視覺理解任務方面展現獨特優勢。

Sarvam AI 於 2023 年 8 月由維維克·拉加萬（Vivek Raghavan）與普拉蒂尤什·庫馬爾（Pratyush Kumar）共同創立。根據 Sarvam AI 執行長庫馬爾的說法，Sarvam Vision 模型在 olmOCR-Bench (英文子集) 測試中達到 84.3% 的精確度，超越了諸如 Gemini 3 Pro 和 DeepSeek OCR 2 等主流模型。這項技術的核心能力包括圖像說明、場景文字辨識、圖表解讀以及複雜表格分析。

Sarvam AI 的主要目標之一，是將深藏於實體文件、掃描檔案與歷史典藏中的印度知識數位化。該公司也致力於為印度使用者帶來在地化的 AI 功能。有別於許多全球性模型將印度語言視為次要，導致區域文字的準確性偏低，Sarvam AI 的多模態大型語言模型 (VLM) 具備 30 億參數，專為推動在地化語言處理而設計，確保能針對印度文字提供更高的精確度。

為達成此目標，Sarvam AI 模型採用高品質數據集進行訓練，涵蓋了 22 種官方印度語言，包括多樣的金融文件、文學作品、報紙及歷史文獻等。此外，該公司還開發了多項專業模型：其語音辨識模型支援 10 種印度語言，僅需一個 7,400 萬參數、約 294 MB 大小的模型檔案，即可自動識別語種，無需使用者手動選擇。此模型能在高通（Qualcomm）Snapdragon 8 Gen 3 晶片上以約 8.5 倍即時速度處理語音，並在 300 毫秒內提供首個字符的輸出。

在語音合成方面，Sarvam AI 的模型佔用約 60 MB 空間並具備 2,400 萬參數，在標準測試中實現平均字符錯誤率 0.0173，顯示其合成語音與預期文字高度吻合。該模型也支援客製化語音複製功能，僅需約一小時的音訊資料，即可在同一個 60 MB 模型檔案內新增語音。

此外，翻譯模型擁有 1.5 億參數，裝置佔用空間約 334 MB，支援 110 種語言對的雙向翻譯，其中包括 10 種印度語言與英文，且無需透過任何中介語言即可直接翻譯。

Sarvam AI 的獨特之處在於其對印度語言的優先處理與深度視覺理解能力。相較於 Gemini 和 ChatGPT 等模型，Sarvam AI 不僅能從文件或圖像中提取文字，更能深入解讀視覺元素以獲取更豐富的知識，這使其在處理包含印度語言的複雜文件時，能展現更優異的理解能力。該公司文件智慧（Document Intelligence）應用程式介面（API）已於 2026 年 2 月開放免費使用，供開發者探索與建構相關應用。