商傳媒|葉安庭/綜合外電報導
Databricks近日宣布推出人工智慧(AI)運行時環境(AI Runtime, AIR),在其Lakehouse平台整合無伺服器NVIDIA繪圖處理器(GPU),旨在大幅簡化AI模型的訓練與微調過程。此舉特別針對大型語言模型(LLM)等複雜AI應用,希望解決傳統基礎設施管理所帶來的挑戰。
AI Runtime的公開預覽版現已提供,用戶可隨選存取NVIDIA A10和H100 GPU。開發者僅需在Databricks筆記本中透過簡單設定,即可使用這些高效能GPU,無需自行配置與管理運算叢集,此舉符合Databricks推動簡化資料操作的策略。
傳統上,深度學習研究人員與工程師常需耗費大量時間處理GPU採購、環境配置及資料載入等基礎設施瓶頸。Databricks設計AI Runtime的目的在於抽象化這些複雜性,讓開發團隊能更專注於模型開發本身,而非基礎設施問題。
該平台預載多個重要的深度學習框架,包括PyTorch和CUDA,並針對Ray和Hugging Face Transformers等分散式訓練函式庫提供最佳化支援。這使得用戶可以立即展開電腦視覺模型、大型語言模型或推薦系統等各種AI模型的訓練。
為支援生產級工作負載,AI Runtime與Databricks的Lakeflow協調工具整合,並支援用於持續整合/持續部署(CI/CD)流程的聲明式自動化套件(Declarative Automation Bundles, DABs),確保模型訓練與微調能與現有資料管線及生產系統緊密同步。
Databricks強調,AI Runtime與Lakehouse的原生整合是一大優勢。GPU工作負載直接在資料所在的位置執行,簡化了治理與可觀察性。透過Unity Catalog提供集中式存取控制與譜系追蹤,而MLflow則提供內建的實驗管理和GPU使用率自動追蹤。根據《StartupHub.ai》報導,此整合式方法確保AI工作負載能維持在企業資料邊界內,在不犧牲彈性的情況下,提供強大的安全與法規遵循。
與NVIDIA的合作是此項服務的核心。Databricks藉由整合NVIDIA最新的硬體,例如H100 GPU,為客戶提供頂尖的效能,以應對最嚴苛的AI任務。NVIDIA認為此舉是促成AI在各產業更廣泛應用的關鍵一步。Databricks也預期未來將持續與NVIDIA合作,導入更多新技術,例如 RTX PRO 4500 Blackwell Server Edition。








