Databricks整合無伺服器NVIDIA GPU 加速雲端AI模型訓練

2026-03-20

商傳媒｜葉安庭／綜合外電報導

Databricks近日宣布推出人工智慧（AI）運行時環境（AI Runtime, AIR），在其Lakehouse平台整合無伺服器NVIDIA繪圖處理器（GPU），旨在大幅簡化AI模型的訓練與微調過程。此舉特別針對大型語言模型（LLM）等複雜AI應用，希望解決傳統基礎設施管理所帶來的挑戰。

AI Runtime的公開預覽版現已提供，用戶可隨選存取NVIDIA A10和H100 GPU。開發者僅需在Databricks筆記本中透過簡單設定，即可使用這些高效能GPU，無需自行配置與管理運算叢集，此舉符合Databricks推動簡化資料操作的策略。

傳統上，深度學習研究人員與工程師常需耗費大量時間處理GPU採購、環境配置及資料載入等基礎設施瓶頸。Databricks設計AI Runtime的目的在於抽象化這些複雜性，讓開發團隊能更專注於模型開發本身，而非基礎設施問題。

該平台預載多個重要的深度學習框架，包括PyTorch和CUDA，並針對Ray和Hugging Face Transformers等分散式訓練函式庫提供最佳化支援。這使得用戶可以立即展開電腦視覺模型、大型語言模型或推薦系統等各種AI模型的訓練。

為支援生產級工作負載，AI Runtime與Databricks的Lakeflow協調工具整合，並支援用於持續整合/持續部署（CI/CD）流程的聲明式自動化套件（Declarative Automation Bundles, DABs），確保模型訓練與微調能與現有資料管線及生產系統緊密同步。

Databricks強調，AI Runtime與Lakehouse的原生整合是一大優勢。GPU工作負載直接在資料所在的位置執行，簡化了治理與可觀察性。透過Unity Catalog提供集中式存取控制與譜系追蹤，而MLflow則提供內建的實驗管理和GPU使用率自動追蹤。根據《StartupHub.ai》報導，此整合式方法確保AI工作負載能維持在企業資料邊界內，在不犧牲彈性的情況下，提供強大的安全與法規遵循。

與NVIDIA的合作是此項服務的核心。Databricks藉由整合NVIDIA最新的硬體，例如H100 GPU，為客戶提供頂尖的效能，以應對最嚴苛的AI任務。NVIDIA認為此舉是促成AI在各產業更廣泛應用的關鍵一步。Databricks也預期未來將持續與NVIDIA合作，導入更多新技術，例如 RTX PRO 4500 Blackwell Server Edition。