產品介紹
高效率的資源管理
透過適當的資源分配與調度最佳化GPU使用率
整合硬體系統,統一管理,支援多容器共享GPU機制,讓多名使用者、多個容器可共用同一片GPU進行操作開發,可同時納管一台或多台AI運算節點,成為一個或多個用戶共享資源池,使GPU資源調度分配更加彈性靈活,提高GPU資源的利用率。即申請即使用,使用結束後一鍵刪除,避免資源被無效佔用,更加高效、經濟、靈活地為用戶輸出強大的計算資源。
可視化的管理介面
強化AI基礎設施環境的擴充性、效能與運營控制
提供豐富的Web視覺化圖像介面,可直接展示平台主要設備(CPU、記憶體、網路、GPU、GPU溫度等)的即時與歷史狀態,包含設備的節點數、運行狀態、已使用情況、可使用容量、GPU利用率、設備負載情形等。管理者可清楚得知有哪些人正在使用哪些資源、使用效率、使用時間、資源利用率,還可透過清楚的報表進行監控管理所有的資源狀況。
智能化的監測警報
有效達到GPU資源使用效能最佳化與增加投資報酬率
在設備運行中,可即時監控各種資源的使用狀況,如CPU、記憶體、網路、GPU、GPU溫度等,可依照自定義異常情形,發出email警報通知,當出現計算資源被大量使用時,系統亦會自動告警,提醒管理人員注意資源的可用餘量,幫助管理人員合理進行計算資源的調配管理。
豐富的軟體資源
一站取得所需資源、開發工具與AI框架
內建NVIDIA優化之常用TensorFlow、PyTorch之AI框架,並具備AI框架擴充設計。用戶可快速搭建實驗環境,滿足用戶在深度學習訓練與推論中從模型研究、模型建立、批量訓練、模型佈署模型推論的需求。同時提供多種算法模型,輸入大量數據和圖像資源即可進行模型的訓練與研究,更輕鬆進行深度學習的訓練和研究工作。