檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
GPU數(shù)量小于1時(shí),不支持跨GPU分配,如0.5 GPU只會(huì)分配到一張卡上。 指定nvidia.com/gpu后,在調(diào)度時(shí)不會(huì)將負(fù)載調(diào)度到?jīng)]有GPU的節(jié)點(diǎn)。如果缺乏GPU資源,會(huì)報(bào)類似如下的Kubernetes事件。
選擇“儀表盤”,在“集群視圖”旁單擊“切換視圖”,切換為“GPU視圖/XGPU視圖”。 圖1 儀表盤 查看GPU/xGPU視圖。 父主題: GPU調(diào)度
GPU計(jì)算型 GPU計(jì)算單元包含的計(jì)算資源主要適用于政企用戶部署GPU密集型業(yè)務(wù)到CloudPond上使用的場(chǎng)景,對(duì)應(yīng)華為云ECS的實(shí)例包含Pi系列,用戶可根據(jù)機(jī)型規(guī)格情況選擇對(duì)應(yīng)的計(jì)算資源商品。具體規(guī)格請(qǐng)參考表1。
圖1 啟用GPU 相關(guān)文檔 針對(duì)不同使用場(chǎng)景,函數(shù)工作流支持通過(guò)在線編寫代碼、上傳代碼文件或者使用容器鏡像,創(chuàng)建事件函數(shù)和HTTP函數(shù),且支持使用GPU計(jì)算資源。如何針對(duì)應(yīng)用場(chǎng)景進(jìn)行函數(shù)類型選型,詳情請(qǐng)參見(jiàn)函數(shù)類型選型。
GPU實(shí)例故障分類列表 GPU實(shí)例故障的分類列表如表1所示。
創(chuàng)建GPU函數(shù) GPU函數(shù)概述 自定義鏡像方式創(chuàng)建GPU函數(shù) 定制運(yùn)行時(shí)方式創(chuàng)建GPU函數(shù) 父主題: 創(chuàng)建函數(shù)
圖1 為虛擬化節(jié)點(diǎn)打標(biāo)簽 步驟二:安裝插件 如果您的集群中已安裝符合基礎(chǔ)規(guī)劃的插件,您可以跳過(guò)此步驟。 更改驅(qū)動(dòng)版本后,需要重啟節(jié)點(diǎn)才能生效。 重啟節(jié)點(diǎn)前需要排空節(jié)點(diǎn)中的Pod,再進(jìn)行升級(jí)重啟的操作。
圖1 啟用GPU 相關(guān)文檔 針對(duì)不同使用場(chǎng)景,函數(shù)工作流支持通過(guò)在線編寫代碼、上傳代碼文件或者使用容器鏡像,創(chuàng)建事件函數(shù)和HTTP函數(shù),且支持使用GPU計(jì)算資源。如何針對(duì)應(yīng)用場(chǎng)景進(jìn)行函數(shù)類型選型,詳情請(qǐng)參見(jiàn)函數(shù)類型選型。
WDDM 模式下,GPU同時(shí)用于計(jì)算和圖形。 僅在GPU服務(wù)器安裝了GRID驅(qū)動(dòng)時(shí)才可以切換至WDDM模式。 關(guān)于TCC和WDDM,了解更多。 方法二 登錄GPU加速型云服務(wù)器。 下載gpu-Z并安裝。 打開(kāi)gpu-z,選擇“Sensors”即可查看GPU使用情況。
GPU設(shè)備檢查 功能 檢查節(jié)點(diǎn)是否存在gpu設(shè)備,gpu驅(qū)動(dòng)是否安裝且運(yùn)行正常。
管理GPU加速型ECS的GPU驅(qū)動(dòng) GPU驅(qū)動(dòng)概述 Tesla驅(qū)動(dòng)及CUDA工具包獲取方式 (推薦)自動(dòng)安裝GPU加速型ECS的GPU驅(qū)動(dòng)(Linux) (推薦)自動(dòng)安裝GPU加速型ECS的GPU驅(qū)動(dòng)(Windows) 手動(dòng)安裝GPU加速型ECS的GRID驅(qū)動(dòng) 手動(dòng)安裝GPU加速型
-成長(zhǎng)地圖 | 華為云
GPU驅(qū)動(dòng)顯示正常,查看屬性,提示需要重新啟動(dòng)計(jì)算機(jī)后生效,如下圖所示,執(zhí)行步驟2。 GPU驅(qū)動(dòng)有黃色感嘆號(hào),查看屬性,顯示設(shè)備有問(wèn)題,如下圖所示,執(zhí)行步驟2。 顯示適配器中無(wú)GPU顯卡驅(qū)動(dòng)(GPU驅(qū)動(dòng)未生效),如下圖所示,執(zhí)行步驟2。 重啟彈性云服務(wù)器。
AI套件(NV GPU) 插件簡(jiǎn)介 AI套件(NV GPU)插件是支持在容器中使用GPU顯卡的設(shè)備管理插件,集群中使用GPU節(jié)點(diǎn)時(shí)必須安裝本插件。 約束與限制 創(chuàng)建專屬資源池時(shí),僅實(shí)例規(guī)格類型選擇“GPU”時(shí)自動(dòng)安裝。
示例中,為GPU/NPU節(jié)點(diǎn)添加accelerator=true:NoSchedule的污點(diǎn)。 圖1 添加污點(diǎn) 創(chuàng)建GPU/NPU工作負(fù)載時(shí),在高級(jí)配置中,手動(dòng)添加容忍策略,容忍該污點(diǎn)。 圖2 容忍策略 普通工作負(fù)載創(chuàng)建時(shí),無(wú)需添加容忍策略。
問(wèn)題現(xiàn)象 GPU節(jié)點(diǎn)顯示GPU卡不可用,且可能原因如下: GPU插件未就緒或狀態(tài)異常 節(jié)點(diǎn)驅(qū)動(dòng)未就緒 GPU卡異常 圖1 GPU卡不可用 解決方法 針對(duì)上述問(wèn)題,建議首先檢查驅(qū)動(dòng)程序是否存在問(wèn)題,隨后排查CCE AI套件(NVIDIA GPU)插件的device-plugin組件問(wèn)題
GPU驅(qū)動(dòng)故障 G系列彈性云服務(wù)器GPU驅(qū)動(dòng)故障 GPU驅(qū)動(dòng)異常怎么辦? GPU驅(qū)動(dòng)不可用 GPU設(shè)備顯示異常 T4 GPU設(shè)備顯示異常 GPU實(shí)例啟動(dòng)異常,查看系統(tǒng)日志發(fā)現(xiàn)NVIDIA驅(qū)動(dòng)空指針訪問(wèn)怎么辦?
圖2 租戶名ID和IAM用戶名ID 準(zhǔn)備日志收集上傳腳本。 修改以下腳本中GpuLogCollection的參數(shù),將ak、sk、obs_dir替換為前面步驟中獲取到的值。然后把該腳本上傳到要收集GPU日志的節(jié)點(diǎn)上。
應(yīng)用GPU資源調(diào)度方式 IEF支持多應(yīng)用共享的方式使用GPU顯卡。 IEF支持單個(gè)應(yīng)用使用多個(gè)GPU顯卡。 GPU資源調(diào)度基于GPU顯存容量,調(diào)度采用GPU顯存預(yù)分配方式而非實(shí)時(shí)GPU顯存資源。
圖3 刪除nvidia-gpu-device-plugin-xxx實(shí)例 在該GPU節(jié)點(diǎn)的操作列單擊“更多 > 開(kāi)啟調(diào)度”,從而恢復(fù)GPU節(jié)點(diǎn)的正常使用。重復(fù)以上操作,直至所有GPU節(jié)點(diǎn)完成排水。 父主題: 模板插件