檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪(fǎng)問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
圖1 系統(tǒng)日志 執(zhí)行以下命令,開(kāi)啟驅(qū)動(dòng)持久化模式。 nvidia-smi -pm 1 執(zhí)行以下命令,打開(kāi)并編輯“/etc/rc.local”文件。
方法2:查詢(xún)?cè)品?wù)器安裝的驅(qū)動(dòng)版本:whereis nvidia 圖1 查詢(xún)安裝的驅(qū)動(dòng)版本 根據(jù)查詢(xún)的驅(qū)動(dòng)版本從NVIDIA官網(wǎng)下載驅(qū)動(dòng)包(此處重新下載驅(qū)動(dòng)包是為了執(zhí)行卸載動(dòng)作,且后續(xù)重新安裝驅(qū)動(dòng)時(shí)需要此安裝包)。
圖1 啟用GPU 相關(guān)文檔 針對(duì)不同使用場(chǎng)景,函數(shù)工作流支持通過(guò)在線(xiàn)編寫(xiě)代碼、上傳代碼文件或者使用容器鏡像,創(chuàng)建事件函數(shù)和HTTP函數(shù),且支持使用GPU計(jì)算資源。如何針對(duì)應(yīng)用場(chǎng)景進(jìn)行函數(shù)類(lèi)型選型,詳情請(qǐng)參見(jiàn)函數(shù)類(lèi)型選型。
GPU數(shù)量小于1時(shí),不支持跨GPU分配,如0.5 GPU只會(huì)分配到一張卡上。 指定nvidia.com/gpu后,在調(diào)度時(shí)不會(huì)將負(fù)載調(diào)度到?jīng)]有GPU的節(jié)點(diǎn)。如果缺乏GPU資源,會(huì)報(bào)類(lèi)似如下的Kubernetes事件。
選擇“儀表盤(pán)”,在“集群視圖”旁單擊“切換視圖”,切換為“GPU視圖/XGPU視圖”。 圖1 儀表盤(pán) 查看GPU/xGPU視圖。 父主題: GPU調(diào)度
創(chuàng)建GPU函數(shù) GPU函數(shù)概述 自定義鏡像方式創(chuàng)建GPU函數(shù) 定制運(yùn)行時(shí)方式創(chuàng)建GPU函數(shù) 父主題: 創(chuàng)建函數(shù)
圖1 為虛擬化節(jié)點(diǎn)打標(biāo)簽 步驟二:安裝插件 如果您的集群中已安裝符合基礎(chǔ)規(guī)劃的插件,您可以跳過(guò)此步驟。 更改驅(qū)動(dòng)版本后,需要重啟節(jié)點(diǎn)才能生效。 重啟節(jié)點(diǎn)前需要排空節(jié)點(diǎn)中的Pod,再進(jìn)行升級(jí)重啟的操作。
WDDM 模式下,GPU同時(shí)用于計(jì)算和圖形。 僅在GPU服務(wù)器安裝了GRID驅(qū)動(dòng)時(shí)才可以切換至WDDM模式。 關(guān)于TCC和WDDM,了解更多。 方法二 登錄GPU加速型云服務(wù)器。 下載gpu-Z并安裝。 打開(kāi)gpu-z,選擇“Sensors”即可查看GPU使用情況。
GPU設(shè)備檢查 功能 檢查節(jié)點(diǎn)是否存在gpu設(shè)備,gpu驅(qū)動(dòng)是否安裝且運(yùn)行正常。
管理GPU加速型ECS的GPU驅(qū)動(dòng) GPU驅(qū)動(dòng)概述 Tesla驅(qū)動(dòng)及CUDA工具包獲取方式 (推薦)自動(dòng)安裝GPU加速型ECS的GPU驅(qū)動(dòng)(Linux) (推薦)自動(dòng)安裝GPU加速型ECS的GPU驅(qū)動(dòng)(Windows) 手動(dòng)安裝GPU加速型ECS的GRID驅(qū)動(dòng) 手動(dòng)安裝GPU加速型
GPU實(shí)例故障分類(lèi)列表 GPU實(shí)例故障的分類(lèi)列表如表1所示。
AI套件(NV GPU) 插件簡(jiǎn)介 AI套件(NV GPU)插件是支持在容器中使用GPU顯卡的設(shè)備管理插件,集群中使用GPU節(jié)點(diǎn)時(shí)必須安裝本插件。 約束與限制 創(chuàng)建專(zhuān)屬資源池時(shí),僅實(shí)例規(guī)格類(lèi)型選擇“GPU”時(shí)自動(dòng)安裝。
圖1 啟用GPU 相關(guān)文檔 針對(duì)不同使用場(chǎng)景,函數(shù)工作流支持通過(guò)在線(xiàn)編寫(xiě)代碼、上傳代碼文件或者使用容器鏡像,創(chuàng)建事件函數(shù)和HTTP函數(shù),且支持使用GPU計(jì)算資源。如何針對(duì)應(yīng)用場(chǎng)景進(jìn)行函數(shù)類(lèi)型選型,詳情請(qǐng)參見(jiàn)函數(shù)類(lèi)型選型。
示例中,為GPU/NPU節(jié)點(diǎn)添加accelerator=true:NoSchedule的污點(diǎn)。 圖1 添加污點(diǎn) 創(chuàng)建GPU/NPU工作負(fù)載時(shí),在高級(jí)配置中,手動(dòng)添加容忍策略,容忍該污點(diǎn)。 圖2 容忍策略 普通工作負(fù)載創(chuàng)建時(shí),無(wú)需添加容忍策略。
問(wèn)題現(xiàn)象 GPU節(jié)點(diǎn)顯示GPU卡不可用,且可能原因如下: GPU插件未就緒或狀態(tài)異常 節(jié)點(diǎn)驅(qū)動(dòng)未就緒 GPU卡異常 圖1 GPU卡不可用 解決方法 針對(duì)上述問(wèn)題,建議首先檢查驅(qū)動(dòng)程序是否存在問(wèn)題,隨后排查CCE AI套件(NVIDIA GPU)插件的device-plugin組件問(wèn)題
圖2 租戶(hù)名ID和IAM用戶(hù)名ID 準(zhǔn)備日志收集上傳腳本。 修改以下腳本中GpuLogCollection的參數(shù),將ak、sk、obs_dir替換為前面步驟中獲取到的值。然后把該腳本上傳到要收集GPU日志的節(jié)點(diǎn)上。
GPU驅(qū)動(dòng)故障 G系列彈性云服務(wù)器GPU驅(qū)動(dòng)故障 GPU驅(qū)動(dòng)異常怎么辦? GPU驅(qū)動(dòng)不可用 GPU設(shè)備顯示異常 T4 GPU設(shè)備顯示異常 GPU實(shí)例啟動(dòng)異常,查看系統(tǒng)日志發(fā)現(xiàn)NVIDIA驅(qū)動(dòng)空指針訪(fǎng)問(wèn)怎么辦?
GPU驅(qū)動(dòng)顯示正常,查看屬性,提示需要重新啟動(dòng)計(jì)算機(jī)后生效,如下圖所示,執(zhí)行步驟2。 GPU驅(qū)動(dòng)有黃色感嘆號(hào),查看屬性,顯示設(shè)備有問(wèn)題,如下圖所示,執(zhí)行步驟2。 顯示適配器中無(wú)GPU顯卡驅(qū)動(dòng)(GPU驅(qū)動(dòng)未生效),如下圖所示,執(zhí)行步驟2。 重啟彈性云服務(wù)器。
CCE AI套件(NVIDIA GPU)插件升級(jí)后,GPU節(jié)點(diǎn)事件中出現(xiàn)告警如何解決?
-成長(zhǎng)地圖 | 華為云