檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
圖5 HPA策略創(chuàng)建成功 相關(guān)文檔 GPU虛擬化節(jié)點(diǎn)彈性伸縮配置 父主題: GPU彈性伸縮
圖26 CUDA安裝成功 父主題: 管理GPU加速型ECS的GPU驅(qū)動(dòng)
圖1 Nvidia驅(qū)動(dòng)與CUDA Toolkit版本的配套關(guān)系 CUDA Toolkit和驅(qū)動(dòng)的版本兼容性列表 在選擇Nvidia驅(qū)動(dòng)時(shí),需要保證驅(qū)動(dòng)版本兼容CUDA Toolkit版本,官方提供配套關(guān)系如下表。
GPU驅(qū)動(dòng)支持列表 當(dāng)前GPU驅(qū)動(dòng)支持列表僅針對(duì)1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。 如果您需要安裝最新版本的GPU驅(qū)動(dòng),請(qǐng)將您的CCE AI套件(NVIDIA GPU)插件升級(jí)到最新版本。
GPU彈性伸縮 基于GPU監(jiān)控指標(biāo)配置工作負(fù)載彈性伸縮 GPU虛擬化節(jié)點(diǎn)彈性伸縮配置 父主題: GPU調(diào)度
、圖形圖像加速等加速工作負(fù)載。
手動(dòng)更新GPU節(jié)點(diǎn)的驅(qū)動(dòng)版本為臨時(shí)方案,適用于需要對(duì)某個(gè)節(jié)點(diǎn)進(jìn)行差異化配置的場(chǎng)景,但節(jié)點(diǎn)重啟后將自動(dòng)重置為CCE AI套件(NVIDIA GPU)插件配置中指定的版本。 如果需要穩(wěn)定升級(jí)GPU節(jié)點(diǎn)驅(qū)動(dòng),推薦使用通過節(jié)點(diǎn)池升級(jí)節(jié)點(diǎn)的GPU驅(qū)動(dòng)版本。
GPU調(diào)度 GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 使用Kubernetes默認(rèn)GPU調(diào)度 GPU虛擬化 GPU監(jiān)控 GPU彈性伸縮 GPU故障處理 故障GPU的Pod自動(dòng)驅(qū)逐功能 父主題: 調(diào)度
表2 Xid錯(cuò)誤(用戶程序) Xid Xid報(bào)錯(cuò)說明 13 報(bào)錯(cuò)信息“GR: SW Notify Error”,表示GPU的圖形引擎在運(yùn)行過程中遇到問題,可能是用戶程序越界(概率較大)、非法指令和寄存器、硬件(概率較?。┑仍?qū)е碌摹?/p>
GPU虛擬化 GPU虛擬化概述 準(zhǔn)備GPU虛擬化資源 使用GPU虛擬化 GPU虛擬化兼容Kubernetes默認(rèn)GPU調(diào)度 GPU虛擬化多卡均分調(diào)度 父主題: GPU調(diào)度
GPU負(fù)載 使用Tensorflow訓(xùn)練神經(jīng)網(wǎng)絡(luò)
GPU虛擬化:UCS On Premises GPU采用xGPU虛擬化技術(shù),能夠動(dòng)態(tài)對(duì)GPU設(shè)備顯存與算力進(jìn)行劃分,單個(gè)GPU卡最多虛擬化成20個(gè)GPU虛擬設(shè)備。
GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 選擇GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 CCE推薦的GPU驅(qū)動(dòng)版本列表 手動(dòng)更新GPU節(jié)點(diǎn)驅(qū)動(dòng)版本 通過節(jié)點(diǎn)池升級(jí)節(jié)點(diǎn)的GPU驅(qū)動(dòng)版本 父主題: GPU調(diào)度
圖1 GPU整卡 在“高級(jí)配置>標(biāo)簽與注解”中,增加標(biāo)簽“evict_on_gpu_error=true”。插件檢測(cè)到GPU故障時(shí),會(huì)對(duì)故障GPU上帶有此標(biāo)簽的Pod下發(fā)驅(qū)逐命令。 圖2 增加驅(qū)逐標(biāo)簽 其他參數(shù)請(qǐng)參考創(chuàng)建工作負(fù)載進(jìn)行配置。
基礎(chǔ)、虛擬化及Pod級(jí)資源指標(biāo)的全面監(jiān)控 GPU視圖 XGPU視圖 父主題: GPU監(jiān)控
圖1 GPU驅(qū)動(dòng)不可用 可能原因 系統(tǒng)內(nèi)核進(jìn)行了升級(jí),導(dǎo)致在新內(nèi)核上,GPU驅(qū)動(dòng)不可用。
GPU調(diào)度 GPU調(diào)度概述 準(zhǔn)備GPU資源 創(chuàng)建GPU應(yīng)用 監(jiān)控GPU資源 父主題: 管理本地集群
通過節(jié)點(diǎn)池升級(jí)節(jié)點(diǎn)的GPU驅(qū)動(dòng)版本 如果您使用的CUDA庫無法與當(dāng)前的NVIDIA驅(qū)動(dòng)版本匹配,您需要升級(jí)節(jié)點(diǎn)的驅(qū)動(dòng)版本才可以正常使用GPU節(jié)點(diǎn)。
GPU計(jì)算型 GPU計(jì)算單元包含的計(jì)算資源主要適用于政企用戶部署GPU密集型業(yè)務(wù)到CloudPond上使用的場(chǎng)景,對(duì)應(yīng)華為云ECS的實(shí)例包含Pi系列,用戶可根據(jù)機(jī)型規(guī)格情況選擇對(duì)應(yīng)的計(jì)算資源商品。具體規(guī)格請(qǐng)參考表1。
方法2:查詢?cè)品?wù)器安裝的驅(qū)動(dòng)版本:whereis nvidia 圖1 查詢安裝的驅(qū)動(dòng)版本 根據(jù)查詢的驅(qū)動(dòng)版本從NVIDIA官網(wǎng)下載驅(qū)動(dòng)包(此處重新下載驅(qū)動(dòng)包是為了執(zhí)行卸載動(dòng)作,且后續(xù)重新安裝驅(qū)動(dòng)時(shí)需要此安裝包)。