檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
圖形加速型 G3 NVIDIA M60(GPU直通) 2048 4.8TFLOPS單精度浮點計算 云桌面、圖像渲染、3D可視化、重載圖形設(shè)計。
共享模式:表示GPU共享調(diào)度,即多個容器可共享同一張物理GPU卡的計算資源和顯存。 圖1 GPU整卡 (可選步驟)如果需要為該工作負載指定GPU資源,請在“GPU顯卡”處選擇對應(yīng)GPU資源。選擇完成后,系統(tǒng)將根據(jù)資源類型讓Pod與相關(guān)節(jié)點親和,從而讓Pod選擇正確的節(jié)點。
為什么選擇華為云GPU加速云服務(wù)器 GACS 超強計算能力,從容應(yīng)對海量計算場景 超強計算能力,從容應(yīng)對海量計算場景 提供超強算力的GPU計算卡和自研昇騰加速卡,滿足人工智能、科學(xué)計算、圖形工作站等計算場景 網(wǎng)絡(luò)性能出色,支持GPU Direct over RDMA,100G超高帶寬
圖5 參數(shù)選擇 驅(qū)動信息確認完畢,單擊“Find”按鈕,會跳轉(zhuǎn)到驅(qū)動信息展示頁面,找到需要下載的驅(qū)動,單擊“view”跳轉(zhuǎn)到下載頁面。 圖6 驅(qū)動信息 鼠標(biāo)右鍵單擊“Download”按鈕,復(fù)制下載鏈接。
cce_gpu_graphics_clock Gauge MHz GPU卡 GPU圖形處理器頻率 cce_gpu_video_clock Gauge MHz GPU卡 GPU視頻處理器頻率 物理狀態(tài)數(shù)據(jù) cce_gpu_temperature Gauge ℃ GPU卡 GPU溫度
GPU監(jiān)控 GPU監(jiān)控指標(biāo)說明 實現(xiàn)GPU基礎(chǔ)、虛擬化及Pod級資源指標(biāo)的全面監(jiān)控 實現(xiàn)DCGM指標(biāo)的全面監(jiān)控 父主題: GPU調(diào)度
表2 Xid錯誤(用戶程序) Xid Xid報錯說明 13 報錯信息“GR: SW Notify Error”,表示GPU的圖形引擎在運行過程中遇到問題,可能是用戶程序越界(概率較大)、非法指令和寄存器、硬件(概率較?。┑仍?qū)е碌摹?/p>
當(dāng)顯存設(shè)置為單張GPU卡的容量上限或算力設(shè)置為100%時,將會使用整張GPU卡。 使用GPU虛擬化時,工作負載調(diào)度器將默認指定為Volcano且不可更改。 圖1 設(shè)置GPU配額 本文主要為您介紹GPU虛擬化的使用,其他參數(shù)詳情請參見工作負載。
相關(guān)文檔 GPU虛擬化多卡均分調(diào)度 GPU彈性伸縮 GPU監(jiān)控 GPU故障處理 父主題: GPU虛擬化
GPU虛擬化概述 CCE GPU虛擬化采用自研xGPU虛擬化技術(shù),能夠動態(tài)對GPU設(shè)備顯存與算力進行劃分,單個GPU卡最多虛擬化成20個GPU虛擬設(shè)備。
圖2 訪問Prometheus 在頁面上方單擊“Graph”,即可在搜索欄中搜索需要的GPU指標(biāo),查看相關(guān)信息。 圖3 查看GPU監(jiān)控指標(biāo) 單擊“Status > Targets”,您可以查看Prometheus監(jiān)控的所有指標(biāo)。
圖7 查看CUDA安裝結(jié)果 父主題: 管理GPU加速型ECS的GPU驅(qū)動
表1 GPU驅(qū)動支持的加速能力 驅(qū)動類型 License CUDA OpenGL DirectX Vulkan 典型應(yīng)用場景 說明 GRID驅(qū)動 需要 支持 支持 支持 支持 3D渲染、圖形工作站、游戲加速 付費使用,需要購買License,滿足圖形圖像類應(yīng)用加速用途。
圖6 稍后重啟 如果不需要重啟,單擊“關(guān)閉”。 圖7 關(guān)閉 返回桌面,在空白處右鍵單擊,選擇“NVIDIA控制面板”,查看驅(qū)動版本,判斷驅(qū)動是否安裝成功。 若顯示如下版本,表示驅(qū)動安裝成功。 圖8 驅(qū)動版本 父主題: 管理GPU加速型ECS的GPU驅(qū)動
圖11 License Server管理控制臺 父主題: 管理GPU加速型ECS的GPU驅(qū)動
圖1 開啟集群級別GPU虛擬化 節(jié)點池級別的GPU虛擬化:安裝2.7.2及以上版本的CCE AI套件(NVIDIA GPU)插件時,支持以節(jié)點池級別配置GPU虛擬化開關(guān)。 在“GPU配置 > 節(jié)點池配置”中單擊添加行。
T4 GPU設(shè)備顯示異常 問題描述 使用NVIDIA Tesla T4 GPU的云服務(wù)器,例如Pi2或G6規(guī)格,執(zhí)行nvidia-smi命令查看GPU使用情況時,顯示如下: No devices were found 原因分析 NVIDIA Tesla T4 GPU是NVIDIA的新版本
圖1 Nvidia驅(qū)動與CUDA Toolkit版本的配套關(guān)系 CUDA Toolkit和驅(qū)動的版本兼容性列表 在選擇Nvidia驅(qū)動時,需要保證驅(qū)動版本兼容CUDA Toolkit版本,官方提供配套關(guān)系如下表。
手動更新GPU節(jié)點的驅(qū)動版本為臨時方案,適用于需要對某個節(jié)點進行差異化配置的場景,但節(jié)點重啟后將自動重置為CCE AI套件(NVIDIA GPU)插件配置中指定的版本。 如果需要穩(wěn)定升級GPU節(jié)點驅(qū)動,推薦使用通過節(jié)點池升級節(jié)點的GPU驅(qū)動版本。
圖10 卸載CUDA驅(qū)動 CUDA庫卸載成功,會返回”Successfully uninstalled”。 移除CUDA庫和cuDNN庫: rm -rf /usr/local/cuda-11.2 父主題: 管理GPU加速型ECS的GPU驅(qū)動