檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
GPU內(nèi)存使用量(MB)以瓦特為單位的GPU功耗GPU溫度,以攝氏度為單位GPU風(fēng)扇速度百分比 C表示計(jì)算,G表示圖形(顯示) watch -n 5 nvidia-smi 每5秒刷新一次 2.HTOP — CPU, RAM(類似平時top指令) sudo apt install
NVLink異常產(chǎn)生的XID,表明GPU硬件故障需要下線維修。 79 GPU has fallen off the bus。
如何處理GPU掉卡,執(zhí)行l(wèi)spci | grep -i nvidia命令找不到顯卡或顯卡顯示rev ff 問題原因 某種健全性檢查沒有通過,GPU驅(qū)動程序不會使用或信任其內(nèi)容(某些內(nèi)容未被使用)。
此外,CUDA client 在第一個 API 調(diào)用到來之前,首先到 GPU mgmt 索取 GPU 資源。后續(xù),每一個獨(dú)立的 API 調(diào)用過程都必須到 CUDA mgmt 申請資源,以實(shí)現(xiàn)對 GPU 資源和任務(wù)的實(shí)時調(diào)度。
日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主題: 推理遷移指導(dǎo)(MindSporeLite)
相關(guān)鏈接 工作負(fù)載異常:GPU節(jié)點(diǎn)部署服務(wù)時報錯 父主題: 節(jié)點(diǎn)運(yùn)行
GPU指標(biāo)采集需要依賴以下驅(qū)動文件,請檢查環(huán)境中對應(yīng)的驅(qū)動文件是否存在。如果驅(qū)動未安裝,可參見(推薦)GPU加速型實(shí)例自動安裝GPU驅(qū)動(Linux)。
本文將演示在云容器實(shí)例中創(chuàng)建GPU類型的負(fù)載,以tensorflow的圖像分類為示例,演示在容器中直接使用GPU訓(xùn)練一個簡單的神經(jīng)網(wǎng)絡(luò)。
如果您是自行選擇安裝的NVIDIA GPU驅(qū)動或更新過節(jié)點(diǎn)上的GPU驅(qū)動,請參考上圖確認(rèn)您安裝的GPU驅(qū)動是否受該漏洞影響。 如何確認(rèn)GPU節(jié)點(diǎn)的NVIDIA驅(qū)動版本 登錄到您的GPU節(jié)點(diǎn),執(zhí)行如下命令,即可查看驅(qū)動版本。 [root@XXX36 bin]# .
本示例中將“Color mode”為“Background Gradient”,設(shè)置“Graph mode”為“None”,您可以根據(jù)需求自定義。
推理遷移指導(dǎo)(MindSporeLite) 簡介 昇騰遷移快速入門案例 遷移評估 環(huán)境準(zhǔn)備 模型適配 精度校驗(yàn) 性能調(diào)優(yōu) 遷移過程使用工具概覽 常見問題 推理業(yè)務(wù)遷移評估表 父主題: GPU業(yè)務(wù)遷移至?xí)N騰訓(xùn)練推理
工作負(fù)載異常:GPU節(jié)點(diǎn)部署服務(wù)時報錯 問題現(xiàn)象 在CCE集群的GPU節(jié)點(diǎn)上部署服務(wù)出現(xiàn)如下問題: 容器無法查看顯存。 部署了7個GPU服務(wù),有2個是能正常訪問的,其他啟動時都有報錯。
故障信息收集 故障信息收集方法 如何獲取顯卡ID 如何查詢顯卡詳細(xì)信息 如何查詢顯卡在位信息 如何查詢NVIDIA的錯誤信息 如何查詢XID報錯信息 如何收集NVIDIA日志 如何查詢內(nèi)核信息 如何收集驅(qū)動安裝信息 父主題: GPU實(shí)例故障自診斷
v1.23 v1.25 適配OS Ubuntu22.04 GPU驅(qū)動目錄自動掛載優(yōu)化 1.2.24 v1.19 v1.21 v1.23 v1.25 節(jié)點(diǎn)池支持配置GPU驅(qū)動版本 支持GPU指標(biāo)采集 1.2.20 v1.19 v1.21 v1.23 v1.25 設(shè)置插件別名為gpu
方法一: python /modelarts/tools/gpu_processes.py 如果當(dāng)前進(jìn)程使用GPU 如果當(dāng)前沒有進(jìn)程使用GPU 方法二: 打開文件“/resource_info/gpu_usage.json”,可以看到有哪些進(jìn)程在使用GPU。
遷移調(diào)優(yōu)工具鏈 工具總覽 精度調(diào)試:msprobe 精度調(diào)試:TensorBoard可視化 性能調(diào)優(yōu): MA-Advisor性能診斷 父主題: GPU業(yè)務(wù)遷移至?xí)N騰訓(xùn)練推理
錯誤碼說明 未檢查到當(dāng)前節(jié)點(diǎn)存在GPU設(shè)備 可能原因 GPU卡類型不匹配,當(dāng)前IEF僅支持nvidia的GPU設(shè)備 GPU設(shè)備節(jié)點(diǎn)未檢測到 處理措施 非nvidia的GPU卡。 安裝IEF軟件時,不使能GPU設(shè)備,或更換nvidia的GPU卡。 未檢測到GPU設(shè)備。
# akg.cfg [graph_kernel_param] opt_level=2 執(zhí)行命令: # shell converter_lite --fmk=ONNX --modelFile=model.onnx --outputFile=model --configFile=akg.cfg
訓(xùn)練遷移指導(dǎo)(PyTorch) 遷移流程 代碼遷移 精度調(diào)試 性能調(diào)優(yōu) 父主題: GPU業(yè)務(wù)遷移至?xí)N騰訓(xùn)練推理