檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
訓(xùn)練前卡死 作業(yè)為多節(jié)點訓(xùn)練,且還未開始訓(xùn)練時發(fā)生卡死,可以在代碼中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 問題現(xiàn)象1 日志中還未出現(xiàn)NCCL DEBUG信息時已卡死。 解決方案1 檢查代碼,檢查是否有參數(shù)中未傳入“
訓(xùn)練中途卡死 問題現(xiàn)象1 檢測每個節(jié)點日志是否有報錯信息,某個節(jié)點報錯但作業(yè)未退出導(dǎo)致整個訓(xùn)練作業(yè)卡死。 解決方案1 查看報錯原因,解決報錯。 問題現(xiàn)象2 作業(yè)卡在sync-batch-norm中或者訓(xùn)練速度變慢。pytorch如果開了sync-batch-norm,多機會慢,因
訓(xùn)練作業(yè)性能問題 訓(xùn)練作業(yè)性能降低 父主題: 訓(xùn)練作業(yè)
Object 會話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 update_job_configs請求參數(shù)說明 參數(shù)
如何在ModelArts訓(xùn)練作業(yè)中加載部分訓(xùn)練好的參數(shù)? 在訓(xùn)練作業(yè)時,需要從預(yù)訓(xùn)練的模型中加載部分參數(shù),初始化當(dāng)前模型。請您通過如下方式加載: 通過如下代碼,您可以查看所有的參數(shù)。 from moxing.tensorflow.utils.hyper_param_flags import
torch_npu from torch_npu.contrib import transfer_to_npu 將預(yù)訓(xùn)練模型指定為實際下載路徑。 開始訓(xùn)練。 單卡訓(xùn)練啟動方式: torchrun --nnodes=1 --nproc_per_node=1 train.py --model
獲取訓(xùn)練配額 功能介紹 獲取用戶的訓(xùn)練配額。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權(quán)。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/training-quotas
請華為云開發(fā)者認證499元代金券。 立即申請 收起 展開 申請加入華為云開發(fā)者線上人才庫 收起 展開 考過開發(fā)者認證即可加入華為云開發(fā)者人才計劃線上人才庫,為你的職業(yè)之路加Buff~ 立即申請 交流答疑 掃碼加入【華為云HCSD求職成長訓(xùn)練營交流答疑群】 掃碼加入【華為云HCSD求職成長訓(xùn)練營交流答疑群】
昇騰設(shè)備上并跑通訓(xùn)練過程。該實驗的主要任務(wù)有: 1、在本地跑通“基于Tensorflow1.15編寫的LeNet網(wǎng)絡(luò)的minist手寫數(shù)字識別”的程序; 2、模型遷移,將原代碼遷移成能在昇騰AI處理器上進行訓(xùn)練的代碼; 3、將遷移后的代碼跑在ModelArts平臺上。 一、本地
址。需要排查訓(xùn)練代碼中是否有設(shè)置NCCL_SOCKET_IFNAME環(huán)境變量,該環(huán)境變量由系統(tǒng)自動注入,訓(xùn)練代碼中無需設(shè)置。訓(xùn)練代碼去除NCCL_SOCKET_IFNAME環(huán)境變量設(shè)置邏輯后,單擊右側(cè)“復(fù)制”,重新創(chuàng)建訓(xùn)練作業(yè),提交訓(xùn)練作業(yè)后等待作業(yè)完成。 等待訓(xùn)練作業(yè)是否變成“已完成”狀態(tài)。
訓(xùn)練作業(yè)性能降低 問題現(xiàn)象 使用ModelArts平臺訓(xùn)練算法訓(xùn)練耗時增加。 原因分析 可能存在如下原因: 平臺上的代碼經(jīng)過修改優(yōu)化、訓(xùn)練參數(shù)有過變更。 訓(xùn)練的GPU硬件工作出現(xiàn)異常。 處理方法 請您對作業(yè)代碼進行排查分析,確認是否對訓(xùn)練代碼和參數(shù)進行過修改。 檢查資源分配情況(
查詢訓(xùn)練作業(yè)詳情 功能介紹 查詢訓(xùn)練作業(yè)詳情接口用于獲取ModelArts平臺上指定訓(xùn)練作業(yè)的詳細信息。 該接口適用于以下場景:當(dāng)用戶需要查看特定訓(xùn)練作業(yè)的運行狀態(tài)和配置信息時,可以通過此接口獲取作業(yè)詳情。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID,并具有查看作業(yè)詳情的權(quán)限。查詢
訓(xùn)練作業(yè)創(chuàng)建失敗報錯: 準備階段超時??赡茉蚴强鐓^(qū)域算法同步或者創(chuàng)建共享存儲超時 訓(xùn)練作業(yè)已排隊,正在等待資源分配 訓(xùn)練作業(yè)排隊失敗 訓(xùn)練作業(yè)開始運行 訓(xùn)練作業(yè)運行成功 訓(xùn)練作業(yè)運行失敗 訓(xùn)練作業(yè)被搶占 系統(tǒng)檢測到您的作業(yè)疑似卡死,請及時前往作業(yè)詳情界面查看并處理 訓(xùn)練作業(yè)已重啟
創(chuàng)建訓(xùn)練實驗 功能介紹 創(chuàng)建訓(xùn)練實驗。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權(quán)。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI POST /v2/{project_id}/training-experiments
濾,快速查找訓(xùn)練作業(yè)。 在“訓(xùn)練作業(yè)”列表中,單擊作業(yè)名稱,進入訓(xùn)練作業(yè)詳情頁。 在訓(xùn)練作業(yè)詳情頁的左側(cè),可以查看此次訓(xùn)練作業(yè)的基本信息和算法配置的相關(guān)信息。 訓(xùn)練作業(yè)基本信息 表1 訓(xùn)練作業(yè)基本信息 參數(shù) 說明 “作業(yè)ID” 訓(xùn)練作業(yè)唯一標識。 “作業(yè)狀態(tài)” 訓(xùn)練作業(yè)狀態(tài)。 說明:
最佳實踐 口罩檢測(使用新版自動學(xué)習(xí)實現(xiàn)物體檢測應(yīng)用) 該案例是使用華為云一站式AI開發(fā)平臺ModelArts的新版“自動學(xué)習(xí)”功能,基于華為云AI開發(fā)者社區(qū)AI Gallery中的數(shù)據(jù)集資產(chǎn),讓零AI基礎(chǔ)的開發(fā)者完成“物體檢測”的AI模型的訓(xùn)練和部署。 一鍵完成商超商品識別模型部署
單擊“提交”,在“信息確認”頁面,確認訓(xùn)練作業(yè)的參數(shù)信息,確認無誤后單擊“確定”。 訓(xùn)練作業(yè)創(chuàng)建完成后,后臺將自動完成容器鏡像下載、代碼目錄下載、執(zhí)行啟動命令等動作。 訓(xùn)練作業(yè)一般需要運行一段時間,根據(jù)您的訓(xùn)練業(yè)務(wù)邏輯和選擇的資源不同,訓(xùn)練時長將持續(xù)幾十分鐘到幾小時不等。訓(xùn)練作業(yè)執(zhí)行成功后,日志信息如下所示。
刪除訓(xùn)練作業(yè)參數(shù) 功能介紹 刪除訓(xùn)練作業(yè)參數(shù)。 URI DELETE /v1/{project_id}/training-job-configs/{config_name} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id 是 String
String 訓(xùn)練作業(yè)參數(shù)的名稱。 請求消息 請求參數(shù)如表2所示。 表2 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 config_desc 否 String 對訓(xùn)練作業(yè)的描述,默認為空,字符串的長度限制為[0,256]。 worker_server_num 是 Integer 訓(xùn)練作業(yè)w
job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱 status Int 訓(xùn)練作業(yè)的運行狀態(tài),詳細作業(yè)狀態(tài)列表請查看作業(yè)狀態(tài)參考。 create_time Long 訓(xùn)練作業(yè)的創(chuàng)建時間,時間戳格式。 version_id Long 訓(xùn)練作業(yè)的版本ID。