檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
訓(xùn)練管理 創(chuàng)建算法 查詢算法列表 查詢算法詳情 更新算法 刪除算法 獲取支持的超參搜索算法 創(chuàng)建訓(xùn)練實(shí)驗(yàn) 創(chuàng)建訓(xùn)練作業(yè) 查詢訓(xùn)練作業(yè)詳情 更新訓(xùn)練作業(yè)描述 刪除訓(xùn)練作業(yè) 終止訓(xùn)練作業(yè) 查詢訓(xùn)練作業(yè)指定任務(wù)的日志(預(yù)覽) 查詢訓(xùn)練作業(yè)指定任務(wù)的日志(OBS鏈接) 查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo)
訓(xùn)練作業(yè)性能問題 訓(xùn)練作業(yè)性能降低 父主題: 訓(xùn)練作業(yè)
創(chuàng)建訓(xùn)練作業(yè)版本 功能介紹 創(chuàng)建一個(gè)訓(xùn)練作業(yè)版本。 該接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions 參數(shù)說明如表1所示。 表1 參數(shù)說明
訓(xùn)練作業(yè)性能降低 問題現(xiàn)象 使用ModelArts平臺(tái)訓(xùn)練算法訓(xùn)練耗時(shí)增加。 原因分析 可能存在如下原因: 平臺(tái)上的代碼經(jīng)過修改優(yōu)化、訓(xùn)練參數(shù)有過變更。 訓(xùn)練的GPU硬件工作出現(xiàn)異常。 處理方法 請(qǐng)您對(duì)作業(yè)代碼進(jìn)行排查分析,確認(rèn)是否對(duì)訓(xùn)練代碼和參數(shù)進(jìn)行過修改。 檢查資源分配情況(
刪除訓(xùn)練作業(yè)版本 功能介紹 刪除訓(xùn)練作業(yè)一個(gè)版本。 此接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 參數(shù)說明如表1所示。
訓(xùn)練作業(yè)卡死 訓(xùn)練作業(yè)卡死檢測(cè)定位 復(fù)制數(shù)據(jù)卡死 訓(xùn)練前卡死 訓(xùn)練中途卡死 訓(xùn)練最后一個(gè)epoch卡死 父主題: 訓(xùn)練作業(yè)
取值范圍:不涉及。 默認(rèn)取值:不涉及。 training_job_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)ID。 約束限制:獲取方法請(qǐng)參見查詢訓(xùn)練作業(yè)列表。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 task_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)的任務(wù)名稱??蓮?span id="eaqcksu" class='cur'>訓(xùn)練作業(yè)詳情中的status.tasks字段中獲取。
管理訓(xùn)練實(shí)驗(yàn) 訓(xùn)練實(shí)驗(yàn) 當(dāng)訓(xùn)練作業(yè)的數(shù)量較多時(shí),可能會(huì)遇到難以快速定位作業(yè)或不便跟蹤的情況。為了便于管理訓(xùn)練作業(yè),我們引入了訓(xùn)練實(shí)驗(yàn)的概念,類似于對(duì)訓(xùn)練作業(yè)進(jìn)行分組管理。用戶可以根據(jù)需求將作業(yè)歸類到不同的訓(xùn)練實(shí)驗(yàn)中,實(shí)現(xiàn)分類管理。每個(gè)訓(xùn)練實(shí)驗(yàn)可以包含多個(gè)同類型的作業(yè)。 在管理訓(xùn)練實(shí)
更新訓(xùn)練作業(yè)描述 功能介紹 更新訓(xùn)練作業(yè)的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id 是 String 用戶項(xiàng)目ID。獲取方法請(qǐng)參見獲取項(xiàng)目ID和名稱。
使用預(yù)置算法訓(xùn)練時(shí),訓(xùn)練失敗,報(bào)“bndbox”錯(cuò)誤 問題現(xiàn)象 使用預(yù)置算法創(chuàng)建訓(xùn)練作業(yè),訓(xùn)練失敗,日志中出現(xiàn)如下報(bào)錯(cuò)。 KeyError: 'bndbox' 原因分析 用于訓(xùn)練的數(shù)據(jù)集中,使用了“非矩形框”標(biāo)注。而預(yù)置使用算法不支持“非矩形框”標(biāo)注的數(shù)據(jù)集。 處理方法 此問題有兩種解決方法:
transfer_to_npu 將預(yù)訓(xùn)練模型指定為實(shí)際下載路徑。 開始訓(xùn)練。 單卡訓(xùn)練啟動(dòng)方式: torchrun --nnodes=1 --nproc_per_node=1 train.py --model DiT-XL/2 --data-path imagenet/train --global-batch-size
訓(xùn)練作業(yè)訓(xùn)練失敗報(bào)錯(cuò):TypeError: unhashable type: ‘list’ 問題現(xiàn)象 使用訂閱算法圖像分類-EfficientNetB4進(jìn)行訓(xùn)練報(bào)錯(cuò):TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多標(biāo)簽分類導(dǎo)致(即一個(gè)圖片用了1個(gè)以上的標(biāo)簽)。
查詢訓(xùn)練作業(yè)列表 功能介紹 查詢訓(xùn)練作業(yè)列表接口用于獲取ModelArts平臺(tái)上所有訓(xùn)練作業(yè)的列表。 該接口適用于以下場(chǎng)景:當(dāng)用戶需要查看平臺(tái)上的所有訓(xùn)練作業(yè)時(shí),可以通過此接口獲取作業(yè)列表。使用該接口的前提條件是用戶具有查看訓(xùn)練作業(yè)列表的權(quán)限。查詢操作完成后,平臺(tái)將返回包含訓(xùn)練作業(yè)
訓(xùn)練作業(yè) OBS操作相關(guān)故障 云上遷移適配故障 硬盤限制故障 外網(wǎng)訪問限制 權(quán)限問題 GP相關(guān)問題 業(yè)務(wù)代碼問題 預(yù)置算法運(yùn)行故障 訓(xùn)練作業(yè)卡死 訓(xùn)練作業(yè)運(yùn)行失敗 專屬資源池創(chuàng)建訓(xùn)練作業(yè) 訓(xùn)練作業(yè)性能問題 Ascend相關(guān)問題
訓(xùn)練作業(yè)卡死檢測(cè)定位 什么是訓(xùn)練作業(yè)卡死檢測(cè) 訓(xùn)練作業(yè)在運(yùn)行中可能會(huì)因?yàn)槟承┪粗驅(qū)е伦鳂I(yè)卡死,如果不能及時(shí)發(fā)現(xiàn),就會(huì)導(dǎo)致無(wú)法及時(shí)釋放資源,從而造成極大的資源浪費(fèi)。為了節(jié)省訓(xùn)練資源成本,提高使用體驗(yàn),ModelArts提供了卡死檢測(cè)功能,能自動(dòng)識(shí)別作業(yè)是否卡死,并在日志詳情界面
獲取訓(xùn)練作業(yè)支持的公共規(guī)格 功能介紹 獲取訓(xùn)練作業(yè)支持的公共規(guī)格接口用于獲取ModelArts平臺(tái)上支持的訓(xùn)練作業(yè)資源規(guī)格列表。 該接口適用于以下場(chǎng)景:當(dāng)用戶需要了解平臺(tái)支持的資源規(guī)格以進(jìn)行訓(xùn)練作業(yè)配置時(shí),可以通過此接口獲取規(guī)格列表。使用該接口的前提條件是用戶具有查看資源規(guī)格的權(quán)
conv2d/weights. 通過以下方式控制需要訓(xùn)練的參數(shù)列表。其中,“trainable_include_patterns”為需要訓(xùn)練的參數(shù)列表,“trainable_exclude_patterns”為不需要訓(xùn)練的參數(shù)列表。 --trainable_exclude_patterns:
調(diào)用查詢訓(xùn)練作業(yè)詳情接口使用剛創(chuàng)建的訓(xùn)練作業(yè)返回的id查詢訓(xùn)練作業(yè)狀態(tài)。 調(diào)用查詢訓(xùn)練作業(yè)指定任務(wù)的日志(OBS鏈接)接口獲取訓(xùn)練作業(yè)日志的對(duì)應(yīng)的obs路徑。 調(diào)用查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo)接口查看訓(xùn)練作業(yè)的運(yùn)行指標(biāo)詳情。 當(dāng)訓(xùn)練作業(yè)使用完成或不再需要時(shí),調(diào)用刪除訓(xùn)練作業(yè)接口刪除訓(xùn)練作業(yè)。 前提條件 已獲
job_name:可選參數(shù),訓(xùn)練任務(wù)名,便于區(qū)分和記憶。 本地單機(jī)調(diào)試訓(xùn)練任務(wù)開始后,SDK會(huì)依次幫助用戶完成以下流程: 初始化訓(xùn)練作業(yè),如果2指定的訓(xùn)練數(shù)據(jù)在OBS上,這里會(huì)將數(shù)據(jù)下載到local_path中。 執(zhí)行訓(xùn)練任務(wù),用戶的訓(xùn)練代碼需要將訓(xùn)練輸出保存在4中指定的local_path中。
原因:Moxing在進(jìn)行文件復(fù)制時(shí),未找到train_data_obs目錄。 處理建議:修改train_data_obs目錄為正確地址,重新啟動(dòng)訓(xùn)練作業(yè)。 另外在Moxing下載OBS對(duì)象過程中,不要?jiǎng)h除相應(yīng)OBS目錄下的對(duì)象,否則Moxing在下載到被刪除的對(duì)象時(shí)會(huì)下載失敗。 查看訓(xùn)練作業(yè)的“日志”,出現(xiàn)報(bào)錯(cuò)“CUDA