檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
訓(xùn)練作業(yè)調(diào)測 使用SDK調(diào)測單機(jī)訓(xùn)練作業(yè) 使用SDK調(diào)測多機(jī)分布式訓(xùn)練作業(yè) 父主題: 訓(xùn)練作業(yè)
7天大數(shù)據(jù)分析實(shí)戰(zhàn)訓(xùn)練營 輕松掌握大數(shù)據(jù)分析| 完成打卡贏取好禮 立即報(bào)名 查看課程 活動亮點(diǎn) 即刻開啟您的大數(shù)據(jù)分析之旅 免費(fèi)參與,7天入門 *全面* 由淺入深,知識點(diǎn)全面,即學(xué)即用 由淺入深,知識點(diǎn)全面,即學(xué)即用 電商行業(yè)場景實(shí)戰(zhàn)演練 *品質(zhì)* 沉浸式學(xué)習(xí)體驗(yàn) 沉浸式學(xué)習(xí)體驗(yàn) 華為云大數(shù)據(jù)專家親自指導(dǎo)
完成上面數(shù)據(jù)的處理就可以開始訓(xùn)練了 訓(xùn)練 到這里已經(jīng)完成大部分的工作了,只需要對config文件參數(shù)做適當(dāng)?shù)男薷木涂梢蚤_始訓(xùn)練了。 本次訓(xùn)練使用的config文件是./config/icdar2015_resnet18_FPN_DBhead_polyLR.yaml,修改學(xué)習(xí)率、優(yōu)化器、BatchSize等參數(shù),如下圖:
訓(xùn)練 上傳數(shù)據(jù)至OBS并預(yù)熱到SFS Turbo中 創(chuàng)建訓(xùn)練任務(wù) 父主題: 實(shí)施步驟
深度學(xué)習(xí)的訓(xùn)練過程存在隨機(jī)性,主要體現(xiàn)在以下幾個(gè)方面:權(quán)重初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重通常隨機(jī)初始化,不同的初始值會影響模型的收斂路徑和最終性能。數(shù)據(jù) shuffling訓(xùn)練數(shù)據(jù)在每個(gè) epoch 前會被隨機(jī)打亂,導(dǎo)致每次訓(xùn)練時(shí)數(shù)據(jù)順序不同,影響梯度更新。DropoutDropout 隨
停止訓(xùn)練作業(yè)版本 功能介紹 停止訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 參數(shù)說明如表1所示。
三、訓(xùn)練模型 數(shù)據(jù)和代碼準(zhǔn)備完成后,您可以創(chuàng)建一個(gè)訓(xùn)練作業(yè) 例如:下載mindspore源碼https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/inceptionv4 填寫配置訓(xùn)練參數(shù)后,單擊“Apply
訓(xùn)練最后一個(gè)epoch卡死 問題現(xiàn)象 通過日志查看數(shù)據(jù)切分是否對齊,如果未對齊,容易導(dǎo)致部分進(jìn)程完成訓(xùn)練退出,而部分訓(xùn)練進(jìn)程因未收到其他進(jìn)程反饋卡死,如下圖同一時(shí)間有的進(jìn)程在epoch48,而有的進(jìn)程在epoch49。 loss exit lane:0.12314446270465851
Object 會話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 get_job_log請求參數(shù)說明 參數(shù) 是否必選 參數(shù)類型
查詢訓(xùn)練作業(yè)日志 功能介紹 按行來查詢訓(xùn)練作業(yè)日志詳細(xì)信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 參數(shù)說明如表1所示。 表1 路徑參數(shù) 參數(shù) 是否必選 參數(shù)類型
耳機(jī)等大獎等你來拿 實(shí)訓(xùn)體驗(yàn) / 多重獎勵 / 豪送數(shù)百件實(shí)物禮品 全額認(rèn)證考試劵及學(xué)習(xí)書籍 每日打卡 / 讀書筆記 / 專家答疑 展開更多收起 加入學(xué)習(xí)社群 教輔相伴 升階無憂 專屬學(xué)習(xí)交流圈 / 學(xué)習(xí)助手貼心督學(xué) / 授課專家論壇答疑 / 結(jié)業(yè)賽實(shí)踐效果檢驗(yàn) 加入社群 課程專家介紹
job_name:可選參數(shù),訓(xùn)練任務(wù)名,便于區(qū)分和記憶。 本地單機(jī)調(diào)試訓(xùn)練任務(wù)開始后,SDK會依次幫助用戶完成以下流程: 初始化訓(xùn)練作業(yè),如果2指定的訓(xùn)練數(shù)據(jù)在OBS上,這里會將數(shù)據(jù)下載到local_path中。 執(zhí)行訓(xùn)練任務(wù),用戶的訓(xùn)練代碼需要將訓(xùn)練輸出保存在4中指定的local_path中。
訓(xùn)練作業(yè)性能降低 問題現(xiàn)象 使用ModelArts平臺訓(xùn)練算法訓(xùn)練耗時(shí)增加。 原因分析 可能存在如下原因: 平臺上的代碼經(jīng)過修改優(yōu)化、訓(xùn)練參數(shù)有過變更。 訓(xùn)練的GPU硬件工作出現(xiàn)異常。 處理方法 請您對作業(yè)代碼進(jìn)行排查分析,確認(rèn)是否對訓(xùn)練代碼和參數(shù)進(jìn)行過修改。 檢查資源分配情況(
訓(xùn)練benchmark工具 工具介紹及準(zhǔn)備工作 訓(xùn)練性能測試 訓(xùn)練精度測試 父主題: 主流開源大模型基于Lite Server適配LlamaFactory PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱 status Int 訓(xùn)練作業(yè)的運(yùn)行狀態(tài),詳細(xì)作業(yè)狀態(tài)列表請查看作業(yè)狀態(tài)參考。 create_time Long 訓(xùn)練作業(yè)的創(chuàng)建時(shí)間,時(shí)間戳格式。 version_id Long 訓(xùn)練作業(yè)的版本ID。
上述命令中:modelFile指定生成的mindir模型文件;device指定運(yùn)行推理的設(shè)備。其他用法請參考benchmark文檔。 測試結(jié)果如下所示: 圖1 測試結(jié)果 父主題: 性能調(diào)優(yōu)
job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 get_job_info返回參數(shù)說明 參數(shù) 參數(shù)類型 描述 kind String 訓(xùn)練作業(yè)類型。默認(rèn)使用job。
使用預(yù)置算法訓(xùn)練時(shí),訓(xùn)練失敗,報(bào)“bndbox”錯誤 問題現(xiàn)象 使用預(yù)置算法創(chuàng)建訓(xùn)練作業(yè),訓(xùn)練失敗,日志中出現(xiàn)如下報(bào)錯。 KeyError: 'bndbox' 原因分析 用于訓(xùn)練的數(shù)據(jù)集中,使用了“非矩形框”標(biāo)注。而預(yù)置使用算法不支持“非矩形框”標(biāo)注的數(shù)據(jù)集。 處理方法 此問題有兩種解決方法:
job_name String 訓(xùn)練作業(yè)的名稱。 job_desc String 訓(xùn)練作業(yè)的描述信息。 version_id Long 訓(xùn)練作業(yè)的版本ID。 version_name String 訓(xùn)練作業(yè)的版本名稱。 pre_version_id Long 訓(xùn)練作業(yè)前一版本的名稱。 engine_type
Object 會話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 update_job_configs請求參數(shù)說明 參數(shù)