檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
用戶還可以創(chuàng)建訓(xùn)練作業(yè)的數(shù)量。 jobs jobs結(jié)構(gòu)數(shù)組 訓(xùn)練作業(yè)的屬性列表,具體請(qǐng)參見(jiàn)表4。 quotas Integer 訓(xùn)練作業(yè)的運(yùn)行數(shù)量上限。 表4 jobs屬性列表 參數(shù) 參數(shù)類型 說(shuō)明 job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱。
超過(guò)最大遞歸深度導(dǎo)致訓(xùn)練作業(yè)失敗 問(wèn)題現(xiàn)象 ModelArts訓(xùn)練作業(yè)報(bào)錯(cuò): RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析 遞歸深度超過(guò)了Python默認(rèn)的遞歸深度,導(dǎo)致訓(xùn)練失敗。 處理方法
遷移任務(wù)正常運(yùn)行中。 暫停任務(wù) 在“實(shí)時(shí)遷移管理”頁(yè)面的遷移列表中,選擇要暫停的遷移任務(wù),單擊“操作 > 暫停”。 在彈出的“暫停任務(wù)”對(duì)話框中,選擇“暫停日志抓取”后,單擊“是”。 增量狀態(tài)暫停任務(wù)時(shí),僅暫停增量數(shù)據(jù)的回放、或者拉取加回放,在進(jìn)行數(shù)據(jù)庫(kù)割接前,請(qǐng)先結(jié)束任務(wù)。 勾選“暫停日志抓取
查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo) 功能介紹 查詢訓(xùn)練作業(yè)指定任務(wù)的運(yùn)行指標(biāo)接口用于獲取ModelArts平臺(tái)上指定訓(xùn)練作業(yè)任務(wù)的運(yùn)行指標(biāo)。 該接口適用于以下場(chǎng)景:當(dāng)用戶需要查看特定訓(xùn)練任務(wù)的性能指標(biāo)時(shí),可以通過(guò)此接口獲取運(yùn)行指標(biāo)。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID和任務(wù)ID
在adc頁(yè)面上我如何通過(guò)寫(xiě)js來(lái)暫停機(jī)器人任務(wù)。
云ModelArts平臺(tái)訓(xùn)練的模型,提供云上管理平臺(tái)、豐富的技能市場(chǎng)和開(kāi)發(fā)者工具與插件,幫助用戶高效開(kāi)發(fā)AI應(yīng)用,并將其部署到多種端側(cè)計(jì)算設(shè)備運(yùn)行和在線管理。 華為HiLens為端云協(xié)同AI應(yīng)用開(kāi)發(fā)與運(yùn)行管理平臺(tái),支持部署華為云ModelArts平臺(tái)訓(xùn)練的模型,提供云上管理平臺(tái)、
訓(xùn)練 上傳數(shù)據(jù)至OBS并預(yù)熱到SFS Turbo中 創(chuàng)建訓(xùn)練任務(wù) 父主題: 實(shí)施步驟
三、訓(xùn)練模型 數(shù)據(jù)和代碼準(zhǔn)備完成后,您可以創(chuàng)建一個(gè)訓(xùn)練作業(yè) 例如:下載mindspore源碼https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/inceptionv4 填寫(xiě)配置訓(xùn)練參數(shù)后,單擊“Apply
深度學(xué)習(xí)的訓(xùn)練過(guò)程存在隨機(jī)性,主要體現(xiàn)在以下幾個(gè)方面:權(quán)重初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重通常隨機(jī)初始化,不同的初始值會(huì)影響模型的收斂路徑和最終性能。數(shù)據(jù) shuffling訓(xùn)練數(shù)據(jù)在每個(gè) epoch 前會(huì)被隨機(jī)打亂,導(dǎo)致每次訓(xùn)練時(shí)數(shù)據(jù)順序不同,影響梯度更新。DropoutDropout 隨
訓(xùn)練作業(yè)訓(xùn)練失敗報(bào)錯(cuò):TypeError: unhashable type: ‘list’ 問(wèn)題現(xiàn)象 使用訂閱算法圖像分類-EfficientNetB4進(jìn)行訓(xùn)練報(bào)錯(cuò):TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多標(biāo)簽分類導(dǎo)致(即一個(gè)圖片用了1個(gè)以上的標(biāo)簽)。
訓(xùn)練 上傳數(shù)據(jù)至OBS并預(yù)熱到SFS Turbo中 創(chuàng)建訓(xùn)練任務(wù) 父主題: 實(shí)施步驟
刪除訓(xùn)練作業(yè) 功能介紹 刪除訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過(guò)查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 參數(shù)說(shuō)明如表1所示。 表1 參數(shù)說(shuō)明 參數(shù) 是否必選 參數(shù)類型
由于工作越來(lái)越忙,時(shí)間十分緊張,暫時(shí)離開(kāi)一會(huì),期待有空博客再會(huì)。
訓(xùn)練作業(yè)調(diào)測(cè) 使用SDK調(diào)測(cè)單機(jī)訓(xùn)練作業(yè) 使用SDK調(diào)測(cè)多機(jī)分布式訓(xùn)練作業(yè) 父主題: 訓(xùn)練作業(yè)
訓(xùn)練前卡死 作業(yè)為多節(jié)點(diǎn)訓(xùn)練,且還未開(kāi)始訓(xùn)練時(shí)發(fā)生卡死,可以在代碼中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 問(wèn)題現(xiàn)象1 日志中還未出現(xiàn)NCCL DEBUG信息時(shí)已卡死。 解決方案1 檢查代碼,檢查是否有參數(shù)中未傳入“
會(huì)話對(duì)象,初始化方法請(qǐng)參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過(guò)創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對(duì)象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 無(wú)成功響應(yīng)參數(shù)。 表2 調(diào)用訓(xùn)練接口失敗響應(yīng)參數(shù) 參數(shù) 類型 描述 error_msg
訓(xùn)練中途卡死 問(wèn)題現(xiàn)象1 檢測(cè)每個(gè)節(jié)點(diǎn)日志是否有報(bào)錯(cuò)信息,某個(gè)節(jié)點(diǎn)報(bào)錯(cuò)但作業(yè)未退出導(dǎo)致整個(gè)訓(xùn)練作業(yè)卡死。 解決方案1 查看報(bào)錯(cuò)原因,解決報(bào)錯(cuò)。 問(wèn)題現(xiàn)象2 作業(yè)卡在sync-batch-norm中或者訓(xùn)練速度變慢。pytorch如果開(kāi)了sync-batch-norm,多機(jī)會(huì)慢,因
停止訓(xùn)練作業(yè)版本 功能介紹 停止訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請(qǐng)通過(guò)查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 參數(shù)說(shuō)明如表1所示。
訓(xùn)練最后一個(gè)epoch卡死 問(wèn)題現(xiàn)象 通過(guò)日志查看數(shù)據(jù)切分是否對(duì)齊,如果未對(duì)齊,容易導(dǎo)致部分進(jìn)程完成訓(xùn)練退出,而部分訓(xùn)練進(jìn)程因未收到其他進(jìn)程反饋卡死,如下圖同一時(shí)間有的進(jìn)程在epoch48,而有的進(jìn)程在epoch49。 loss exit lane:0.12314446270465851
code_dir+boot_file取訓(xùn)練作業(yè)的代碼目錄和啟動(dòng)文件。 tasks Array of TaskResponse objects 異構(gòu)訓(xùn)練作業(yè)的任務(wù)列表。 spec spec object 訓(xùn)練作業(yè)規(guī)格參數(shù)。 表5 JobMetadata 參數(shù) 參數(shù)類型 描述 id String 訓(xùn)練作業(yè)ID,