檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
刪除訓練作業(yè) 功能介紹 刪除訓練作業(yè)接口用于從ModelArts平臺上移除已創(chuàng)建的訓練作業(yè)。 該接口適用于以下場景:當用戶需要清理已完成或不再需要的訓練作業(yè)時,可以通過此接口刪除指定的訓練作業(yè)。使用該接口的前提條件是訓練作業(yè)已存在且用戶具有刪除訓練作業(yè)的權限。
訓練中途卡死 問題現(xiàn)象1 檢測每個節(jié)點日志是否有報錯信息,某個節(jié)點報錯但作業(yè)未退出導致整個訓練作業(yè)卡死。 解決方案1 查看報錯原因,解決報錯。 問題現(xiàn)象2 作業(yè)卡在sync-batch-norm中或者訓練速度變慢。
創(chuàng)建訓練作業(yè) 示例代碼 在ModelArts notebook平臺,Session鑒權無需輸入鑒權參數(shù)。其它平臺的Session鑒權請參見Session鑒權。 ModelArts SDK不支持通過在AI Gallery中訂閱的算法創(chuàng)建訓練作業(yè)。
上傳數(shù)據(jù)和算法至OBS(首次使用時需要) 前提條件 已經(jīng)在OBS上創(chuàng)建好并行文件系統(tǒng),請參見創(chuàng)建并行文件系統(tǒng)。 已經(jīng)在obsutil安裝和配置,請參見obsutils安裝和配置。 準備數(shù)據(jù) 單擊下載動物數(shù)據(jù)集至本地,并解壓。 通過obsutil將數(shù)據(jù)集上傳至OBS桶中。 .
停止訓練作業(yè)版本 功能介紹 停止訓練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓練作業(yè)列表和查詢訓練作業(yè)版本詳情接口獲取。
訓練最后一個epoch卡死 問題現(xiàn)象 通過日志查看數(shù)據(jù)切分是否對齊,如果未對齊,容易導致部分進程完成訓練退出,而部分訓練進程因未收到其他進程反饋卡死,如下圖同一時間有的進程在epoch48,而有的進程在epoch49。
訓練作業(yè) 創(chuàng)建訓練作業(yè) 訓練作業(yè)調(diào)測 查詢訓練作業(yè)列表 查詢訓練作業(yè)詳情 更新訓練作業(yè)描述 刪除訓練作業(yè) 終止訓練作業(yè) 查詢訓練日志 查詢訓練作業(yè)的運行指標 父主題: 訓練管理
父主題: 訓練作業(yè)
請通過查詢預置算法接口獲取model_id。填入model_id后app_url與boot_file_url和engine_id無需填寫。 train_url 是 String 訓練作業(yè)的輸出文件OBS路徑URL,默認為空,如:“/bucket/trainUrl/”。
單擊“創(chuàng)建訓練作業(yè)”進入創(chuàng)建訓練作業(yè)頁面。 在“創(chuàng)建訓練作業(yè)”頁面,填寫相關參數(shù)信息,然后單擊“提交”。 創(chuàng)建方式:選擇“自定義算法”。 啟動方式:選擇“自定義”。 鏡像:選擇上傳的自定義鏡像。
基于賽事認證的元宇宙開發(fā)平臺上進行的開發(fā)類作品。
Job Description 訓練作業(yè)的簡要描述。 Algorithm Source 訓練算法來源,分為“常用框架”和“自定義鏡像”兩種,二者選一項即可。
父主題: 訓練管理
算法文件說明 上傳到Octopus平臺的本地算法文件包需要滿足Octopus平臺要求,本章節(jié)介紹算法文件基本要求及相關環(huán)境變量說明。 算法文件基本要求 算法文件目錄結構可參考如下,需要包括啟動文件“xxx.py”(啟動文件名可自定義),以及一些必要的訓練文件。
查詢訓練作業(yè)詳情 示例代碼 在ModelArts notebook平臺,Session鑒權無需輸入鑒權參數(shù)。其它平臺的Session鑒權請參見Session鑒權。 方式一:根據(jù)指定的job_id查詢。
使用VS Code創(chuàng)建并調(diào)試訓練作業(yè) 由于AI開發(fā)者會使用VS Code工具開發(fā)算法或模型,為方便快速將本地代碼提交到ModelArts的訓練環(huán)境、貼近本地開發(fā)習慣地編寫啟動命令,ModelArts提供了一個訓練作業(yè)場景下的IDE插件ModelArts-HuaweiCloud,用戶通過簡易的操作
job_id Long 訓練作業(yè)的ID。 job_name String 訓練作業(yè)的名稱。 job_desc String 訓練作業(yè)的描述信息。 version_id Long 訓練作業(yè)的版本ID。 version_name String 訓練作業(yè)的版本名稱。
用戶可以根據(jù)實際情況定義此算法的訓練約束。 資源類型:選擇適用的資源類型,支持多選。 多卡訓練:選擇是否支持多卡訓練。 分布式訓練:選擇是否支持分布式訓練。 當創(chuàng)建算法的參數(shù)配置完成后,單擊“提交”,返回算法管理列表。
更新訓練作業(yè)描述 示例代碼 在ModelArts notebook平臺,Session鑒權無需輸入鑒權參數(shù)。其它平臺的Session鑒權請參見Session鑒權。 方式一:根據(jù)指定的job_id更新。
按照名稱、ID、算法、狀態(tài)、創(chuàng)建時間、作業(yè)類型、資源池等條件篩選的高級搜索。 支持作業(yè)列表刷新。單擊作業(yè)列表右上角“刷新”圖標,刷新作業(yè)列表。 支持自定義列表選項。單擊作業(yè)列表右上角“設置”圖標,自定義選擇需要在作業(yè)列表中顯示的選項。