檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
刪除訓(xùn)練作業(yè) 功能介紹 刪除訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型
訓(xùn)練中途卡死 問題現(xiàn)象1 檢測每個(gè)節(jié)點(diǎn)日志是否有報(bào)錯(cuò)信息,某個(gè)節(jié)點(diǎn)報(bào)錯(cuò)但作業(yè)未退出導(dǎo)致整個(gè)訓(xùn)練作業(yè)卡死。 解決方案1 查看報(bào)錯(cuò)原因,解決報(bào)錯(cuò)。 問題現(xiàn)象2 作業(yè)卡在sync-batch-norm中或者訓(xùn)練速度變慢。pytorch如果開了sync-batch-norm,多機(jī)會慢,因
訓(xùn)練作業(yè)調(diào)測 使用SDK調(diào)測單機(jī)訓(xùn)練作業(yè) 使用SDK調(diào)測多機(jī)分布式訓(xùn)練作業(yè) 父主題: 訓(xùn)練作業(yè)
共同打造商業(yè)成功。 本次AI高級訓(xùn)練營圍繞華為云一站式AI開發(fā)平臺ModelArts以及端云協(xié)同多模態(tài)AI開發(fā)應(yīng)用平臺HiLens開展了理論與實(shí)戰(zhàn)課程,助力人工智能開發(fā)企業(yè)降低開發(fā)AI開發(fā)門檻,加速AI技術(shù)落地,讓企業(yè)級AI開發(fā)不再困難。 華為云AI解決方案架構(gòu)師鞠一鳴從產(chǎn)品概
公共資源池存在)。 main_container_allocated_resources MainContainerAllocatedResources object 參數(shù)解釋:訓(xùn)練作業(yè)訓(xùn)練容器實(shí)際到手的資源規(guī)格。 表43 FlavorDetail 參數(shù) 參數(shù)類型 描述 flavor_type
停止訓(xùn)練作業(yè)版本 功能介紹 停止訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 參數(shù)說明如表1所示。
Object 會話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 get_job_log請求參數(shù)說明 參數(shù) 是否必選 參數(shù)類型
node_count Integer 訓(xùn)練作業(yè)選擇的資源副本數(shù)。 最小值:1 pool_id String 訓(xùn)練作業(yè)選擇的資源池ID。 flavor_detail flavor_detail object 訓(xùn)練作業(yè)、算法的規(guī)格信息。 表43 flavor_detail 參數(shù) 參數(shù)類型 描述 flavor_type
查詢訓(xùn)練作業(yè)日志 功能介紹 按行來查詢訓(xùn)練作業(yè)日志詳細(xì)信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 參數(shù)說明如表1所示。 表1 路徑參數(shù) 參數(shù) 是否必選 參數(shù)類型
查詢訓(xùn)練作業(yè)鏡像保存任務(wù) 功能介紹 查詢訓(xùn)練作業(yè)鏡像保存任務(wù)接口用于獲取ModelArts平臺上指定訓(xùn)練作業(yè)的鏡像保存任務(wù)信息。 該接口適用于以下場景:當(dāng)用戶需要查看特定訓(xùn)練作業(yè)的鏡像保存任務(wù)狀態(tài)時(shí),可以通過此接口獲取任務(wù)信息。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID,并具有查
更新訓(xùn)練作業(yè)描述 功能介紹 更新訓(xùn)練作業(yè)描述。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動(dòng)認(rèn)證鑒權(quán)。API Explorer可以自動(dòng)生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI PUT /v2/{project_id}/training-jobs/{training_job_id}
- 64字符,字母、數(shù)字和中劃線。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 training_job_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)ID。 約束限制:獲取方法請參見查詢訓(xùn)練作業(yè)列表。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 請求參數(shù) 表2 請求Body參數(shù) 參數(shù) 是否必選
刪除訓(xùn)練作業(yè)標(biāo)簽 功能介紹 刪除訓(xùn)練作業(yè)標(biāo)簽,支持批量刪除。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動(dòng)認(rèn)證鑒權(quán)。API Explorer可以自動(dòng)生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI DELETE /v2/{project_id}/train
node_count Integer 訓(xùn)練作業(yè)選擇的資源副本數(shù)。 最小值:1 pool_id String 訓(xùn)練作業(yè)選擇的資源池ID。 flavor_detail flavor_detail object 訓(xùn)練作業(yè)、算法的規(guī)格信息。 表45 flavor_detail 參數(shù) 參數(shù)類型 描述 flavor_type
本;3、解決模型訓(xùn)練門檻高問題,可視化的模型訓(xùn)練界面,自動(dòng)推薦訓(xùn)練參數(shù),5分鐘快速上手,模型訓(xùn)練成本降低70%;4、克服算法只能解決單一業(yè)務(wù)場景問題,通過拖拽的方式將多個(gè)模型串聯(lián)起來,在多模型的協(xié)同作用下,可解決復(fù)雜場景的業(yè)務(wù)需求;5、解決模型迭代效率低,對訓(xùn)練好的模型進(jìn)行效果驗(yàn)
訓(xùn)練最后一個(gè)epoch卡死 問題現(xiàn)象 通過日志查看數(shù)據(jù)切分是否對齊,如果未對齊,容易導(dǎo)致部分進(jìn)程完成訓(xùn)練退出,而部分訓(xùn)練進(jìn)程因未收到其他進(jìn)程反饋卡死,如下圖同一時(shí)間有的進(jìn)程在epoch48,而有的進(jìn)程在epoch49。 loss exit lane:0.12314446270465851
A/training/,訓(xùn)練代碼會被自動(dòng)下載至${MA_JOB_DIR}/training/。 假設(shè)訓(xùn)練代碼的OBS目錄為obs://bucket-A/XXX/{training-project}/,“{training-project}”是存放訓(xùn)練代碼的文件夾名稱。訓(xùn)練時(shí)會自動(dòng)
Object 會話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 update_job_configs請求參數(shù)說明 參數(shù)
Integer 訓(xùn)練作業(yè)worker的個(gè)數(shù)。 data_url String 訓(xùn)練作業(yè)的數(shù)據(jù)集。 train_url String 訓(xùn)練作業(yè)輸出文件OBS路徑。 log_url String 訓(xùn)練作業(yè)的日志OBS輸出路徑URL,默認(rèn)為空。如:“/usr/train/”。 dataset_version_id
創(chuàng)建訓(xùn)練作業(yè) 功能介紹 創(chuàng)建一個(gè)訓(xùn)練作業(yè)。 該接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id