檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
停止訓練作業(yè)版本 功能介紹 停止訓練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓練作業(yè)列表和查詢訓練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 參數說明如表1所示。
訓練最后一個epoch卡死 問題現象 通過日志查看數據切分是否對齊,如果未對齊,容易導致部分進程完成訓練退出,而部分訓練進程因未收到其他進程反饋卡死,如下圖同一時間有的進程在epoch48,而有的進程在epoch49。 loss exit lane:0.12314446270465851
像和啟動命令來優(yōu)化PyTorch DDP訓練流程,從而在Ascend加速卡上實現高效的分布式訓練。 前提條件 需要有Ascend加速卡資源池。 創(chuàng)建訓練作業(yè) 本案例創(chuàng)建訓練作業(yè)時,需要配置如下參數。 表1 創(chuàng)建訓練作業(yè)的配置說明 參數名稱 說明 “創(chuàng)建方式” 選擇“自定義算法”。
獲取訓練配額 功能介紹 獲取用戶的訓練配額。 調試 您可以在API Explorer中調試該接口,支持自動認證鑒權。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調試功能。 URI GET /v2/{project_id}/training-quotas
查詢訓練作業(yè)詳情 功能介紹 查詢訓練作業(yè)詳情接口用于獲取ModelArts平臺上指定訓練作業(yè)的詳細信息。 該接口適用于以下場景:當用戶需要查看特定訓練作業(yè)的運行狀態(tài)和配置信息時,可以通過此接口獲取作業(yè)詳情。使用該接口的前提條件是用戶已知訓練作業(yè)ID,并具有查看作業(yè)詳情的權限。查詢
查詢訓練作業(yè)日志 功能介紹 按行來查詢訓練作業(yè)日志詳細信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 參數說明如表1所示。 表1 路徑參數 參數 是否必選 參數類型
查詢訓練作業(yè)鏡像保存任務 功能介紹 查詢訓練作業(yè)鏡像保存任務接口用于獲取ModelArts平臺上指定訓練作業(yè)的鏡像保存任務信息。 該接口適用于以下場景:當用戶需要查看特定訓練作業(yè)的鏡像保存任務狀態(tài)時,可以通過此接口獲取任務信息。使用該接口的前提條件是用戶已知訓練作業(yè)ID,并具有查
創(chuàng)建訓練實驗 功能介紹 創(chuàng)建訓練實驗。 調試 您可以在API Explorer中調試該接口,支持自動認證鑒權。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調試功能。 URI POST /v2/{project_id}/training-experiments
掃碼加入【華為云HCSD求職成長訓練營交流答疑群】 掃碼加入【華為云HCSD求職成長訓練營交流答疑群】 精選干貨 攻城獅寶典 AI、IoT、大數據等16個熱門華為認證官方學習材料,含100+視頻課程、10萬+頁PPT AI、IoT、大數據等16個熱門華為認證官方學習材料,含100+視頻課程、10萬+頁PPT
查詢訓練作業(yè)標簽 功能介紹 查詢訓練作業(yè)標簽。 調試 您可以在API Explorer中調試該接口,支持自動認證鑒權。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調試功能。 URI GET /v2/{project_id}/trainJob/{training_job_id}/tags
訓練作業(yè)性能降低 問題現象 使用ModelArts平臺訓練算法訓練耗時增加。 原因分析 可能存在如下原因: 平臺上的代碼經過修改優(yōu)化、訓練參數有過變更。 訓練的GPU硬件工作出現異常。 處理方法 請您對作業(yè)代碼進行排查分析,確認是否對訓練代碼和參數進行過修改。 檢查資源分配情況(
訓練作業(yè)訓練失敗報錯:TypeError: unhashable type: ‘list’ 問題現象 使用訂閱算法圖像分類-EfficientNetB4進行訓練報錯:TypeError: unhashable type: ‘list’。 原因分析 可能由于使用了多標簽分類導致(即一個圖片用了1個以上的標簽)。
開發(fā)深度學習模型 創(chuàng)建和訓練模型 使用如下命令創(chuàng)建并訓練模型: 1 2 3 4 5 6 7 8 9 10 11 # create model model = keras.Sequential([ keras.layers.Flatten(input_shape=(28
job_name String 訓練作業(yè)的名稱。 job_desc String 訓練作業(yè)的描述信息。 version_id Long 訓練作業(yè)的版本ID。 version_name String 訓練作業(yè)的版本名稱。 pre_version_id Long 訓練作業(yè)前一版本的名稱。 engine_type
使用預置算法訓練時,訓練失敗,報“bndbox”錯誤 問題現象 使用預置算法創(chuàng)建訓練作業(yè),訓練失敗,日志中出現如下報錯。 KeyError: 'bndbox' 原因分析 用于訓練的數據集中,使用了“非矩形框”標注。而預置使用算法不支持“非矩形框”標注的數據集。 處理方法 此問題有兩種解決方法:
job_id Long 訓練作業(yè)的ID。 job_name String 訓練作業(yè)的名稱 status Int 訓練作業(yè)的運行狀態(tài),詳細作業(yè)狀態(tài)列表請查看作業(yè)狀態(tài)參考。 create_time Long 訓練作業(yè)的創(chuàng)建時間,時間戳格式。 version_id Long 訓練作業(yè)的版本ID。
訓練管理 創(chuàng)建算法 查詢算法列表 查詢算法詳情 更新算法 刪除算法 獲取支持的超參搜索算法 創(chuàng)建訓練實驗 創(chuàng)建訓練作業(yè) 查詢訓練作業(yè)詳情 更新訓練作業(yè)描述 刪除訓練作業(yè) 終止訓練作業(yè) 查詢訓練作業(yè)指定任務的日志(預覽) 查詢訓練作業(yè)指定任務的日志(OBS鏈接) 查詢訓練作業(yè)指定任務的運行指標
訓練作業(yè)性能問題 訓練作業(yè)性能降低 父主題: 訓練作業(yè)
job_id Long 訓練作業(yè)的ID。 job_name String 訓練作業(yè)的名稱 status Int 訓練作業(yè)的運行狀態(tài),詳細作業(yè)狀態(tài)列表請參見作業(yè)狀態(tài)參考。 create_time Long 訓練作業(yè)的創(chuàng)建時間,時間戳格式。 version_id Long 訓練作業(yè)的版本ID。
產品公告 > 【AI開發(fā)平臺ModelArts】新增訓練平臺故障檢測和快恢能力 【AI開發(fā)平臺ModelArts】新增訓練平臺故障檢測和快恢能力 2025-09-12 尊敬的華為云客戶: 對ModelArts的訓練作業(yè)可靠性增強,提升檢測、快恢、日志能力等能力,提高訓練作業(yè)的可維護性 1