檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
訓(xùn)練作業(yè)運行失敗 訓(xùn)練作業(yè)運行失敗排查指導(dǎo) 訓(xùn)練作業(yè)運行失敗,出現(xiàn)NCCL報錯 自定義鏡像訓(xùn)練作業(yè)失敗定位思路 使用自定義鏡像創(chuàng)建的訓(xùn)練作業(yè)一直處于運行中 使用自定義鏡像創(chuàng)建訓(xùn)練作業(yè)找不到啟動文件 訓(xùn)練作業(yè)的監(jiān)控內(nèi)存指標持續(xù)升高直至作業(yè)失敗 訂閱算法物體檢測YOLOv3_ResN
訓(xùn)練前卡死 作業(yè)為多節(jié)點訓(xùn)練,且還未開始訓(xùn)練時發(fā)生卡死,可以在代碼中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 問題現(xiàn)象1 日志中還未出現(xiàn)NCCL DEBUG信息時已卡死。 解決方案1 檢查代碼,檢查是否有參數(shù)中未傳入“
訓(xùn)練中途卡死 問題現(xiàn)象1 檢測每個節(jié)點日志是否有報錯信息,某個節(jié)點報錯但作業(yè)未退出導(dǎo)致整個訓(xùn)練作業(yè)卡死。 解決方案1 查看報錯原因,解決報錯。 問題現(xiàn)象2 作業(yè)卡在sync-batch-norm中或者訓(xùn)練速度變慢。pytorch如果開了sync-batch-norm,多機會慢,因
訓(xùn)練作業(yè)性能降低 問題現(xiàn)象 使用ModelArts平臺訓(xùn)練算法訓(xùn)練耗時增加。 原因分析 可能存在如下原因: 平臺上的代碼經(jīng)過修改優(yōu)化、訓(xùn)練參數(shù)有過變更。 訓(xùn)練的GPU硬件工作出現(xiàn)異常。 處理方法 請您對作業(yè)代碼進行排查分析,確認是否對訓(xùn)練代碼和參數(shù)進行過修改。 檢查資源分配情況(
性能調(diào)優(yōu) Profiling數(shù)據(jù)采集 使用Advisor工具分析生成調(diào)優(yōu)建議 調(diào)優(yōu)前后性能對比 父主題: 案例:Dit模型訓(xùn)練遷移
ModelArts訓(xùn)練中不同規(guī)格資源“/cache”目錄的大小是多少? 在創(chuàng)建訓(xùn)練作業(yè)時可以根據(jù)訓(xùn)練作業(yè)的大小選擇資源。 ModelArts會掛載硬盤至“/cache”目錄,用戶可以使用此目錄來儲存臨時文件。“/cache”與代碼目錄共用資源,不同資源規(guī)格有不同的容量。 k8s磁
查詢訓(xùn)練作業(yè)標簽 功能介紹 查詢訓(xùn)練作業(yè)標簽。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權(quán)。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI GET /v2/{project_id}/trainJob/{training_job_id}/tags
node_count Integer 訓(xùn)練作業(yè)選擇的資源副本數(shù)。 最小值:1 pool_id String 訓(xùn)練作業(yè)選擇的資源池ID。 flavor_detail flavor_detail object 訓(xùn)練作業(yè)、算法的規(guī)格信息。 表45 flavor_detail 參數(shù) 參數(shù)類型 描述 flavor_type
問題現(xiàn)象:如何解決欠擬合問題? 解決辦法:模型過于簡單、特性不足、正則參數(shù)化等原因會引起欠擬合,可以通過如下集中方式解決1.模型復(fù)雜化,使用更為復(fù)雜的算法或模型替代原先模型,或是增加原先使用模型的復(fù)雜度,例如回歸模型添加更多高次項,增加決策樹深度等2.可以考慮添加特征,從數(shù)據(jù)中挖
前使用訪問密鑰授權(quán)的用戶,建議清空授權(quán),然后使用委托進行授權(quán)。 在左側(cè)導(dǎo)航欄中選擇“模型訓(xùn)練 > 訓(xùn)練作業(yè)”,默認進入“訓(xùn)練作業(yè)”列表。單擊“創(chuàng)建訓(xùn)練作業(yè)”進入創(chuàng)建訓(xùn)練作業(yè)頁面。 在“創(chuàng)建訓(xùn)練作業(yè)”頁面,填寫相關(guān)參數(shù)信息,然后單擊“提交”。 創(chuàng)建方式:選擇“自定義算法”。 啟動方式:選擇“自定義”。
訓(xùn)練作業(yè)調(diào)測 使用SDK調(diào)測單機訓(xùn)練作業(yè) 使用SDK調(diào)測多機分布式訓(xùn)練作業(yè) 父主題: 訓(xùn)練作業(yè)
復(fù)制文件夾時可采用: mox.file.copy_parallel(threads=0,is_processing=False) 父主題: 訓(xùn)練作業(yè)卡死
共資源池存在)。 main_container_allocated_resources MainContainerAllocatedResources object 訓(xùn)練作業(yè)訓(xùn)練容器實際到手的資源規(guī)格。 表42 FlavorDetail 參數(shù) 參數(shù)類型 描述 flavor_type
刪除訓(xùn)練作業(yè)標簽 功能介紹 刪除訓(xùn)練作業(yè)標簽,支持批量刪除。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權(quán)。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI DELETE /v2/{project_id}/train
產(chǎn)品公告 > 【AI開發(fā)平臺ModelArts】新增訓(xùn)練平臺故障檢測和快恢能力 【AI開發(fā)平臺ModelArts】新增訓(xùn)練平臺故障檢測和快恢能力 2025-09-12 尊敬的華為云客戶: 對ModelArts的訓(xùn)練作業(yè)可靠性增強,提升檢測、快恢、日志能力等能力,提高訓(xùn)練作業(yè)的可維護性
訓(xùn)練作業(yè)卡死檢測定位 什么是訓(xùn)練作業(yè)卡死檢測 訓(xùn)練作業(yè)在運行中可能會因為某些未知原因?qū)е伦鳂I(yè)卡死,如果不能及時發(fā)現(xiàn),就會導(dǎo)致無法及時釋放資源,從而造成極大的資源浪費。為了節(jié)省訓(xùn)練資源成本,提高使用體驗,ModelArts提供了卡死檢測功能,能自動識別作業(yè)是否卡死,并在日志詳情界面
更新訓(xùn)練作業(yè)描述 功能介紹 更新訓(xùn)練作業(yè)描述。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認證鑒權(quán)。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI PUT /v2/{project_id}/training-jobs/{training_job_id}
- 64字符,字母、數(shù)字和中劃線。 取值范圍:不涉及。 默認取值:不涉及。 training_job_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)ID。 約束限制:獲取方法請參見查詢訓(xùn)練作業(yè)列表。 取值范圍:不涉及。 默認取值:不涉及。 請求參數(shù) 表2 請求Body參數(shù) 參數(shù) 是否必選
持不變。 圖1 啟動命令 當訓(xùn)練作業(yè)執(zhí)行完成后,在訓(xùn)練作業(yè)詳情頁面中查看“日志”。日志中即為所有的環(huán)境變量信息。 圖2 查看日志 通過CloudShell查看訓(xùn)練環(huán)境變量 在CloudShell中,使用命令env獲取環(huán)境變量。 這種方式無法獲取訓(xùn)練平臺在進程中注入的環(huán)境變量(如超
查看模型評估結(jié)果 訓(xùn)練作業(yè)運行結(jié)束后,ModelArts可為您的模型進行評估,并且給出調(diào)優(yōu)診斷和建議。 針對使用預(yù)置算法創(chuàng)建訓(xùn)練作業(yè),無需任何配置,即可查看此評估結(jié)果(由于每個模型情況不同,系統(tǒng)將自動根據(jù)您的模型指標情況,給出一些調(diào)優(yōu)建議,請仔細閱讀界面中的建議和指導(dǎo),對您的模型進行進一步的調(diào)優(yōu))。