檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
OOM導(dǎo)致訓(xùn)練作業(yè)失敗 問題現(xiàn)象 因為OOM導(dǎo)致的訓(xùn)練作業(yè)失敗,會有如下幾種現(xiàn)象。 錯誤碼返回137,如下圖所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle
Platform中內(nèi)嵌的AI算法透過深度神經(jīng)網(wǎng)絡(luò)算法的模式將AOI判定的缺陷自動學(xué)習(xí),尋找特征與規(guī)律,形成深度神經(jīng)網(wǎng)絡(luò)協(xié)助AOI機(jī)器進(jìn)行復(fù)判,從而可以實現(xiàn)大幅度的降低誤判率。 Smart AOI Platform通過產(chǎn)品缺陷海量數(shù)據(jù),結(jié)合AI深度學(xué)習(xí),生成對線上的產(chǎn)品進(jìn)行判斷模型的管理平臺。具有分
訓(xùn)練作業(yè)卡死檢測定位 什么是訓(xùn)練作業(yè)卡死檢測 訓(xùn)練作業(yè)在運(yùn)行中可能會因為某些未知原因?qū)е伦鳂I(yè)卡死,如果不能及時發(fā)現(xiàn),就會導(dǎo)致無法及時釋放資源,從而造成極大的資源浪費(fèi)。為了節(jié)省訓(xùn)練資源成本,提高使用體驗,ModelArts提供了卡死檢測功能,能自動識別作業(yè)是否卡死,并在日志詳情界面
更新訓(xùn)練作業(yè)描述 功能介紹 更新訓(xùn)練作業(yè)的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id 是 String 用戶項目ID。獲取方法請參見獲取項目ID和名稱。
查詢訓(xùn)練作業(yè)列表 功能介紹 查詢訓(xùn)練作業(yè)列表接口用于獲取ModelArts平臺上所有訓(xùn)練作業(yè)的列表。 該接口適用于以下場景:當(dāng)用戶需要查看平臺上的所有訓(xùn)練作業(yè)時,可以通過此接口獲取作業(yè)列表。使用該接口的前提條件是用戶具有查看訓(xùn)練作業(yè)列表的權(quán)限。查詢操作完成后,平臺將返回包含訓(xùn)練作業(yè)
訓(xùn)練作業(yè)的監(jiān)控內(nèi)存指標(biāo)持續(xù)升高直至作業(yè)失敗 問題現(xiàn)象 訓(xùn)練作業(yè)的“狀態(tài)”為“運(yùn)行失敗”。 原因分析 訓(xùn)練作業(yè)的監(jiān)控內(nèi)存指標(biāo)持續(xù)升高,導(dǎo)致最后訓(xùn)練作業(yè)失敗。 處理步驟 查詢訓(xùn)練作業(yè)的日志和監(jiān)控信息,是否存在明確的OOM報錯信息。 是,訓(xùn)練作業(yè)的日志里存在OOM報錯,執(zhí)行2。 否,訓(xùn)
刪除訓(xùn)練作業(yè)標(biāo)簽 功能介紹 刪除訓(xùn)練作業(yè)標(biāo)簽,支持批量刪除。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認(rèn)證鑒權(quán)。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI DELETE /v2/{project_id}/trai
訓(xùn)練作業(yè)卡死重啟 當(dāng)長穩(wěn)的訓(xùn)練作業(yè)正常運(yùn)行一段時間后,如果訓(xùn)練作業(yè)沒有硬件故障,出現(xiàn)卡死時,重啟訓(xùn)練作業(yè)即可恢復(fù)正常。但是,由于訓(xùn)練作業(yè)卡死時無法自動結(jié)束容器,因此無法使用自動重啟功能,只能設(shè)置作業(yè)卡死重啟。當(dāng)訓(xùn)練作業(yè)設(shè)置為作業(yè)卡死重啟時,ModelArts會在作業(yè)運(yùn)行過程中檢測
job_name:可選參數(shù),訓(xùn)練任務(wù)名,便于區(qū)分和記憶。 本地單機(jī)調(diào)試訓(xùn)練任務(wù)開始后,SDK會依次幫助用戶完成以下流程: 初始化訓(xùn)練作業(yè),如果2指定的訓(xùn)練數(shù)據(jù)在OBS上,這里會將數(shù)據(jù)下載到local_path中。 執(zhí)行訓(xùn)練任務(wù),用戶的訓(xùn)練代碼需要將訓(xùn)練輸出保存在4中指定的local_path中。
獲取訓(xùn)練作業(yè)支持的公共規(guī)格 功能介紹 獲取訓(xùn)練作業(yè)支持的公共規(guī)格接口用于獲取ModelArts平臺上支持的訓(xùn)練作業(yè)資源規(guī)格列表。 該接口適用于以下場景:當(dāng)用戶需要了解平臺支持的資源規(guī)格以進(jìn)行訓(xùn)練作業(yè)配置時,可以通過此接口獲取規(guī)格列表。使用該接口的前提條件是用戶具有查看資源規(guī)格的權(quán)
訓(xùn)練作業(yè)流程可視化 場景描述 在機(jī)器學(xué)習(xí)訓(xùn)練過程中,用戶通常需要監(jiān)控訓(xùn)練作業(yè)的執(zhí)行狀態(tài)。然而,傳統(tǒng)的監(jiān)控方式往往難以提供全面的作業(yè)運(yùn)行信息,導(dǎo)致用戶無法及時掌握訓(xùn)練進(jìn)度。通過作業(yè)流程可視化功能模塊,用戶可以實時查看訓(xùn)練作業(yè)的詳細(xì)運(yùn)行狀態(tài)。該功能支持多維度的信息展示,包括作業(yè)調(diào)度情
訓(xùn)練遷移指導(dǎo)(PyTorch) 遷移流程 代碼遷移 精度調(diào)試 性能調(diào)優(yōu) 父主題: GPU業(yè)務(wù)遷移至?xí)N騰訓(xùn)練推理
管理訓(xùn)練實驗 訓(xùn)練實驗 當(dāng)訓(xùn)練作業(yè)的數(shù)量較多時,可能會遇到難以快速定位作業(yè)或不便跟蹤的情況。為了便于管理訓(xùn)練作業(yè),我們引入了訓(xùn)練實驗的概念,類似于對訓(xùn)練作業(yè)進(jìn)行分組管理。用戶可以根據(jù)需求將作業(yè)歸類到不同的訓(xùn)練實驗中,實現(xiàn)分類管理。每個訓(xùn)練實驗可以包含多個同類型的作業(yè)。 在管理訓(xùn)練實
外網(wǎng)訪問限制 日志提示“ Network is unreachable” 運(yùn)行訓(xùn)練作業(yè)時提示URL連接超時 父主題: 訓(xùn)練作業(yè)
查詢訓(xùn)練作業(yè)指定任務(wù)的日志(預(yù)覽) 功能介紹 查詢訓(xùn)練作業(yè)指定任務(wù)的日志(預(yù)覽)接口用于獲取ModelArts平臺上指定訓(xùn)練作業(yè)任務(wù)的日志信息。 該接口適用于以下場景:當(dāng)用戶需要查看特定訓(xùn)練任務(wù)的運(yùn)行日志時,可以通過此接口獲取日志預(yù)覽。使用該接口的前提條件是用戶已知訓(xùn)練作業(yè)ID和
training_job_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)ID。 約束限制:獲取方法請參見查詢訓(xùn)練作業(yè)列表。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 task_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)的任務(wù)名稱。可從訓(xùn)練作業(yè)詳情中的status.tasks字段中獲取。 約束
使用VS Code創(chuàng)建并調(diào)試訓(xùn)練作業(yè) 由于AI開發(fā)者會使用VS Code工具開發(fā)算法或模型,為方便快速將本地代碼提交到ModelArts的訓(xùn)練環(huán)境、貼近本地開發(fā)習(xí)慣地編寫啟動命令,ModelArts提供了一個訓(xùn)練作業(yè)場景下的IDE插件ModelArts-HuaweiCloud,用
training_job_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)ID。 約束限制:獲取方法請參見查詢訓(xùn)練作業(yè)列表。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 task_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)的任務(wù)名稱??蓮?span id="j59555f" class='cur'>訓(xùn)練作業(yè)詳情中的status.tasks字段中獲取。 約束
見容器環(huán)境搭建。 訓(xùn)練代碼遷移 前提條件 要遷移的訓(xùn)練任務(wù)代碼在GPU上多次訓(xùn)練穩(wěn)定可收斂。訓(xùn)練業(yè)務(wù)代碼和數(shù)據(jù),應(yīng)該確保在GPU環(huán)境中能夠運(yùn)行,并且訓(xùn)練任務(wù)有穩(wěn)定的收斂效果。 本文只針對基于PyTorch的訓(xùn)練代碼遷移。此處假設(shè)用戶使用基于PyTorch的訓(xùn)練代碼進(jìn)行遷移。其他的
單擊“提交”,在“信息確認(rèn)”頁面,確認(rèn)訓(xùn)練作業(yè)的參數(shù)信息,確認(rèn)無誤后單擊“確定”。 訓(xùn)練作業(yè)創(chuàng)建完成后,后臺將自動完成容器鏡像下載、代碼目錄下載、執(zhí)行啟動命令等動作。 訓(xùn)練作業(yè)一般需要運(yùn)行一段時間,根據(jù)您的訓(xùn)練業(yè)務(wù)邏輯和選擇的資源不同,訓(xùn)練時長將持續(xù)幾十分鐘到幾小時不等。訓(xùn)練作業(yè)執(zhí)行成功后,日志信息如下所示。