檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
torch_npu from torch_npu.contrib import transfer_to_npu 將預(yù)訓(xùn)練模型指定為實際下載路徑。 開始訓(xùn)練。 單卡訓(xùn)練啟動方式: torchrun --nnodes=1 --nproc_per_node=1 train.py --model
job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱 status Int 訓(xùn)練作業(yè)的運行狀態(tài),詳細(xì)作業(yè)狀態(tài)列表請查看作業(yè)狀態(tài)參考。 create_time Long 訓(xùn)練作業(yè)的創(chuàng)建時間,時間戳格式。 version_id Long 訓(xùn)練作業(yè)的版本ID。
訓(xùn)練管理 創(chuàng)建算法 查詢算法列表 查詢算法詳情 更新算法 刪除算法 獲取支持的超參搜索算法 創(chuàng)建訓(xùn)練實驗 創(chuàng)建訓(xùn)練作業(yè) 查詢訓(xùn)練作業(yè)詳情 更新訓(xùn)練作業(yè)描述 刪除訓(xùn)練作業(yè) 終止訓(xùn)練作業(yè) 查詢訓(xùn)練作業(yè)指定任務(wù)的日志(預(yù)覽) 查詢訓(xùn)練作業(yè)指定任務(wù)的日志(OBS鏈接) 查詢訓(xùn)練作業(yè)指定任務(wù)的運行指標(biāo)
training_job_id 是 String 參數(shù)解釋:訓(xùn)練作業(yè)ID。 約束限制:獲取方法請參見查詢訓(xùn)練作業(yè)列表。 取值范圍:不涉及。 默認(rèn)取值:不涉及。 請求參數(shù) 表2 請求Body參數(shù) 參數(shù) 是否必選 參數(shù)類型 描述 description 否 String 對訓(xùn)練作業(yè)的描述,默認(rèn)為“NULL”,字符串的長度限制為[0
創(chuàng)建訓(xùn)練作業(yè)標(biāo)簽 功能介紹 創(chuàng)建訓(xùn)練作業(yè)標(biāo)簽,支持批量添加,當(dāng)添加的標(biāo)簽key已存在,則覆蓋該標(biāo)簽的value。 調(diào)試 您可以在API Explorer中調(diào)試該接口,支持自動認(rèn)證鑒權(quán)。API Explorer可以自動生成SDK代碼示例,并提供SDK代碼示例調(diào)試功能。 URI POST
權(quán)重。自下上升的非監(jiān)督學(xué)習(xí)就是從底層開始,一層一層地往頂層訓(xùn)練。采用無標(biāo)定數(shù)據(jù)(有標(biāo)定數(shù)據(jù)也可)分層訓(xùn)練各層參數(shù),這一步可以看作是一個無監(jiān)督訓(xùn)練過程,這也是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分,可以看作是特征學(xué)習(xí)過程。具體的,先用無標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時先學(xué)習(xí)第一層的參數(shù),這層可以看
訓(xùn)練作業(yè)卡死 訓(xùn)練作業(yè)卡死檢測定位 復(fù)制數(shù)據(jù)卡死 訓(xùn)練前卡死 訓(xùn)練中途卡死 訓(xùn)練最后一個epoch卡死 父主題: 訓(xùn)練作業(yè)
址。需要排查訓(xùn)練代碼中是否有設(shè)置NCCL_SOCKET_IFNAME環(huán)境變量,該環(huán)境變量由系統(tǒng)自動注入,訓(xùn)練代碼中無需設(shè)置。訓(xùn)練代碼去除NCCL_SOCKET_IFNAME環(huán)境變量設(shè)置邏輯后,單擊右側(cè)“復(fù)制”,重新創(chuàng)建訓(xùn)練作業(yè),提交訓(xùn)練作業(yè)后等待作業(yè)完成。 等待訓(xùn)練作業(yè)是否變成“已完成”狀態(tài)。
重。 自下上升的非監(jiān)督學(xué)習(xí)就是從底層開始,一層一層地往頂層訓(xùn)練。采用無標(biāo)定數(shù)據(jù)(有標(biāo)定數(shù)據(jù)也可)分層訓(xùn)練各層參數(shù),這一步可以看作是一個無監(jiān)督訓(xùn)練過程,這也是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分,可以看作是特征學(xué)習(xí)過程。具體的,先用無標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時先學(xué)習(xí)第一層的參數(shù),這層可以看
訓(xùn)練作業(yè)創(chuàng)建失敗報錯: 準(zhǔn)備階段超時??赡茉蚴强鐓^(qū)域算法同步或者創(chuàng)建共享存儲超時 訓(xùn)練作業(yè)已排隊,正在等待資源分配 訓(xùn)練作業(yè)排隊失敗 訓(xùn)練作業(yè)開始運行 訓(xùn)練作業(yè)運行成功 訓(xùn)練作業(yè)運行失敗 訓(xùn)練作業(yè)被搶占 系統(tǒng)檢測到您的作業(yè)疑似卡死,請及時前往作業(yè)詳情界面查看并處理 訓(xùn)練作業(yè)已重啟
查詢訓(xùn)練作業(yè)列表 功能介紹 查詢訓(xùn)練作業(yè)列表接口用于獲取ModelArts平臺上所有訓(xùn)練作業(yè)的列表。 該接口適用于以下場景:當(dāng)用戶需要查看平臺上的所有訓(xùn)練作業(yè)時,可以通過此接口獲取作業(yè)列表。使用該接口的前提條件是用戶具有查看訓(xùn)練作業(yè)列表的權(quán)限。查詢操作完成后,平臺將返回包含訓(xùn)練作業(yè)
Platform中內(nèi)嵌的AI算法透過深度神經(jīng)網(wǎng)絡(luò)算法的模式將AOI判定的缺陷自動學(xué)習(xí),尋找特征與規(guī)律,形成深度神經(jīng)網(wǎng)絡(luò)協(xié)助AOI機器進(jìn)行復(fù)判,從而可以實現(xiàn)大幅度的降低誤判率。 Smart AOI Platform通過產(chǎn)品缺陷海量數(shù)據(jù),結(jié)合AI深度學(xué)習(xí),生成對線上的產(chǎn)品進(jìn)行判斷模型的管理平臺。具有分
絡(luò)接入物聯(lián)網(wǎng)平臺,并使用LWM2M/CoAP(S)、MQTT(S)、HTTPS協(xié)議將業(yè)務(wù)數(shù)據(jù)上報到平臺,平臺也可以將控制命令下發(fā)給設(shè)備。 業(yè)務(wù)應(yīng)用通過調(diào)用物聯(lián)網(wǎng)平臺提供的API,實現(xiàn)設(shè)備數(shù)據(jù)采集、命令下發(fā)、設(shè)備管理等業(yè)務(wù)場景。 物聯(lián)網(wǎng)平臺支持終端設(shè)備
刪除訓(xùn)練作業(yè)版本 功能介紹 刪除訓(xùn)練作業(yè)一個版本。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 參數(shù)說明如表1所示。
濾,快速查找訓(xùn)練作業(yè)。 在“訓(xùn)練作業(yè)”列表中,單擊作業(yè)名稱,進(jìn)入訓(xùn)練作業(yè)詳情頁。 在訓(xùn)練作業(yè)詳情頁的左側(cè),可以查看此次訓(xùn)練作業(yè)的基本信息和算法配置的相關(guān)信息。 訓(xùn)練作業(yè)基本信息 表1 訓(xùn)練作業(yè)基本信息 參數(shù) 說明 “作業(yè)ID” 訓(xùn)練作業(yè)唯一標(biāo)識。 “作業(yè)狀態(tài)” 訓(xùn)練作業(yè)狀態(tài)。 說明:
圖2 配置訓(xùn)練作業(yè)參數(shù)(公共資源池) 圖3 配置訓(xùn)練作業(yè)參數(shù)(專屬資源池) 圖4 配置訓(xùn)練作業(yè)參數(shù)(自定義鏡像) 參數(shù)填寫完成后,單擊“Apply and Run”,即自動上傳本地代碼至云端并啟動訓(xùn)練,在工具下方的Training Log區(qū)域,會實時展示訓(xùn)練作業(yè)運行情況。當(dāng)訓(xùn)練日志中出現(xiàn)“Current
獲取訓(xùn)練作業(yè)支持的公共規(guī)格 功能介紹 獲取訓(xùn)練作業(yè)支持的公共規(guī)格接口用于獲取ModelArts平臺上支持的訓(xùn)練作業(yè)資源規(guī)格列表。 該接口適用于以下場景:當(dāng)用戶需要了解平臺支持的資源規(guī)格以進(jìn)行訓(xùn)練作業(yè)配置時,可以通過此接口獲取規(guī)格列表。使用該接口的前提條件是用戶具有查看資源規(guī)格的權(quán)
OOM導(dǎo)致訓(xùn)練作業(yè)失敗 問題現(xiàn)象 因為OOM導(dǎo)致的訓(xùn)練作業(yè)失敗,會有如下幾種現(xiàn)象。 錯誤碼返回137,如下圖所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle
訓(xùn)練作業(yè)卡死檢測定位 什么是訓(xùn)練作業(yè)卡死檢測 訓(xùn)練作業(yè)在運行中可能會因為某些未知原因?qū)е伦鳂I(yè)卡死,如果不能及時發(fā)現(xiàn),就會導(dǎo)致無法及時釋放資源,從而造成極大的資源浪費。為了節(jié)省訓(xùn)練資源成本,提高使用體驗,ModelArts提供了卡死檢測功能,能自動識別作業(yè)是否卡死,并在日志詳情界面
更新訓(xùn)練作業(yè)描述 功能介紹 更新訓(xùn)練作業(yè)的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id 是 String 用戶項目ID。獲取方法請參見獲取項目ID和名稱。