檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
Object 會話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 get_job_log請求參數(shù)說明 參數(shù) 是否必選 參數(shù)類型
-成長地圖 | 華為云
耳機等大獎等你來拿 實訓(xùn)體驗 / 多重獎勵 / 豪送數(shù)百件實物禮品 全額認證考試劵及學(xué)習(xí)書籍 每日打卡 / 讀書筆記 / 專家答疑 展開更多收起 加入學(xué)習(xí)社群 教輔相伴 升階無憂 專屬學(xué)習(xí)交流圈 / 學(xué)習(xí)助手貼心督學(xué) / 授課專家論壇答疑 / 結(jié)業(yè)賽實踐效果檢驗 加入社群 課程專家介紹
上述命令中:modelFile指定生成的mindir模型文件;device指定運行推理的設(shè)備。其他用法請參考benchmark文檔。 測試結(jié)果如下所示: 圖1 測試結(jié)果 父主題: 性能調(diào)優(yōu)
停止訓(xùn)練作業(yè)版本 功能介紹 停止訓(xùn)練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 參數(shù)說明如表1所示。
訓(xùn)練最后一個epoch卡死 問題現(xiàn)象 通過日志查看數(shù)據(jù)切分是否對齊,如果未對齊,容易導(dǎo)致部分進程完成訓(xùn)練退出,而部分訓(xùn)練進程因未收到其他進程反饋卡死,如下圖同一時間有的進程在epoch48,而有的進程在epoch49。 loss exit lane:0.12314446270465851
訓(xùn)練作業(yè)性能降低 問題現(xiàn)象 使用ModelArts平臺訓(xùn)練算法訓(xùn)練耗時增加。 原因分析 可能存在如下原因: 平臺上的代碼經(jīng)過修改優(yōu)化、訓(xùn)練參數(shù)有過變更。 訓(xùn)練的GPU硬件工作出現(xiàn)異常。 處理方法 請您對作業(yè)代碼進行排查分析,確認是否對訓(xùn)練代碼和參數(shù)進行過修改。 檢查資源分配情況(
job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱 status Int 訓(xùn)練作業(yè)的運行狀態(tài),詳細作業(yè)狀態(tài)列表請查看作業(yè)狀態(tài)參考。 create_time Long 訓(xùn)練作業(yè)的創(chuàng)建時間,時間戳格式。 version_id Long 訓(xùn)練作業(yè)的版本ID。
查詢訓(xùn)練作業(yè)日志 功能介紹 按行來查詢訓(xùn)練作業(yè)日志詳細信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 參數(shù)說明如表1所示。 表1 路徑參數(shù) 參數(shù) 是否必選 參數(shù)類型
深度學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)的胃口很大,當你收集到足夠多帶標簽的數(shù)據(jù)構(gòu)成訓(xùn)練集時,算法效果最好,這導(dǎo)致很多團隊用盡一切辦法收集數(shù)據(jù),然后把它們堆到訓(xùn)練集里,讓訓(xùn)練的數(shù)據(jù)量更大,即使有些數(shù)據(jù),甚至是大部分數(shù)據(jù)都來自和開發(fā)集、測試集不同的分布。在深度學(xué)習(xí)時代,越來越多的團隊都用來自和開發(fā)集
一、環(huán)境及準備工作 CPU/GPU復(fù)現(xiàn)使用華為云ModelArts-CodeLab平臺 Ascend復(fù)現(xiàn)使用華為云ModelArts-開發(fā)環(huán)境-Notebook 原始Lenet代碼鏈接:https://gitee.com/lai-pengfei/LeNet 二、在CPU/GPU中運行原始代碼
訓(xùn)練benchmark工具 工具介紹及準備工作 訓(xùn)練性能測試 訓(xùn)練精度測試 父主題: 主流開源大模型基于Lite Server適配LlamaFactory PyTorch NPU訓(xùn)練指導(dǎo)(6.5.901)
PyTorch分布式訓(xùn)練 PyTorch 是一個 Python 優(yōu)先的深度學(xué)習(xí)框架,能夠在強大的 GPU 加速基礎(chǔ)上實現(xiàn)張量和動態(tài)神經(jīng)網(wǎng)絡(luò)。PyTorch的一大優(yōu)勢就是它的動態(tài)圖計算特性。 License :MIT License 官網(wǎng):http://pytorch
Variable來聲明來創(chuàng)建變量,它是會變的,在訓(xùn)練中學(xué)習(xí)到的,所以給它的初值是多少是無所謂的 然后就是怎么樣來訓(xùn)練模型了 訓(xùn)練模型就是一個不斷迭代不斷改進的過程 首先是訓(xùn)練參數(shù),也就是超參,一個是迭代次數(shù)train_epochs,這里設(shè)置為10,根據(jù)復(fù)雜情況,可能上萬次都可能的。一個是學(xué)習(xí)率learning_rate,這里默認為0
Object 會話對象,初始化方法請參考Session鑒權(quán)。 job_id 是 String 訓(xùn)練作業(yè)的id,可通過創(chuàng)建訓(xùn)練作業(yè)生成的訓(xùn)練作業(yè)對象查詢,如"job_instance.job_id",或從查詢訓(xùn)練作業(yè)列表的響應(yīng)中獲得。 表2 update_job_configs請求參數(shù)說明 參數(shù)
(RNN) 的正則化方法 Zoneout。Zoneout 在訓(xùn)練中隨機使用噪音,類似于 Dropout,但保留了隱藏的單元而不是丟棄。7.4 深度殘差學(xué)習(xí)He 等人 (2015) 提出了深度殘差學(xué)習(xí)框架,該框架被稱為低訓(xùn)練誤差的 ResNet。7.5 批歸一化Ioffe 和 Szegedy(2015)
code_dir+boot_file取訓(xùn)練作業(yè)的代碼目錄和啟動文件。 tasks Array of TaskResponse objects 異構(gòu)訓(xùn)練作業(yè)的任務(wù)列表。 spec spec object 訓(xùn)練作業(yè)規(guī)格參數(shù)。 表5 JobMetadata 參數(shù) 參數(shù)類型 描述 id String 訓(xùn)練作業(yè)ID,
刪除訓(xùn)練作業(yè)版本 功能介紹 刪除訓(xùn)練作業(yè)一個版本。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 參數(shù)說明如表1所示。
使用預(yù)置算法訓(xùn)練時,訓(xùn)練失敗,報“bndbox”錯誤 問題現(xiàn)象 使用預(yù)置算法創(chuàng)建訓(xùn)練作業(yè),訓(xùn)練失敗,日志中出現(xiàn)如下報錯。 KeyError: 'bndbox' 原因分析 用于訓(xùn)練的數(shù)據(jù)集中,使用了“非矩形框”標注。而預(yù)置使用算法不支持“非矩形框”標注的數(shù)據(jù)集。 處理方法 此問題有兩種解決方法:
外置算法文件”,參數(shù)填寫完畢后執(zhí)行4。 表1 新建訓(xùn)練算法 參數(shù) 說明 類型 訓(xùn)練算法的類型。 鏡像 + 外置算法文件:訓(xùn)練算法文件與鏡像獨立存在,創(chuàng)建訓(xùn)練算法時需選擇鏡像,并上傳準備好的訓(xùn)練算法文件,訓(xùn)練任務(wù)啟動時會把文件下載到容器中,并把算法根目錄作為工作目錄。 僅鏡像(包含算法文件):訓(xùn)練算法文件包含在鏡像