檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
外網(wǎng)訪問限制 日志提示“ Network is unreachable” 運行訓練作業(yè)時提示URL連接超時 父主題: 訓練作業(yè)
7-aarch64-snt3p 構建自定義訓練鏡像 圖1 訓練作業(yè)的自定義鏡像制作流程 場景一:預置鏡像滿足ModelArts訓練平臺約束,但不滿足代碼依賴的要求,需要額外安裝軟件包。 具體案例參考使用預置鏡像制作自定義鏡像用于訓練模型。 場景二:已有本地鏡像滿足代碼依賴的要求,
transfer_to_npu 將預訓練模型指定為實際下載路徑。 開始訓練。 單卡訓練啟動方式: torchrun --nnodes=1 --nproc_per_node=1 train.py --model DiT-XL/2 --data-path imagenet/train --global-batch-size
獲取訓練作業(yè)支持的AI預置框架 - ShowTrainingJobEngines 功能介紹 獲取訓練作業(yè)支持的AI預置框架接口用于查詢當前系統(tǒng)中支持的AI預置框架列表。 該接口適用于以下場景:當用戶需要了解系統(tǒng)中可用的AI預置框架,以便在創(chuàng)建訓練作業(yè)時選擇合適的框架時,可以通過此
更好地管理和優(yōu)化訓練過程。 約束限制 訓練大盤監(jiān)控最多支持查看近1年的監(jiān)控數(shù)據(jù)。 訓練作業(yè)概覽 訓練作業(yè)概覽模塊提供作業(yè)總數(shù)、當前資源請求量及各狀態(tài)作業(yè)數(shù)量的全局視圖,便于快速掌握訓練整體狀況與資源負荷。 指標名稱 說明 作業(yè)總數(shù) 賬號在當前工作空間下所有訓練作業(yè)的總數(shù),展示整體作業(yè)規(guī)模。
查看訓練作業(yè)標簽 通過給訓練作業(yè)添加標簽,可以標識云資源,便于快速搜索訓練作業(yè)。 在ModelArts管理控制臺的左側導航欄中選擇“模型訓練 > 訓練作業(yè)”。 在訓練作業(yè)列表中,單擊作業(yè)名稱進入訓練作業(yè)詳情頁面。 在訓練作業(yè)詳情頁面,單擊“標簽”頁簽查看標簽信息。 支持添加、修改
模型訓練高可靠性 訓練作業(yè)容錯檢查 訓練日志失敗分析 訓練作業(yè)卡死檢測 訓練作業(yè)卡死重啟 設置斷點續(xù)訓練 設置無條件自動重啟 配置算子重執(zhí)行 訓練容器生命周期 父主題: 使用ModelArts Standard訓練模型
增加訓練數(shù)據(jù)作用不大。 欠擬合一般是因為模型的學習能力不足,一味地增加數(shù)據(jù),訓練效果并不明顯。 降低正則化約束。 正則化約束是為了防止模型過擬合,如果模型壓根不存在過擬合而是欠擬合了,那么就考慮是否降低正則化參數(shù)λ或者直接去除正則化項。 父主題: Standard模型訓練
AI平臺層提供端到端的AI開發(fā)工具鏈,支持開發(fā)者一站式完成模型開發(fā)和上線,并提供高效的資源管理能力,支持自動化故障恢復,提升AI模型開發(fā)、訓練、上線全流程效率。 AI開發(fā)工具鏈層提供端到端的大模型開發(fā)工具鏈,支持主流優(yōu)質開源大模型“開箱即用”,提供大模型開發(fā)套件,提升大模型開發(fā)效率并縮短開發(fā)周期。
Standard運行訓練作業(yè) 在ModelArts Standard上運行訓練作業(yè)的場景介紹 在ModelArts Standard運行訓練作業(yè)的準備工作 在ModelArts Standard上運行單機單卡訓練作業(yè) 在ModelArts Standard上運行單機多卡訓練作業(yè) 在ModelArts
訓練作業(yè)性能問題 訓練作業(yè)性能降低 父主題: 訓練作業(yè)
訓練作業(yè) OBS操作相關故障 云上遷移適配故障 硬盤限制故障 外網(wǎng)訪問限制 權限問題 GP相關問題 業(yè)務代碼問題 預置算法運行故障 訓練作業(yè)卡死 訓練作業(yè)運行失敗 專屬資源池創(chuàng)建訓練作業(yè) 訓練作業(yè)性能問題 Ascend相關問題
查詢訓練作業(yè)標簽 - ShowTrainJobTags 功能介紹 查詢訓練作業(yè)標簽接口用于獲取已存在的訓練作業(yè)上的標簽信息。 該接口適用于以下場景:當用戶需要查看訓練作業(yè)的標簽以進行分類、標記或管理時,可以通過此接口查詢指定訓練作業(yè)的標簽列表。使用該接口的前提條件是訓練作業(yè)已存在
用戶還可以創(chuàng)建訓練作業(yè)的數(shù)量。 jobs jobs結構數(shù)組 訓練作業(yè)的屬性列表,具體請參見表4。 quotas Integer 訓練作業(yè)的運行數(shù)量上限。 表4 jobs屬性列表 參數(shù) 參數(shù)類型 說明 job_id Long 訓練作業(yè)的ID。 job_name String 訓練作業(yè)的名稱。
在ModelArts中訓練好的模型如何獲取? 使用自定義算法或者訂閱算法訓練生成的模型,會存儲至用戶指定的OBS路徑中,供用戶下載。 父主題: Standard模型訓練
訓練日志包括普通訓練日志和Ascend相關日志。 普通日志說明:當使用Ascend之外的資源訓練時僅產(chǎn)生普通訓練日志,普通日志中包含訓練進程日志、pip-requirement.txt安裝日志和ModelArts平臺日志。 Ascend場景日志說明:使用Ascend資源訓練時會產(chǎn)
假設用戶于2023年4月1日10:00:00創(chuàng)建了一個使用專屬資源池的訓練作業(yè),并在11:00:00停止運行。按照存儲費用結算,那么運行這個訓練作業(yè)的費用計算如下: 存儲費用:訓練的數(shù)據(jù)通過對象存儲服務(OBS)上傳或導出,存儲計費按照OBS的計費規(guī)則。 綜上,訓練作業(yè)的運行費用 = 存儲費用 父主題: 計費項(ModelArts
如何在ModelArts訓練作業(yè)中加載部分訓練好的參數(shù)? 在訓練作業(yè)時,需要從預訓練的模型中加載部分參數(shù),初始化當前模型。請您通過如下方式加載: 通過如下代碼,您可以查看所有的參數(shù)。 from moxing.tensorflow.utils.hyper_param_flags import
訓練作業(yè)卡死重啟 當長穩(wěn)的訓練作業(yè)正常運行一段時間后,如果訓練作業(yè)沒有硬件故障,出現(xiàn)卡死時,重啟訓練作業(yè)即可恢復正常。但是,由于訓練作業(yè)卡死時無法自動結束容器,因此無法使用自動重啟功能,只能設置作業(yè)卡死重啟。當訓練作業(yè)設置為作業(yè)卡死重啟時,ModelArts會在作業(yè)運行過程中檢測
案例:DiT模型訓練遷移 場景介紹及環(huán)境準備 訓練遷移適配 精度對齊 性能調(diào)優(yōu) 父主題: GPU業(yè)務遷移至昇騰訓練推理