檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
分布式模型訓(xùn)練 分布式訓(xùn)練功能介紹 創(chuàng)建單機(jī)多卡的分布式訓(xùn)練(DataParallel) 創(chuàng)建多機(jī)多卡的分布式訓(xùn)練(DistributedDataParallel) 示例:創(chuàng)建DDP分布式訓(xùn)練(PyTorch+GPU) 示例:創(chuàng)建DDP分布式訓(xùn)練(PyTorch+NPU) 父主題:
Standard運(yùn)行訓(xùn)練作業(yè) 在ModelArts Standard上運(yùn)行訓(xùn)練作業(yè)的場(chǎng)景介紹 在ModelArts Standard運(yùn)行訓(xùn)練作業(yè)的準(zhǔn)備工作 在ModelArts Standard上運(yùn)行單機(jī)單卡訓(xùn)練作業(yè) 在ModelArts Standard上運(yùn)行單機(jī)多卡訓(xùn)練作業(yè) 在ModelArts
在ModelArts中訓(xùn)練好的模型如何獲??? 使用自定義算法或者訂閱算法訓(xùn)練生成的模型,會(huì)存儲(chǔ)至用戶指定的OBS路徑中,供用戶下載。 父主題: Standard模型訓(xùn)練
假設(shè)用戶于2023年4月1日10:00:00創(chuàng)建了一個(gè)使用專屬資源池的訓(xùn)練作業(yè),并在11:00:00停止運(yùn)行。按照存儲(chǔ)費(fèi)用結(jié)算,那么運(yùn)行這個(gè)訓(xùn)練作業(yè)的費(fèi)用計(jì)算如下: 存儲(chǔ)費(fèi)用:訓(xùn)練的數(shù)據(jù)通過對(duì)象存儲(chǔ)服務(wù)(OBS)上傳或?qū)С?,存?chǔ)計(jì)費(fèi)按照OBS的計(jì)費(fèi)規(guī)則。 綜上,訓(xùn)練作業(yè)的運(yùn)行費(fèi)用 = 存儲(chǔ)費(fèi)用 父主題: 計(jì)費(fèi)項(xiàng)(ModelArts
案例:Dit模型訓(xùn)練遷移 場(chǎng)景介紹及環(huán)境準(zhǔn)備 訓(xùn)練遷移適配 精度對(duì)齊 性能調(diào)優(yōu) 父主題: GPU業(yè)務(wù)遷移至?xí)N騰訓(xùn)練推理
訓(xùn)練作業(yè)流程可視化 場(chǎng)景描述 在機(jī)器學(xué)習(xí)訓(xùn)練過程中,用戶通常需要監(jiān)控訓(xùn)練作業(yè)的執(zhí)行狀態(tài)。然而,傳統(tǒng)的監(jiān)控方式往往難以提供全面的作業(yè)運(yùn)行信息,導(dǎo)致用戶無法及時(shí)掌握訓(xùn)練進(jìn)度。通過作業(yè)流程可視化功能模塊,用戶可以實(shí)時(shí)查看訓(xùn)練作業(yè)的詳細(xì)運(yùn)行狀態(tài)。該功能支持多維度的信息展示,包括作業(yè)調(diào)度情
修改訓(xùn)練作業(yè)優(yōu)先級(jí) 使用專屬資源池訓(xùn)練作業(yè)時(shí),支持在創(chuàng)建訓(xùn)練作業(yè)時(shí)設(shè)置任務(wù)優(yōu)先級(jí),也支持作業(yè)在長(zhǎng)時(shí)間處于“等待中”的狀態(tài)時(shí)調(diào)整優(yōu)先級(jí)。如通過調(diào)整作業(yè)優(yōu)先級(jí)可以減少作業(yè)的排隊(duì)時(shí)長(zhǎng)。 什么是訓(xùn)練作業(yè)優(yōu)先級(jí) 在用戶運(yùn)行訓(xùn)練作業(yè)過程中,需要對(duì)訓(xùn)練作業(yè)做優(yōu)先級(jí)劃分。比如有一些任務(wù)是低優(yōu)先級(jí)
查看訓(xùn)練作業(yè)監(jiān)控指標(biāo) 在訓(xùn)練作業(yè)運(yùn)行過程中,如果用戶能在模型訓(xùn)練出問題(例如loss值異常)的情況下能收到告警并及時(shí)處理,可以節(jié)省大量時(shí)間和資源,避免無效運(yùn)行作業(yè)導(dǎo)致的浪費(fèi)。同時(shí)通過指標(biāo)監(jiān)控可以實(shí)時(shí)掌握訓(xùn)練作業(yè)的進(jìn)度,了解模型在不同階段的訓(xùn)練狀態(tài)。 當(dāng)前ModelArts Sta
當(dāng)對(duì)創(chuàng)建的訓(xùn)練作業(yè)不滿意時(shí),您可以單擊操作列的復(fù)制,重新創(chuàng)建訓(xùn)練作業(yè)。在重創(chuàng)訓(xùn)練作業(yè)頁面,會(huì)自動(dòng)填入上一次訓(xùn)練作業(yè)設(shè)置的參數(shù),您僅需在原來的基礎(chǔ)上進(jìn)行修改即可重新創(chuàng)建訓(xùn)練作業(yè)。 停止訓(xùn)練作業(yè) 在訓(xùn)練作業(yè)列表中,針對(duì)“創(chuàng)建中”、“等待中”、“運(yùn)行中”的訓(xùn)練作業(yè),您可以單擊“操作”列的“終止”
創(chuàng)建訓(xùn)練作業(yè) 示例代碼 在ModelArts notebook平臺(tái),Session鑒權(quán)無需輸入鑒權(quán)參數(shù)。其它平臺(tái)的Session鑒權(quán)請(qǐng)參見Session鑒權(quán)。 ModelArts SDK不支持通過在AI Gallery中訂閱的算法創(chuàng)建訓(xùn)練作業(yè)。 示例一:提交常用框架訓(xùn)練作業(yè) Es
因運(yùn)行時(shí)間到期停止,將導(dǎo)致鏡像保存失敗。 鏡像保存成功后,用戶可在創(chuàng)建訓(xùn)練作業(yè)時(shí)選擇已保存的鏡像。 常見問題 當(dāng)鏡像保存失敗時(shí)如何處理? 當(dāng)鏡像保存失敗時(shí),請(qǐng)?jiān)?span id="vp5dxlp" class='cur'>訓(xùn)練作業(yè)詳情頁查看事件,事件描述請(qǐng)參考查看訓(xùn)練作業(yè)事件。 如使用的是專屬資源池,可嘗試在“資源管理 > 輕量算力集群(Lite
transfer_to_npu 將預(yù)訓(xùn)練模型指定為實(shí)際下載路徑。 開始訓(xùn)練。 單卡訓(xùn)練啟動(dòng)方式: torchrun --nnodes=1 --nproc_per_node=1 train.py --model DiT-XL/2 --data-path imagenet/train --global-batch-size
訓(xùn)練作業(yè)卡死 訓(xùn)練作業(yè)卡死檢測(cè)定位 復(fù)制數(shù)據(jù)卡死 訓(xùn)練前卡死 訓(xùn)練中途卡死 訓(xùn)練最后一個(gè)epoch卡死 父主題: 訓(xùn)練作業(yè)
支持查看整個(gè)訓(xùn)練周期內(nèi)的監(jiān)控?cái)?shù)據(jù),具體數(shù)據(jù)參見表1。 訓(xùn)練作業(yè)的資源占用情況系統(tǒng)會(huì)自動(dòng)保存30天,過期會(huì)被清除。 如何查看訓(xùn)練作業(yè)資源使用詳情 在ModelArts管理控制臺(tái)的左側(cè)導(dǎo)航欄中選擇“模型訓(xùn)練 > 訓(xùn)練作業(yè)”。 在訓(xùn)練作業(yè)列表中,單擊作業(yè)名稱進(jìn)入訓(xùn)練作業(yè)詳情頁面。 在訓(xùn)練作業(yè)詳情頁面,單擊“監(jiān)控”頁簽查看訓(xùn)
node_count Integer 訓(xùn)練作業(yè)選擇的資源副本數(shù)。 最小值:1 pool_id String 訓(xùn)練作業(yè)選擇的資源池ID。 flavor_detail flavor_detail object 訓(xùn)練作業(yè)、算法的規(guī)格信息。 表43 flavor_detail 參數(shù) 參數(shù)類型 描述 flavor_type
如何查看ModelArts訓(xùn)練作業(yè)資源占用情況? 在ModelArts管理控制臺(tái),選擇“模型訓(xùn)練>訓(xùn)練作業(yè)”,進(jìn)入訓(xùn)練作業(yè)列表頁面。在訓(xùn)練作業(yè)列表中,單擊目標(biāo)作業(yè)名稱,查看該作業(yè)的詳情。您可以在“資源占用情況”頁簽查看到如下指標(biāo)信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。
模型訓(xùn)練高可靠性 訓(xùn)練作業(yè)容錯(cuò)檢查 訓(xùn)練日志失敗分析 訓(xùn)練作業(yè)卡死檢測(cè) 訓(xùn)練作業(yè)卡死重啟 設(shè)置斷點(diǎn)續(xù)訓(xùn)練 設(shè)置無條件自動(dòng)重啟 父主題: 使用ModelArts Standard訓(xùn)練模型
增加訓(xùn)練數(shù)據(jù)作用不大。 欠擬合一般是因?yàn)?span id="h7bdpdp" class='cur'>模型的學(xué)習(xí)能力不足,一味地增加數(shù)據(jù),訓(xùn)練效果并不明顯。 降低正則化約束。 正則化約束是為了防止模型過擬合,如果模型壓根不存在過擬合而是欠擬合了,那么就考慮是否降低正則化參數(shù)λ或者直接去除正則化項(xiàng)。 父主題: Standard模型訓(xùn)練
訓(xùn)練作業(yè) 創(chuàng)建訓(xùn)練作業(yè) 訓(xùn)練作業(yè)調(diào)測(cè) 查詢訓(xùn)練作業(yè)列表 查詢訓(xùn)練作業(yè)詳情 更新訓(xùn)練作業(yè)描述 刪除訓(xùn)練作業(yè) 終止訓(xùn)練作業(yè) 查詢訓(xùn)練日志 查詢訓(xùn)練作業(yè)的運(yùn)行指標(biāo) 父主題: 訓(xùn)練管理
AI開發(fā)平臺(tái)ModelArts入門 AI平臺(tái)ModelArts入門 面向開發(fā)者的一站式AI開發(fā)平臺(tái),可快速創(chuàng)建和部署模型,管理全周期AI工作流,助力千行百業(yè)智能升級(jí) 面向開發(fā)者的一站式AI開發(fā)平臺(tái),可快速創(chuàng)建和部署模型,管理全周期AI工作流,助力千行百業(yè)智能升級(jí) 購買 控制臺(tái) 專家咨詢