檢測到您已登錄華為云國際站賬號,為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
刪除訓(xùn)練作業(yè)版本 功能介紹 刪除訓(xùn)練作業(yè)一個(gè)版本。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓(xùn)練作業(yè)列表和查詢訓(xùn)練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 參數(shù)說明如表1所示。
而更好地管理和優(yōu)化訓(xùn)練過程。 約束限制 訓(xùn)練大盤監(jiān)控最多支持查看近1年的監(jiān)控?cái)?shù)據(jù)。 訓(xùn)練作業(yè)概覽 訓(xùn)練作業(yè)概覽模塊提供作業(yè)總數(shù)、當(dāng)前資源請求量及各狀態(tài)作業(yè)數(shù)量的全局視圖,便于快速掌握訓(xùn)練整體狀況與資源負(fù)荷。 指標(biāo)名稱 說明 作業(yè)總數(shù) 賬號在當(dāng)前工作空間下所有訓(xùn)練作業(yè)的總數(shù),展示整體作業(yè)規(guī)模。
code_dir+boot_file取訓(xùn)練作業(yè)的代碼目錄和啟動(dòng)文件。 tasks Array of TaskResponse objects 異構(gòu)訓(xùn)練作業(yè)的任務(wù)列表。 spec spec object 訓(xùn)練作業(yè)規(guī)格參數(shù)。 表5 JobMetadata 參數(shù) 參數(shù)類型 描述 id String 訓(xùn)練作業(yè)ID,
job_id Long 訓(xùn)練作業(yè)的ID。 job_name String 訓(xùn)練作業(yè)的名稱 status Int 訓(xùn)練作業(yè)的運(yùn)行狀態(tài),詳細(xì)作業(yè)狀態(tài)列表請參見作業(yè)狀態(tài)參考。 create_time Long 訓(xùn)練作業(yè)的創(chuàng)建時(shí)間,時(shí)間戳格式。 version_id Long 訓(xùn)練作業(yè)的版本ID。
訓(xùn)練作業(yè)卡死檢測定位 什么是訓(xùn)練作業(yè)卡死檢測 訓(xùn)練作業(yè)在運(yùn)行中可能會(huì)因?yàn)槟承┪粗驅(qū)е伦鳂I(yè)卡死,如果不能及時(shí)發(fā)現(xiàn),就會(huì)導(dǎo)致無法及時(shí)釋放資源,從而造成極大的資源浪費(fèi)。為了節(jié)省訓(xùn)練資源成本,提高使用體驗(yàn),ModelArts提供了卡死檢測功能,能自動(dòng)識別作業(yè)是否卡死,并在日志詳情界面
更新訓(xùn)練作業(yè)描述 功能介紹 更新訓(xùn)練作業(yè)的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id 是 String 用戶項(xiàng)目ID。獲取方法請參見獲取項(xiàng)目ID和名稱。
真實(shí)攻防模擬:基于最新釣魚攻擊案例動(dòng)態(tài)更新模板庫,覆蓋仿冒內(nèi)部通知、BEC詐騙等場景,實(shí)現(xiàn)高仿真訓(xùn)練,驅(qū)動(dòng)行為轉(zhuǎn)化:員工中招后即時(shí)展示釣魚破綻(如發(fā)件人偽造、惡意鏈接),通過針對性訓(xùn)練形成肌肉記憶
形象訓(xùn)練 本節(jié)演示如何通過API Explorer和Postman工具,將形象訓(xùn)練素材上傳至OBS桶并提交形象訓(xùn)練任務(wù)。 總體流程 調(diào)用創(chuàng)建分身數(shù)字人模型訓(xùn)練任務(wù)接口創(chuàng)建任務(wù)ID和文件上傳鏈接。 使用Postman工具,將文件上傳至URL地址中。 調(diào)用租戶執(zhí)行分身數(shù)字人模型訓(xùn)練任務(wù)
在ModelArts上訓(xùn)練模型如何配置輸入輸出數(shù)據(jù)? ModelArts支持用戶上傳自定義算法創(chuàng)建訓(xùn)練作業(yè)。上傳自定義算法前,請完成創(chuàng)建算法并上傳至OBS桶。創(chuàng)建算法請參考開發(fā)用于預(yù)置框架訓(xùn)練的代碼。創(chuàng)建訓(xùn)練作業(yè)請參考創(chuàng)建訓(xùn)練作業(yè)指導(dǎo)。 解析輸入路徑參數(shù)、輸出路徑參數(shù) 運(yùn)行在Mo
訓(xùn)練任務(wù) Octopus平臺為用戶提供訓(xùn)練任務(wù)管理(支持分布式訓(xùn)練),任務(wù)實(shí)時(shí)日志,產(chǎn)物(模型)管理等多種功能。 創(chuàng)建訓(xùn)練任務(wù) 在左側(cè)菜單欄中選擇“訓(xùn)練服務(wù) > 訓(xùn)練任務(wù)”。 單擊“新建訓(xùn)練任務(wù)”,填寫基本信息。 名稱:任務(wù)組名稱,包含中英文、數(shù)字、“_”“-”,不得超過64個(gè)字符。
高級版、專業(yè)版、旗艦版機(jī)器人支持問答模型訓(xùn)練。 您可通過添加更多擴(kuò)展問或改用其他類型的模型來提高指標(biāo)。包含以下三種訓(xùn)練模型: 默認(rèn)模型:修改知識庫內(nèi)容后自動(dòng)生效。 輕量級深度學(xué)習(xí)模型:修改知識庫內(nèi)容后需訓(xùn)練模型發(fā)布生效。 重量級深度學(xué)習(xí)模型:修改少量知識庫內(nèi)容無需重新訓(xùn)練發(fā)布,但會(huì)導(dǎo)致問答變慢,
云ModelArts平臺訓(xùn)練的模型,提供云上管理平臺、豐富的技能市場和開發(fā)者工具與插件,幫助用戶高效開發(fā)AI應(yīng)用,并將其部署到多種端側(cè)計(jì)算設(shè)備運(yùn)行和在線管理。 華為HiLens為端云協(xié)同AI應(yīng)用開發(fā)與運(yùn)行管理平臺,支持部署華為云ModelArts平臺訓(xùn)練的模型,提供云上管理平臺、
如何在ModelArts訓(xùn)練作業(yè)中加載部分訓(xùn)練好的參數(shù)? 在訓(xùn)練作業(yè)時(shí),需要從預(yù)訓(xùn)練的模型中加載部分參數(shù),初始化當(dāng)前模型。請您通過如下方式加載: 通過如下代碼,您可以查看所有的參數(shù)。 from moxing.tensorflow.utils.hyper_param_flags import
外置算法文件”,參數(shù)填寫完畢后執(zhí)行4。 表1 新建訓(xùn)練算法 參數(shù) 說明 類型 訓(xùn)練算法的類型。 鏡像 + 外置算法文件:訓(xùn)練算法文件與鏡像獨(dú)立存在,創(chuàng)建訓(xùn)練算法時(shí)需選擇鏡像,并上傳準(zhǔn)備好的訓(xùn)練算法文件,訓(xùn)練任務(wù)啟動(dòng)時(shí)會(huì)把文件下載到容器中,并把算法根目錄作為工作目錄。 僅鏡像(包含算法文件):訓(xùn)練算法文件包含在鏡像
處理整個(gè)訓(xùn)練集。 其在更新參數(shù)時(shí)使用所有的樣本來進(jìn)行更新。對整個(gè)訓(xùn)練集進(jìn)行梯度下降法的時(shí)候,我們必須處理整個(gè)訓(xùn)練數(shù)據(jù)集,然后才能進(jìn)行一步梯度下降,即每一步梯度下降法需要對整個(gè)訓(xùn)練集進(jìn)行一次處理,如果訓(xùn)練數(shù)據(jù)集很大的時(shí)候,處理速度就會(huì)比較慢。 所以換一種方式,每次處理訓(xùn)練數(shù)據(jù)的一部
址。需要排查訓(xùn)練代碼中是否有設(shè)置NCCL_SOCKET_IFNAME環(huán)境變量,該環(huán)境變量由系統(tǒng)自動(dòng)注入,訓(xùn)練代碼中無需設(shè)置。訓(xùn)練代碼去除NCCL_SOCKET_IFNAME環(huán)境變量設(shè)置邏輯后,單擊右側(cè)“復(fù)制”,重新創(chuàng)建訓(xùn)練作業(yè),提交訓(xùn)練作業(yè)后等待作業(yè)完成。 等待訓(xùn)練作業(yè)是否變成“已完成”狀態(tài)。
訓(xùn)練作業(yè)創(chuàng)建失敗報(bào)錯(cuò): 準(zhǔn)備階段超時(shí)??赡茉蚴强鐓^(qū)域算法同步或者創(chuàng)建共享存儲超時(shí) 訓(xùn)練作業(yè)已排隊(duì),正在等待資源分配 訓(xùn)練作業(yè)排隊(duì)失敗 訓(xùn)練作業(yè)開始運(yùn)行 訓(xùn)練作業(yè)運(yùn)行成功 訓(xùn)練作業(yè)運(yùn)行失敗 訓(xùn)練作業(yè)被搶占 系統(tǒng)檢測到您的作業(yè)疑似卡死,請及時(shí)前往作業(yè)詳情界面查看并處理 訓(xùn)練作業(yè)已重啟
準(zhǔn)備工作 參考benchmark-準(zhǔn)備工作,開始訓(xùn)練測試,具體步驟參考訓(xùn)練性能測試或訓(xùn)練精度測試,根據(jù)實(shí)際情況決定。 父主題: 訓(xùn)練benchmark工具
構(gòu)建增量預(yù)訓(xùn)練數(shù)據(jù)集 獲取源數(shù)據(jù) 金融領(lǐng)域增量預(yù)訓(xùn)練所需要的數(shù)據(jù)主要包含通用預(yù)訓(xùn)練數(shù)據(jù)和金融行業(yè)預(yù)訓(xùn)練數(shù)據(jù)。本案例推薦的開源數(shù)據(jù)集如下: 通用中文預(yù)訓(xùn)練數(shù)據(jù)(CCI 3.0-HQ): 基于CCI 3.0語料庫,BAAI進(jìn)一步進(jìn)行加工,通過兩階段混合過濾管道開發(fā),顯著提升了數(shù)據(jù)質(zhì)量
torch_npu from torch_npu.contrib import transfer_to_npu 將預(yù)訓(xùn)練模型指定為實(shí)際下載路徑。 開始訓(xùn)練。 單卡訓(xùn)練啟動(dòng)方式: torchrun --nnodes=1 --nproc_per_node=1 train.py --model