檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
平臺介紹 企業(yè)數(shù)字化轉(zhuǎn)型面臨的挑戰(zhàn) 企業(yè)在進行數(shù)據(jù)管理時,通常會遇到下列挑戰(zhàn)。 數(shù)據(jù)治理的挑戰(zhàn) 缺乏企業(yè)數(shù)據(jù)體系標準和數(shù)據(jù)規(guī)范定義的方法論,數(shù)據(jù)語言不統(tǒng)一。 缺乏面向普通業(yè)務(wù)人員的高效、準確的數(shù)據(jù)搜索工具,數(shù)據(jù)找不到。
平臺介紹 企業(yè)數(shù)字化轉(zhuǎn)型面臨的挑戰(zhàn) 企業(yè)在進行數(shù)據(jù)管理時,通常會遇到下列挑戰(zhàn)。 數(shù)據(jù)治理的挑戰(zhàn) 缺乏企業(yè)數(shù)據(jù)體系標準和數(shù)據(jù)規(guī)范定義的方法論,數(shù)據(jù)語言不統(tǒng)一。 缺乏面向普通業(yè)務(wù)人員的高效、準確的數(shù)據(jù)搜索工具,數(shù)據(jù)找不到。
持不變。 圖1 啟動命令 當訓練作業(yè)執(zhí)行完成后,在訓練作業(yè)詳情頁面中查看“日志”。日志中即為所有的環(huán)境變量信息。 圖2 查看日志 通過CloudShell查看訓練環(huán)境變量 在CloudShell中,使用命令env獲取環(huán)境變量。 這種方式無法獲取訓練平臺在進程中注入的環(huán)境變量(如超
建議與總結(jié) 在創(chuàng)建訓練作業(yè)前,推薦您先使用ModelArts開發(fā)環(huán)境調(diào)試訓練代碼,避免代碼遷移過程中的錯誤。 直接使用線上notebook環(huán)境調(diào)試請參考使用JupyterLab開發(fā)模型。 配置本地IDE(Pycharm或者VSCode)聯(lián)接云上環(huán)境調(diào)試請參考使用本地IDE開發(fā)模型。 父主題:
平臺介紹 媒體處理(Media Processing Center,簡稱MPC)是一種多媒體數(shù)據(jù)處理服務(wù),通過經(jīng)濟、彈性和高可擴展的轉(zhuǎn)換方法,將存儲于OBS上的音視頻轉(zhuǎn)碼為適應(yīng)各種終端(PC、TV、Phone等)播放的格式,并實現(xiàn)抽幀截圖、圖片水印、內(nèi)容質(zhì)檢、視頻加密
查看模型評估結(jié)果 訓練作業(yè)運行結(jié)束后,ModelArts可為您的模型進行評估,并且給出調(diào)優(yōu)診斷和建議。 針對使用預(yù)置算法創(chuàng)建訓練作業(yè),無需任何配置,即可查看此評估結(jié)果(由于每個模型情況不同,系統(tǒng)將自動根據(jù)您的模型指標情況,給出一些調(diào)優(yōu)建議,請仔細閱讀界面中的建議和指導(dǎo),對您的模型進行進一步的調(diào)優(yōu))。
在ModelArts上如何提升訓練效率并減少與OBS的交互? 場景描述 在使用ModelArts進行自定義深度學習訓練時,訓練數(shù)據(jù)通常存儲在對象存儲服務(wù)(OBS)中,且訓練數(shù)據(jù)較大時(如200GB以上),每次都需要使用GP資源池進行訓練,且訓練效率低。 希望提升訓練效率,同時減少與對象存
在ModelArts訓練代碼中,如何獲取依賴文件所在的路徑? 由于用戶本地開發(fā)的代碼需要上傳至ModelArts后臺,訓練代碼中涉及到依賴文件的路徑時,用戶設(shè)置有誤的場景較多。因此推薦通用的解決方案:使用os接口得到依賴文件的絕對路徑,避免報錯。 以下示例展示如何通過os接口獲得其他文件夾下的依賴文件路徑。
訓練腳本說明 訓練腳本存放目錄說明 不同模型推薦的參數(shù)與NPU卡數(shù)設(shè)置 訓練tokenizer文件說明 父主題: Qwen-VL模型基于Standard+OBS適配PyTorch NPU訓練指導(dǎo)(6.3.912)
named npu_bridge.npu_init 檢查下訓練作業(yè)使用的規(guī)格是否支持NPU,有可能是訓練時使用了GPU規(guī)格,導(dǎo)致發(fā)生了NPU相關(guān)調(diào)用報錯。 建議與總結(jié) 在創(chuàng)建訓練作業(yè)前,推薦您先使用ModelArts開發(fā)環(huán)境調(diào)試訓練代碼,避免代碼遷移過程中的錯誤。 直接使用線上note
主流開源大模型基于ModelArts Standard&Lite Server適配AscendFactory PyTorch NPU訓練指導(dǎo)(6.5.902) 方案概述 支持的模型列表 版本說明和要求 準備工作 執(zhí)行訓練任務(wù) 訓練結(jié)果輸出 訓練服務(wù)評測 訓練服務(wù)配置說明 常見錯誤原因和解決方法
權(quán)限問題 訓練作業(yè)訪問OBS時,日志提示“stat:403 reason:Forbidden” 日志提示"Permission denied" 父主題: 訓練作業(yè)
/mnt/sfs_turbo 在ECS中設(shè)置ModelArts用戶可讀權(quán)限 在ModelArts訓練平臺使用自定義鏡像時,默認用戶為ma-user、默認用戶組為ma-group。如果在訓練時調(diào)用ECS中的文件,需要修改文件權(quán)限改為ma-user可讀,否則會出現(xiàn)Permission denied錯誤。
創(chuàng)建訓練作業(yè) 功能介紹 創(chuàng)建一個訓練作業(yè)。 該接口為異步接口,作業(yè)狀態(tài)請通過查詢訓練作業(yè)列表和查詢訓練作業(yè)版本詳情接口獲取。 URI POST /v1/{project_id}/training-jobs 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型 說明 project_id
調(diào)用查詢訓練作業(yè)詳情接口使用剛創(chuàng)建的訓練作業(yè)返回的id查詢訓練作業(yè)狀態(tài)。 調(diào)用查詢訓練作業(yè)指定任務(wù)的日志(OBS鏈接)接口獲取訓練作業(yè)日志的對應(yīng)的obs路徑。 調(diào)用查詢訓練作業(yè)指定任務(wù)的運行指標接口查看訓練作業(yè)的運行指標詳情。 當訓練作業(yè)使用完成或不再需要時,調(diào)用刪除訓練作業(yè)接口刪除訓練作業(yè)。 前提條件
yaml相對或絕對路徑 <model_name>:訓練模型名,如qwen2.5-7b <exp_name>:實驗名稱:包含訓練策略類型及數(shù)據(jù)序列長度:【lora:4096-lora、full:4096-full】 訓練完成后,test-benchmark目錄下會生成訓練日志及NPU利用率日志及權(quán)重文件,如qwen2
刪除訓練作業(yè) 功能介紹 刪除訓練作業(yè)。 此接口為異步接口,作業(yè)狀態(tài)請通過查詢訓練作業(yè)列表和查詢訓練作業(yè)版本詳情接口獲取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 參數(shù)說明如表1所示。 表1 參數(shù)說明 參數(shù) 是否必選 參數(shù)類型
ModelArts訓練作業(yè)為什么存在/work和/ma-user兩種超參目錄? 問題描述 創(chuàng)建訓練作業(yè)時,輸入輸出參數(shù)的超參目錄有的是/work,有的是/ma-user。 圖1 目錄是/ma-user 圖2 目錄是/work 解決方案 這是創(chuàng)建訓練作業(yè)選用的算法有差異導(dǎo)致的。 如
ModelArts Standard 準備資源 準備數(shù)據(jù)、權(quán)重和代碼 準備鏡像 父主題: 準備工作
、創(chuàng)建訓練任務(wù)及性能查看。 LoRA微調(diào)訓練 介紹如何進行LoRA微調(diào)訓練,包括訓練數(shù)據(jù)處理、超參配置、創(chuàng)建訓練任務(wù)及性能查看。 父主題: Qwen-VL模型基于Standard+OBS適配PyTorch NPU訓練指導(dǎo)(6.3.912)