檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
科學計算大模型微調(diào)典型問題見表1。 表1 科學計算大模型微調(diào)典型問題 問題 可能原因 解決方法 預(yù)訓練或微調(diào)作業(yè)失敗,提示訓練集數(shù)據(jù)不足。 訓練集選取時間區(qū)段是否不足。 訓練集選擇的時間區(qū)段需要至少超過模型分辨率對應(yīng)時長。 預(yù)訓練或微調(diào)作業(yè)失敗,提示驗證集數(shù)據(jù)不足。 驗證集選取時間區(qū)段是否不足。 驗證集
精度調(diào)試 精度問題概述 精度調(diào)優(yōu)總體思路 精度調(diào)優(yōu)前準備工作 msprobe精度分析工具使用指導 父主題: 訓練遷移指導(PyTorch)
圖2 訓練結(jié)果頁面 填寫資產(chǎn)名稱、描述,選擇對應(yīng)的可見性,單擊“確定”發(fā)布模型。 發(fā)布后的模型會作為模型資產(chǎn)同步顯示在“空間資產(chǎn) > 模型”列表中。 通過預(yù)訓練發(fā)布的模型,支持再次進行訓練、模型部署。 通過微調(diào)發(fā)布的模型,支持再次微調(diào)、強化學習及部署。 父主題: 訓練NLP大模型
發(fā)布訓練后的CV大模型 CV大模型訓練完成后,需要執(zhí)行發(fā)布操作,操作步驟如下: 登錄ModelArts Studio大模型開發(fā)平臺,在“我的空間”模塊,單擊進入所需空間。 圖1 我的空間 在左側(cè)導航欄中選擇“模型開發(fā) > 模型訓練”,單擊模型名稱進入任務(wù)詳情頁。 單擊進入“訓練結(jié)果”頁簽,單擊“發(fā)布”。
發(fā)布訓練后的預(yù)測大模型 預(yù)測大模型訓練完成后,需要執(zhí)行發(fā)布操作,操作步驟如下: 登錄ModelArts Studio大模型開發(fā)平臺,在“我的空間”模塊,單擊進入所需空間。 圖1 我的空間 在左側(cè)導航欄中選擇“模型開發(fā) > 模型訓練”,單擊模型名稱進入任務(wù)詳情頁。 單擊進入“訓練結(jié)果”頁簽,單擊“發(fā)布”。
查看Deepseek大模型訓練狀態(tài)與指標 查看模型訓練狀態(tài) 模型啟動訓練后,模型的訓練任務(wù)狀態(tài)請在“模型訓練”頁面進行查看。單擊任務(wù)名稱可以進入詳情頁查看訓練指標、訓練任務(wù)詳情和訓練日志。 表1 訓練狀態(tài)說明 訓練狀態(tài) 訓練狀態(tài)含義 初始化 模型訓練任務(wù)正在進行初始化配置,準備開始訓練。 等待創(chuàng)建
path/to/xxx 加載訓練過程中生成的Megatron格式權(quán)重。 Standard場景OBS方式在“輸入”框填寫,SFS Turbo方式在“超參”框?qū)懭搿?預(yù)訓練 backend_config.training.stage pt 表示訓練類型,預(yù)訓練設(shè)置為pt。 pt:預(yù)訓練 sft:指令微調(diào)
步驟四:開啟訓練故障自動重啟功能 創(chuàng)建訓練作業(yè)時,可開啟自動重啟功能。當環(huán)境問題導致訓練作業(yè)異常時,系統(tǒng)將自動修復(fù)異常或隔離節(jié)點,并重啟訓練作業(yè),提高訓練成功率。為了避免丟失訓練進度、浪費算力。此功能已適配斷點續(xù)訓練。 圖5 開啟故障重啟 斷點續(xù)訓練是通過checkpoint機制實現(xiàn)。checkpoint
圖9 添加變量文件 為了測試引用變量的效果,可以在HTTP Header中引入變量。${變量名}這個格式可以告訴JMeter,變量是從外部讀取的。 圖10 Header引入變量 保存測試計劃文件,進行腳本調(diào)試。 單擊上方保存按鈕,配置保存路徑和文件名,保存測試任務(wù)到j(luò)mx文件,將工
模型訓練類型說明 當前 ModelArts Studio 通過預(yù)置鏡像支持的三方模型訓練方式支持情況如下。 表1 三方模型訓練方式、訓練單元類型 模型名稱 預(yù)訓練 微調(diào) LoRA 強化學習 DeepSeek-R1-distill-Qwen-32B 支持 16訓練單元-8K 支持 16訓練單元-8K
管理Deepseek大模型訓練任務(wù) 在訓練任務(wù)列表中,任務(wù)創(chuàng)建者可以對任務(wù)進行克隆(復(fù)制訓練任務(wù))、重試(重新訓練任務(wù))和刪除操作。 登錄ModelArts Studio平臺,在“我的空間”模塊,單擊進入所需空間。 圖1 我的空間 在左側(cè)導航欄中選擇“模型開發(fā) > 模型訓練”,可進行如下操作:
創(chuàng)建導入導出任務(wù)實現(xiàn)數(shù)據(jù)同步。通過OBS與SFS Turbo存儲聯(lián)動,可以將最新的訓練數(shù)據(jù)導入到SFS Turbo,然后在訓練作業(yè)時掛載SFS Turbo到容器對應(yīng)ckpt目錄,實現(xiàn)分布式讀取訓練數(shù)據(jù)文件。 創(chuàng)建SFS Turbo文件系統(tǒng)前提條件: 創(chuàng)建SFS Turbo文件系統(tǒng)前,確認已有可用的VPC。
training.load path/to/xxx 加載訓練過程中生成的Megatron格式權(quán)重。 預(yù)訓練 backend_config.training.stage false 表示訓練類型,預(yù)訓練設(shè)置為false。 false:預(yù)訓練 sft:指令微調(diào) backend_config.preprocess_data
創(chuàng)建訓練作業(yè)界面無云存儲名稱和掛載路徑排查思路 問題現(xiàn)象 創(chuàng)建訓練作業(yè)界面沒有云存儲名稱和掛載路徑這兩個選項。 原因分析 用戶的專屬資源池沒有進行網(wǎng)絡(luò)打通,或者用戶沒有創(chuàng)建過SFS。 處理方法 在專屬資源池列表中,單擊資源池“ID/名稱”,進入詳情頁。單擊右上角“配置NAS VPC”,檢查是否開啟了NAS
精度調(diào)優(yōu)總體思路 PyTorch大模型訓練的精度問題的分析、定位可以參考如下思路: 大模型訓練通常使用多機訓練,鑒于多機訓練復(fù)現(xiàn)問題的成本較高,且影響因子較多,建議用戶先減少模型層數(shù),使模型能夠單機訓練,確認單機訓練是否也存在精度問題,如果存在,則使用下述手段定位精度問題,使得單
MindSpeed-LLM Llama-Factory VeRL MindSpeed-RL MindSpeed-MM-RL MindSpeed-MM 父主題: 訓練服務(wù)配置說明
構(gòu)建部署任務(wù) 平臺支持部署訓練后的模型或預(yù)置模型,操作步驟如下: 登錄ModelArts Studio大模型開發(fā)平臺,在“我的空間”模塊,單擊進入所需空間。 在左側(cè)導航欄中選擇“模型開發(fā) > 模型部署”,單擊界面右上角“創(chuàng)建部署”。 在“選擇模型”頁面,選擇“我的資產(chǎn) > 大語言模型
態(tài)模型,樣例腳本如下,根據(jù)模型類型選擇: VeRL大語言模型gsm8k數(shù)據(jù)處理 多模態(tài)模型geometry3k數(shù)據(jù)處理 多輪對話Agent訓練gsm8k數(shù)據(jù)處理 大語言模型gsm8k數(shù)據(jù)處理 import argparse import os import re import datasets
在排查完精度偏差來源之后發(fā)現(xiàn),Loss最大絕對偏差減少為0.0003,Loss結(jié)果對齊。 需要注意訓練引入隨機性的目的是為了增加結(jié)果的魯棒性,理論上不會對訓練模型的收斂與否造成影響。 此處做隨機性固定主要的目的是為了訓練結(jié)果可完全復(fù)現(xiàn),從而實現(xiàn)NPU和標桿的精度對齊。 父主題: 精度對齊
范圍,那么歸一化就不是很重要了。梯度爆炸/消失訓練深度神經(jīng)網(wǎng)絡(luò)經(jīng)常會面臨梯度消失(梯度爆炸)的問題,也就是說,訓練時導數(shù)或坡度有時會變得非常大,或者非常小,甚至于以指數(shù)方式變小,這樣會加大訓練的難度。那么如何避免這樣的問題呢?假設(shè)訓練一個神經(jīng)網(wǎng)絡(luò),含有參數(shù)W[1],W[2],W[3],