檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
在左側導航欄中選擇“數(shù)據(jù)工程 > 數(shù)據(jù)發(fā)布 > 發(fā)布任務”,單擊界面右上角“創(chuàng)建發(fā)布任務”。 在“創(chuàng)建發(fā)布任務”頁面,篩選數(shù)據(jù)集模態(tài),如“圖片 ”類型的數(shù)據(jù)集。 圖4 篩選數(shù)據(jù)集模態(tài) 選擇數(shù)據(jù)集,單擊“下一步”。 在“基本配置”中選擇數(shù)據(jù)用途、數(shù)據(jù)集可見性。 由于數(shù)據(jù)工程需要支持對接
多模態(tài)類數(shù)據(jù)集格式要求 ModelArts Studio大模型開發(fā)平臺支持創(chuàng)建多模態(tài)類數(shù)據(jù)集,創(chuàng)建時可導入多種形式的數(shù)據(jù),具體格式要求詳見表1。 表1 多模態(tài)類數(shù)據(jù)集格式要求 文件內容 文件格式 文件樣例 多模態(tài)理解(預訓練) tar+jsonl 允許導入的數(shù)據(jù)模態(tài)參考“文件格式
配比圖片類數(shù)據(jù)集 數(shù)據(jù)配比是將多個數(shù)據(jù)集按照特定比例關系組合并發(fā)布為“發(fā)布數(shù)據(jù)集”的過程,確保數(shù)據(jù)的多樣性、平衡性和代表性。 如果單個數(shù)據(jù)集已滿足您的需求,可跳過此章節(jié)至發(fā)布圖片類數(shù)據(jù)集。 創(chuàng)建圖片類數(shù)據(jù)集配比任務 創(chuàng)建圖片類數(shù)據(jù)集配比任務步驟如下: 登錄ModelArts St
類型的數(shù)據(jù)集。 圖2 篩選數(shù)據(jù)集模態(tài) 選擇數(shù)據(jù)集,單擊“下一步”。 在“基本配置”中選擇數(shù)據(jù)用途、數(shù)據(jù)集可見性。 填寫數(shù)據(jù)集名稱、描述,設置擴展信息后,單擊“確定”執(zhí)行數(shù)據(jù)集發(fā)布操作。 當任務狀態(tài)顯示為“運行成功”時,說明數(shù)據(jù)發(fā)布任務執(zhí)行成功,生成的“發(fā)布數(shù)據(jù)集”可在“數(shù)據(jù)工程 >
在完成數(shù)據(jù)標注后,如果無需進行標注審核,可直接在“數(shù)據(jù)標注 > 任務管理”頁面單擊“生成”,生成加工數(shù)據(jù)集。 生成的加工數(shù)據(jù)集可在“數(shù)據(jù)工程 > 數(shù)據(jù)管理 > 數(shù)據(jù)集 > 加工數(shù)據(jù)集”中查看。 AI預標注功能介紹 標注任務開始前,系統(tǒng)對當前任務中的所有數(shù)據(jù)批量智能生成標注數(shù)據(jù),具體操作如下。
可選擇行業(yè)、語言信息,或自定義數(shù)據(jù)集屬性。 圖5 擴展信息 單擊“啟動加工”。當數(shù)據(jù)加工任務運行成功后,狀態(tài)將從“運行中”變?yōu)?ldquo;運行成功”,表示數(shù)據(jù)已經(jīng)完成加工。 在完成數(shù)據(jù)加工后,如果無需使用數(shù)據(jù)標注、數(shù)據(jù)合成功能,可直接在“加工任務”頁面單擊操作列“生成”,生成加工數(shù)據(jù)集。 加工后的數(shù)據(jù)集可在“數(shù)據(jù)工程
評估圖片類數(shù)據(jù)集 發(fā)布圖片類數(shù)據(jù)集前,ModelArts Studio大模型開發(fā)平臺支持對數(shù)據(jù)集進行評估操作,幫助用戶優(yōu)化數(shù)據(jù)質量,確保數(shù)據(jù)滿足高標準,提升模型性能。 如果無需使用數(shù)據(jù)評估操作,可跳過此章節(jié)至發(fā)布圖片類數(shù)據(jù)集。 創(chuàng)建圖片類數(shù)據(jù)集評估標準 ModelArts Stu
是否開啟返回體內容審核(默認不開啟)。 有文本內容,則對文本進行內容審核; 有圖片內容,則會對圖片進行內容審核。 約束限制: 不涉及。 取值范圍: true或false 默認取值: false。 響應參數(shù) 狀態(tài)碼:200 表7 響應Body參數(shù) 參數(shù) 參數(shù)類型 描述 id String 參數(shù)解釋: 文本對話唯一標識符。
加工任務生成數(shù)據(jù)集 加工任務詳情頁面增加生成數(shù)據(jù)集相關提示。 當加工任務執(zhí)行結束且沒有生成數(shù)據(jù)集時,頁面提供生成數(shù)據(jù)集按鈕。 圖1 生成數(shù)據(jù)集按鈕 當任務無生成數(shù)據(jù)集且處理生成數(shù)據(jù)集中狀態(tài)時,提供刷新按鈕。 圖2 刷新按鈕 當加工任務最新一次執(zhí)行任務成功,且沒有生成最新數(shù)據(jù)集時,頁面
針對催收意圖識別這一場景,數(shù)據(jù)集主要通過收集真實的客服和用戶的對話數(shù)據(jù)來進行構建,其中的隱私信息已經(jīng)過處理。 數(shù)據(jù)預處理 數(shù)據(jù)量級要求: 本場景構建了500條場景數(shù)據(jù),同時使用了1500條開源通用指令數(shù)據(jù)和1500條開源金融指令數(shù)據(jù)。 本案例中針對場景數(shù)據(jù)訓練三個輪次,共計1500條數(shù)據(jù),為此配置了等比例的通用指令數(shù)據(jù)和金融指令數(shù)據(jù)。
端的一個數(shù)據(jù)表中。 前提條件 已完成源端數(shù)據(jù)源和目標端數(shù)據(jù)源的接入,具體操作請參考接入數(shù)據(jù)源。 在源端數(shù)據(jù)源接入配置中,“數(shù)據(jù)庫名”的大小寫應與實際數(shù)據(jù)庫名保持一致,否則會導致數(shù)據(jù)同步失敗。 源端數(shù)據(jù)源已開啟CDC功能,根據(jù)不同的數(shù)據(jù)源類型和CDC實現(xiàn)模式,具體操作請參考: 配置Oracle
請問明天使用新數(shù)據(jù)集以后,練習賽的數(shù)據(jù)集可以發(fā)布嗎
單擊“自動Mapping”,源端和目標端數(shù)據(jù)字段間的映射規(guī)則自動建立。 圖1 自動Mapping 手動配置Mapping 如果兩端的數(shù)據(jù)表字段不一致,可單擊下方的“添加mapping映射”,配置源端數(shù)據(jù)字段到目標端數(shù)據(jù)字段的映射關系。 用戶可以手動添加源端數(shù)據(jù)字段與目標端數(shù)據(jù)字段的映射規(guī)則,該方式
audio2.json #該音頻文件的所有標注信息 標注數(shù)據(jù).json文件說明 數(shù)據(jù)集中必含“.json”文件,用于集合該音頻文件的所有標注數(shù)據(jù)信息,包括該音頻所在的項目id、數(shù)據(jù)包id、音頻上所有標注信息等。上傳數(shù)據(jù)集前請保證“.json”文件內容正確。“.json”文件編寫的參考樣例如下:
在通信領域有哪些可以用于寫論文的開源數(shù)據(jù)集使用呢
類型的數(shù)據(jù)集。 圖2 篩選數(shù)據(jù)集模態(tài) 選擇數(shù)據(jù)集,單擊“下一步”。 在“基本配置”中選擇數(shù)據(jù)用途、數(shù)據(jù)集可見性。 填寫數(shù)據(jù)集名稱、描述,設置擴展信息后,單擊“確定”執(zhí)行數(shù)據(jù)集發(fā)布操作。 當任務狀態(tài)顯示為“運行成功”時,說明數(shù)據(jù)發(fā)布任務執(zhí)行成功,生成的“發(fā)布數(shù)據(jù)集”可在“數(shù)據(jù)工程 >
SVHN數(shù)據(jù)集默認label數(shù)據(jù)類型是UInt32, 沒有對應方法轉換為float32類型
類型的數(shù)據(jù)集。 圖2 篩選數(shù)據(jù)集模態(tài) 選擇數(shù)據(jù)集,單擊“下一步”。 在“基本配置”中選擇數(shù)據(jù)用途、數(shù)據(jù)集可見性。 填寫數(shù)據(jù)集名稱、描述,設置擴展信息后,單擊“確定”執(zhí)行數(shù)據(jù)集發(fā)布操作。 當任務狀態(tài)顯示為“運行成功”時,說明數(shù)據(jù)發(fā)布任務執(zhí)行成功,生成的“發(fā)布數(shù)據(jù)集”可在“數(shù)據(jù)工程 >
使用大量的數(shù)據(jù)來進行學習。這些數(shù)據(jù)可以分為有標注數(shù)據(jù)集和無標注數(shù)據(jù)集兩種類型。 無標注數(shù)據(jù)集是指在數(shù)據(jù)集中沒有提供明確標注或標簽的數(shù)據(jù)集。這意味著數(shù)據(jù)集中的每個樣本都缺少明確的分類或標簽信息。例如,在自然語言處理領域,無標注數(shù)據(jù)集可能是大量的文本數(shù)據(jù),但是這些文本數(shù)據(jù)沒有被標記為不同的語言、主題、情感等類別。
數(shù)據(jù)集模態(tài),如“多模態(tài)”類型的數(shù)據(jù)集。 圖2 選擇數(shù)據(jù)集模態(tài) 選擇數(shù)據(jù)集,單擊“下一步”。 在“基本配置”中選擇數(shù)據(jù)用途、數(shù)據(jù)集可見性。 填寫數(shù)據(jù)集名稱、描述,設置擴展信息后,單擊“確定”執(zhí)行數(shù)據(jù)集發(fā)布操作。 當任務狀態(tài)顯示為“數(shù)據(jù)集生成成功”時,說明數(shù)據(jù)發(fā)布任務執(zhí)行成功,生成的“發(fā)布數(shù)據(jù)集”可在“數(shù)據(jù)工程