檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
其他類數(shù)據(jù)集格式要求 除文本、圖片、視頻、音頻、多模態(tài)、氣象、預(yù)測(cè)類數(shù)據(jù)集外,平臺(tái)還支持導(dǎo)入其他類數(shù)據(jù)集,即用戶訓(xùn)練模型時(shí)使用的自定義數(shù)據(jù)集。 其他類數(shù)據(jù)集支持加工其他類數(shù)據(jù)集與發(fā)布其他類數(shù)據(jù)集操作。 從OBS導(dǎo)入:?jiǎn)蝹€(gè)文件大小不超過50GB,文件數(shù)量不限制。 本地上傳:?jiǎn)蝹€(gè)文件
緩存加速”,可緩存數(shù)據(jù)集至“數(shù)據(jù)緩存”模塊。 數(shù)據(jù)集詳情 在“數(shù)據(jù)集”列表,單擊數(shù)據(jù)集名稱,進(jìn)入數(shù)據(jù)集詳情界面。 查看數(shù)據(jù)詳情。 數(shù)據(jù)詳情頁簽展示了數(shù)據(jù)集ID、名稱、描述、數(shù)據(jù)來源、數(shù)據(jù)集類型等信息。 同時(shí)包含“待發(fā)布區(qū)”、“版本管理”和“子集管理”三個(gè)模塊。 查看數(shù)據(jù)預(yù)覽。 數(shù)據(jù)預(yù)覽頁簽
復(fù)制數(shù)據(jù)集 創(chuàng)建同類型數(shù)據(jù)集時(shí),通過復(fù)制數(shù)據(jù)集功能,可減少重復(fù)操作,提升開發(fā)效率。 復(fù)制數(shù)據(jù)集 參考登錄華為云Astro大屏應(yīng)用界面中操作,登錄華為云Astro大屏應(yīng)用界面。 在主菜單中,選擇“數(shù)據(jù)中心”。 在左側(cè)導(dǎo)航欄中,選擇“數(shù)據(jù)集 > 全部”。 在數(shù)據(jù)集管理頁面,單擊待復(fù)制
htBox地塊數(shù)據(jù)和一種建模方法。 通用唯一標(biāo)識(shí)符(UUID)除了居住類型和幾何形狀,每個(gè)多邊形包括一個(gè)通用唯一標(biāo)識(shí)符(UUID),這是整個(gè)數(shù)據(jù)集中每個(gè)結(jié)構(gòu)的唯一標(biāo)識(shí)。這允許將單個(gè)結(jié)構(gòu)連接到獨(dú)特的數(shù)據(jù)源。數(shù)據(jù)模式很靈活,可以增加新的數(shù)據(jù)字段和屬性。 免責(zé)聲明:數(shù)據(jù)集的全部或部分描
配置數(shù)據(jù)映射規(guī)則 概述 本節(jié)主要提供數(shù)據(jù)集成任務(wù)Mapping信息的配置說明。Mapping信息用于告訴ROMA Connect源端數(shù)據(jù)字段到目標(biāo)端數(shù)據(jù)字段的映射規(guī)則,把獲取到的源端數(shù)據(jù)轉(zhuǎn)換成寫入目標(biāo)端的數(shù)據(jù)。 約束與限制 源端與目標(biāo)端字段名請(qǐng)勿使用對(duì)應(yīng)數(shù)據(jù)庫的關(guān)鍵字,否則可能導(dǎo)致任務(wù)運(yùn)行異常。
分享數(shù)據(jù)集 數(shù)據(jù)集創(chuàng)建后,可復(fù)制數(shù)據(jù)集的鏈接分享給工作空間內(nèi)的其它用戶,其它用戶可查看或修改數(shù)據(jù)集。 分享數(shù)據(jù)集 參考登錄華為云Astro大屏應(yīng)用界面中操作,登錄華為云Astro大屏應(yīng)用界面。 在主菜單中,選擇“數(shù)據(jù)中心”。 在左側(cè)導(dǎo)航欄中,選擇“數(shù)據(jù)集 > 全部”。 在數(shù)據(jù)集管理
String 數(shù)據(jù)集名稱 data_type 是 String 數(shù)據(jù)集數(shù)據(jù)類型 dataset_form 是 String 數(shù)據(jù)集形式 source_dataset_id 否 String 子集的源數(shù)據(jù)集id,當(dāng)dataset_form取值為SUBSET時(shí)必填,源數(shù)據(jù)集需存在已發(fā)布的版本才能創(chuàng)建子集
Cityscapes數(shù)據(jù)集:Cityscapes數(shù)據(jù)集是一個(gè)大規(guī)模的城市場(chǎng)景分割數(shù)據(jù)集,包含5000張高分辨率圖像和標(biāo)注數(shù)據(jù)。與Facades數(shù)據(jù)集相比,Cityscapes數(shù)據(jù)集更適用于研究城市場(chǎng)景的語義分割。 ADE20K數(shù)據(jù)集:ADE20K數(shù)據(jù)集是一個(gè)包含超過15000張圖像和分割標(biāo)注的
預(yù)處理數(shù)據(jù) 根據(jù)3.2.1-獲取源數(shù)據(jù)中描述的方法,您可以獲得通用和行業(yè)的微調(diào)數(shù)據(jù)集,與業(yè)界的微調(diào)數(shù)據(jù)格式相同,您需要將文本處理為JSONL格式,其中的每一行文本為一個(gè)JSON字符串,至少包含兩個(gè)JSON鍵分別表示問題和回答,對(duì)應(yīng)的鍵為context和target,system字段支持自定義人設(shè),為可選。
在微調(diào)數(shù)據(jù)集頁面選擇“我創(chuàng)建的”頁簽。 在數(shù)據(jù)集列表中單擊數(shù)據(jù)集名稱,在微調(diào)數(shù)據(jù)集詳情頁面查看數(shù)據(jù)概況、調(diào)度歷史,并支持對(duì)數(shù)據(jù)集進(jìn)行溯源。 修改數(shù)據(jù)集 在微調(diào)數(shù)據(jù)集頁面選擇“我創(chuàng)建的”頁簽。 在數(shù)據(jù)集列表中,單擊操作列的“修改”。 在修改頁面編輯數(shù)據(jù)集描述、修改標(biāo)簽,單擊“保存”。 刪除數(shù)據(jù)集 被標(biāo)注的數(shù)據(jù)集無法刪除。
數(shù)據(jù)標(biāo)注完成后,您可以發(fā)布成多個(gè)版本對(duì)數(shù)據(jù)集進(jìn)行管理。針對(duì)已發(fā)布生產(chǎn)的數(shù)據(jù)集版本,您可以通過查看數(shù)據(jù)集演進(jìn)過程、設(shè)置當(dāng)前版本、刪除版本等操作,對(duì)數(shù)據(jù)集進(jìn)行管理。 #### 查看數(shù)據(jù)集演進(jìn)過程 1. 登錄ModelArts管理控制臺(tái),在左側(cè)菜單欄中選擇“數(shù)據(jù)管理>數(shù)據(jù)集”,進(jìn)入“數(shù)據(jù)集”管理頁面。
機(jī)器學(xué)習(xí)中可以將數(shù)據(jù)集分為兩個(gè)子集,即訓(xùn)練集、測(cè)試集。更好的方式是將數(shù)據(jù)集分為三個(gè)子集,即訓(xùn)練集、驗(yàn)證集、測(cè)試集。 一、劃分為訓(xùn)練集、測(cè)試集 數(shù)據(jù)集劃分為兩個(gè)子集的概念: 訓(xùn)練集—用于訓(xùn)練模型; 測(cè)試集—用于測(cè)試訓(xùn)練后模型 比如,將數(shù)據(jù)集劃分為一個(gè)訓(xùn)練集、一個(gè)測(cè)試集:
創(chuàng)建數(shù)據(jù)集 通過可視化方式創(chuàng)建數(shù)據(jù)集 通過SQL語句創(chuàng)建數(shù)據(jù)集 父主題: 新建數(shù)據(jù)集
在數(shù)據(jù)集管理頁面,單擊“新建數(shù)據(jù)集”。 在新增數(shù)據(jù)集頁面,設(shè)置數(shù)據(jù)集名稱、選擇數(shù)據(jù)類型和目錄,單擊“保存”。 圖1 設(shè)置數(shù)據(jù)集參數(shù) 數(shù)據(jù)集名稱:新建數(shù)據(jù)集的名稱,用于標(biāo)識(shí)該數(shù)據(jù)集。長(zhǎng)度為1~60個(gè)字符,可包括中文、字母、數(shù)字及下劃線。 數(shù)據(jù)類型:選擇“靜態(tài)數(shù)據(jù)”。 目錄:為數(shù)據(jù)集指定目錄,可以選擇(可選)新建目錄中
數(shù)據(jù)集成普通任務(wù) FDI各類數(shù)據(jù)庫支持哪些數(shù)據(jù)類型? 跟蹤號(hào)是什么,能跟蹤到數(shù)據(jù)嗎? FDI任務(wù)是否支持清空目標(biāo)表? FDI任務(wù)只能采集單張表到單張表嗎? 用戶創(chuàng)建的FDI任務(wù),同一賬號(hào)的其他用戶可見嗎? FDI通過公網(wǎng)對(duì)接其他租戶的MRS HIVE如何配置? 從OBS解析文件到
獲取源數(shù)據(jù) 常用數(shù)據(jù)集類型 微調(diào)數(shù)據(jù)集為問答數(shù)據(jù),分成通用數(shù)據(jù)集(語言理解、編程能力、數(shù)學(xué)能力、邏輯推理等)和行業(yè)數(shù)據(jù)集(如法律、醫(yī)療、金融等)。 數(shù)據(jù)獲取方法 數(shù)據(jù)獲取方法 開源數(shù)據(jù)集: 通用數(shù)據(jù)集 中文SmolTalk數(shù)據(jù)集 smoltalk-chinese是一個(gè)參照Smol
t in self._iterator.GetNextAsMap().items()}RuntimeError出現(xiàn)了錯(cuò)誤,無法查看數(shù)據(jù)數(shù)據(jù):數(shù)據(jù)是來自這里謝謝各位大佬
在左側(cè)導(dǎo)航欄中選擇“數(shù)據(jù)工程 > 數(shù)據(jù)發(fā)布 > 發(fā)布任務(wù)”,單擊界面右上角“創(chuàng)建發(fā)布任務(wù)”。 在“創(chuàng)建發(fā)布任務(wù)”頁面,篩選數(shù)據(jù)集模態(tài),如“圖片 ”類型的數(shù)據(jù)集。 圖4 篩選數(shù)據(jù)集模態(tài) 選擇數(shù)據(jù)集,單擊“下一步”。 在“基本配置”中選擇數(shù)據(jù)用途、數(shù)據(jù)集可見性。 由于數(shù)據(jù)工程需要支持對(duì)接
頁面數(shù)據(jù)集 操作場(chǎng)景 通過頁面數(shù)據(jù)集,實(shí)現(xiàn)多個(gè)組件對(duì)接同一個(gè)數(shù)據(jù)輸入,減少重復(fù)的請(qǐng)求和配置。同時(shí),在新建頁面數(shù)據(jù)集時(shí),還支持配置多數(shù)據(jù)輸入(最多10個(gè)),來實(shí)現(xiàn)組件同時(shí)對(duì)接多個(gè)數(shù)據(jù)流。 本章節(jié)以將兩個(gè)靜態(tài)數(shù)據(jù)集(多數(shù)據(jù)流1、多數(shù)據(jù)流2)中的數(shù)據(jù)匯合后,作為組件的數(shù)據(jù)來源為例,向您介紹如何創(chuàng)建并使用頁面數(shù)據(jù)集。
和 CC12M 等公開可用的視覺語言(英語)數(shù)據(jù)集的樣本規(guī)模相對(duì)較小(大約 1000 萬),而規(guī)模更大的是像 LAION-400M 的數(shù)據(jù)集。但是,直接使用英文數(shù)據(jù)集來訓(xùn)練模型會(huì)導(dǎo)致中文翻譯任務(wù)的性能大幅下降。比如,大量特定的中文成語和俚語是英文翻譯無法覆蓋的,而機(jī)器翻譯往往在這些方面會(huì)帶來錯(cuò)誤,進(jìn)而影響任務(wù)執(zhí)行。