檢測到您已登錄華為云國際站賬號,為了您更好的體驗,建議您訪問國際站服務網站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
ETL工具,用于數(shù)據(jù)庫間的數(shù)據(jù)遷移 。Pentaho Data Integration以Java開發(fā),支持跨平臺運行,其特性包括:支持100%無編碼、拖拽方式開發(fā)ETL數(shù)據(jù)管道;可對接包括傳統(tǒng)數(shù)據(jù)庫、文件、大數(shù)據(jù)平臺、接口、流數(shù)據(jù)等數(shù)據(jù)源;支持ETL數(shù)據(jù)管道加入機器學習算法。本商品增
在完成數(shù)據(jù)標注審核后,需在“數(shù)據(jù)工程 > 標注任務”頁面單擊“生成”,生成加工數(shù)據(jù)集。 生成后的加工數(shù)據(jù)集可在“數(shù)據(jù)工程 > 數(shù)據(jù)管理 > 數(shù)據(jù)集 > 加工數(shù)據(jù)集”中查看。 管理標注后的文本類數(shù)據(jù)集 平臺支持超級管理員、管理員、標注管理員對標注的數(shù)據(jù)集進行如下操作: 生成:在完成
評估文本類數(shù)據(jù)集 發(fā)布文本類數(shù)據(jù)集前,ModelArts Studio大模型開發(fā)平臺支持對數(shù)據(jù)集進行評估操作,幫助用戶優(yōu)化數(shù)據(jù)質量,確保數(shù)據(jù)滿足高標準,提升模型性能。 如果無需使用數(shù)據(jù)評估操作,可跳過此章節(jié)至發(fā)布文本類數(shù)據(jù)集。 創(chuàng)建文本類數(shù)據(jù)集評估標準 ModelArts Stu
評估視頻類數(shù)據(jù)集 發(fā)布視頻類數(shù)據(jù)集前,ModelArts Studio大模型開發(fā)平臺支持對數(shù)據(jù)集進行評估操作,幫助用戶優(yōu)化數(shù)據(jù)質量,確保數(shù)據(jù)滿足高標準,提升模型性能。 如果無需使用數(shù)據(jù)評估操作,可跳過此章節(jié)至發(fā)布視頻類數(shù)據(jù)集。 創(chuàng)建視頻類數(shù)據(jù)集評估標準 ModelArts Stu
在“創(chuàng)建發(fā)布任務”頁面,篩選數(shù)據(jù)集模態(tài),如“文本”類型的數(shù)據(jù)集。 圖2 篩選“文本”類數(shù)據(jù)集 選擇數(shù)據(jù)集,單擊“下一步”。 在“基本配置”中選擇數(shù)據(jù)用途、數(shù)據(jù)集可見性和格式配置,如圖3。 由于數(shù)據(jù)工程需要支持對接盤古大模型或三方大模型,為了使這些數(shù)據(jù)集能夠被這些大模型正常訓練,平臺支持發(fā)布不同格式的數(shù)據(jù)集。
加工數(shù)據(jù)集 數(shù)據(jù)加工介紹 ModelArts Studio大模型開發(fā)平臺提供數(shù)據(jù)加工功能,涵蓋了數(shù)據(jù)加工、數(shù)據(jù)合成和數(shù)據(jù)標注關鍵操作,旨在確保原始數(shù)據(jù)符合業(yè)務需求和模型訓練的標準,是數(shù)據(jù)工程中的核心環(huán)節(jié)。 數(shù)據(jù)加工 通過專用的加工算子對數(shù)據(jù)進行預處理,確保數(shù)據(jù)符合模型訓練的標準和
數(shù)據(jù)集概述 數(shù)據(jù)集作為數(shù)據(jù)源和可視化展示的中間環(huán)節(jié),承接數(shù)據(jù)源的輸入,并為可視化展示提供輸入。在創(chuàng)建數(shù)據(jù)源之后,您可以基于當前數(shù)據(jù)源創(chuàng)建數(shù)據(jù)集,并對已添加的數(shù)據(jù)集做編輯、刪除、關聯(lián)、二次數(shù)據(jù)處理分析等操作。本文介紹如何創(chuàng)建數(shù)據(jù)集、編輯數(shù)據(jù)集,以及其他相關操作的指導。 數(shù)據(jù)準備流程
評估數(shù)據(jù)集 數(shù)據(jù)評估介紹 數(shù)據(jù)評估旨在通過對數(shù)據(jù)集進行系統(tǒng)的質量檢查,評估其數(shù)據(jù)質量和代表性等多個維度,發(fā)現(xiàn)潛在問題并加以解決。通常來說,數(shù)據(jù)評估遵循以下方法進行: 質量評估: 數(shù)據(jù)集質量評估:可以通過抽樣評估的方式,隨機抽取數(shù)據(jù)集中的樣本,使用人工或自動打分的方式,來對數(shù)據(jù)集的質量進行打分。
復制數(shù)據(jù)集 創(chuàng)建同類型數(shù)據(jù)集時,通過復制數(shù)據(jù)集功能,可減少重復操作,提升開發(fā)效率。 復制數(shù)據(jù)集 參考登錄華為云Astro大屏應用界面中操作,登錄華為云Astro大屏應用界面。 在主菜單中,選擇“數(shù)據(jù)中心”。 在左側導航欄中,選擇“數(shù)據(jù)集 > 全部”。 在數(shù)據(jù)集管理頁面,單擊待復制
在完成數(shù)據(jù)標注后,如果無需進行標注審核,可直接在“數(shù)據(jù)標注 > 任務管理”頁面單擊“生成”,生成加工數(shù)據(jù)集。 生成的加工數(shù)據(jù)集可在“數(shù)據(jù)工程 > 數(shù)據(jù)管理 > 數(shù)據(jù)集 > 加工數(shù)據(jù)集”中查看。 AI預標注功能介紹 標注任務開始前,系統(tǒng)對當前任務中的所有數(shù)據(jù)批量智能生成標注數(shù)據(jù),具體操作如下。
在完成數(shù)據(jù)標注審核后,需在“數(shù)據(jù)標注 > 任務管理”頁面單擊“生成”,生成加工數(shù)據(jù)集。 生成的加工數(shù)據(jù)集可在“數(shù)據(jù)工程 > 數(shù)據(jù)管理 > 數(shù)據(jù)集 > 加工數(shù)據(jù)集”中查看。 管理標注后的音頻類數(shù)據(jù)集 平臺支持超級管理員、管理員、標注管理員對標注的數(shù)據(jù)集進行如下操作: 生成:在完成數(shù)
加工文本類數(shù)據(jù)集 加工文本類數(shù)據(jù)集 合成文本類數(shù)據(jù)集 標注文本類數(shù)據(jù)集 配比文本類數(shù)據(jù)集 父主題: 加工數(shù)據(jù)集
發(fā)布文本類數(shù)據(jù)集 評估文本類數(shù)據(jù)集 發(fā)布文本類數(shù)據(jù)集 父主題: 發(fā)布數(shù)據(jù)集
發(fā)布視頻類數(shù)據(jù)集 評估視頻類數(shù)據(jù)集 發(fā)布視頻類數(shù)據(jù)集 父主題: 發(fā)布數(shù)據(jù)集
加工預測類數(shù)據(jù)集 加工預測類數(shù)據(jù)集 配比預測類數(shù)據(jù)集 父主題: 加工數(shù)據(jù)集
手動生成加工數(shù)據(jù)集。 圖3 自動生成加工數(shù)據(jù)集 擴展信息(可選) 可選擇行業(yè)、語言信息,或自定義數(shù)據(jù)集屬性。 圖4 擴展信息 單擊“啟動加工”。當數(shù)據(jù)加工任務運行成功后,狀態(tài)將從“運行中”變?yōu)?ldquo;運行成功”,表示數(shù)據(jù)已經完成加工。 加工后的數(shù)據(jù)集可在“數(shù)據(jù)工程 > 數(shù)據(jù)管理 > 數(shù)據(jù)集
加工音頻類數(shù)據(jù)集 加工音頻類數(shù)據(jù)集任務前,請先完成數(shù)據(jù)導入操作,具體步驟請參見導入數(shù)據(jù)至盤古平臺。 創(chuàng)建音頻類數(shù)據(jù)集加工任務 登錄ModelArts Studio大模型開發(fā)平臺,在“我的空間”模塊,單擊進入所需空間。 圖1 我的空間 在左側導航欄中選擇“數(shù)據(jù)工程 > 數(shù)據(jù)加工 >
購買ECS 前提條件 已擁有華為云帳號。若還未注冊華為華為云帳號,請先參考帳號注冊進行注冊。 操作步驟 父主題: 資源準備
緩存加速”,可緩存數(shù)據(jù)集至“數(shù)據(jù)緩存”模塊。 數(shù)據(jù)集詳情 在“數(shù)據(jù)集”列表,單擊數(shù)據(jù)集名稱,進入數(shù)據(jù)集詳情界面。 查看數(shù)據(jù)詳情。 數(shù)據(jù)詳情頁簽展示了數(shù)據(jù)集ID、名稱、描述、數(shù)據(jù)來源、數(shù)據(jù)集類型等信息。 同時包含“待發(fā)布區(qū)”、“版本管理”和“子集管理”三個模塊。 查看數(shù)據(jù)預覽。 數(shù)據(jù)預覽頁簽
手動生成加工數(shù)據(jù)集。 圖3 自動生成加工數(shù)據(jù)集 擴展信息(可選) 可選擇行業(yè)、語言信息,或自定義數(shù)據(jù)集屬性。 圖4 擴展信息 單擊“啟動加工”。當數(shù)據(jù)加工任務運行成功后,狀態(tài)將從“運行中”變?yōu)?ldquo;運行成功”,表示數(shù)據(jù)已經完成加工。 加工后的數(shù)據(jù)集可在“數(shù)據(jù)工程 > 數(shù)據(jù)管理 > 數(shù)據(jù)集