數(shù)據(jù)管理有哪些功能?
數(shù)據(jù)管理平臺提供了聚類分析、數(shù)據(jù)特征分析、數(shù)據(jù)清洗、數(shù)據(jù)校驗、數(shù)據(jù)增強、數(shù)據(jù)選擇等分析處理能力,可幫助開發(fā)者進一步理解數(shù)據(jù)和挖掘數(shù)據(jù),從而準(zhǔn)備出一份滿足開發(fā)目標(biāo)或項目要求的高價值數(shù)據(jù)。
開發(fā)者在數(shù)據(jù)管理平臺可以在線完成圖像分類、目標(biāo)檢測、音頻分割、文本三元組、視頻分類等各種標(biāo)注場景,同時也可以使用ModelArts智能標(biāo)注方案,通過預(yù)置算法或自定義算法代替人工完成數(shù)據(jù)標(biāo)注,提升標(biāo)注效率。
針對大規(guī)模協(xié)同標(biāo)注場景,數(shù)據(jù)管理平臺還提供了強大的團隊標(biāo)注,支持標(biāo)注團隊管理、人員管理、角色管理等,實現(xiàn)從項目的創(chuàng)建、數(shù)據(jù)分配、進度把控、標(biāo)注、審核、驗收全流程。為用戶帶來標(biāo)注效率提升的同時,又最小化項目管理開銷。
此外,數(shù)據(jù)管理平臺時刻保障用戶數(shù)據(jù)的安全性和隱私性,確保用戶數(shù)據(jù)僅在授權(quán)范圍內(nèi)使用。
數(shù)據(jù)集管理
如何快速在數(shù)據(jù)管理平臺創(chuàng)建數(shù)據(jù)集
須知
1.數(shù)據(jù)管理功能需要獲取訪問OBS權(quán)限,在未進行委托授權(quán)之前,無法使用此功能。在使用數(shù)據(jù)管理功能之前,請前往“全局配置”頁面,使用委托完成訪問授權(quán)。
2.已創(chuàng)建用于存儲數(shù)據(jù)的OBS桶及文件夾。并且,數(shù)據(jù)存儲的OBS桶與ModelArts在同一區(qū)域。當(dāng)前不支持OBS并行文件系統(tǒng),請選擇OBS對象存儲。
3.ModelArts不支持加密的OBS桶,創(chuàng)建OBS桶時,請勿開啟桶加密。
在數(shù)據(jù)管理平臺創(chuàng)建數(shù)據(jù)集
1.登錄ModelArts管理控制臺,選擇數(shù)據(jù)管理>數(shù)據(jù)集。
2.單擊創(chuàng)建數(shù)據(jù)集。
3.選擇數(shù)據(jù)類型與數(shù)據(jù)來源以及導(dǎo)入路徑。
4.單擊提交,完成數(shù)據(jù)集的創(chuàng)建。
創(chuàng)建數(shù)據(jù)集時的數(shù)據(jù)接入:
1.從OBS導(dǎo)入數(shù)據(jù),創(chuàng)建數(shù)據(jù)集。
2.從本地上傳數(shù)據(jù),創(chuàng)建數(shù)據(jù)集。
3.從AI Gallery下載數(shù)據(jù),創(chuàng)建數(shù)據(jù)集。
4.從DLI導(dǎo)入數(shù)據(jù)。
5.從MRS導(dǎo)入數(shù)據(jù)。
6.從DWS導(dǎo)入數(shù)據(jù)。
數(shù)據(jù)管理-人工標(biāo)注
圖片標(biāo)注
ModelArts數(shù)據(jù)標(biāo)注中的圖片標(biāo)注指圖片類型的數(shù)據(jù)集進行標(biāo)注。圖片標(biāo)注的標(biāo)注作業(yè)類型,分為“圖像分類”、“物體檢測”、“圖像分割”三種標(biāo)注類型。
文本標(biāo)注
文本場景的標(biāo)注主要為“文本分類”、“命名實體”、“文本三元組”。
分別支持對文本的內(nèi)容按照標(biāo)簽進行分類處理。
對文本中的實體片段進行標(biāo)注。
對文本的實體片段以及實體之間的關(guān)系進行標(biāo)注。
音頻標(biāo)注
對聲音進行分類。
對語音內(nèi)容進行標(biāo)注。
對語音進行分段標(biāo)注。
視頻標(biāo)注
由于模型訓(xùn)練過程需要大量有標(biāo)簽的視頻數(shù)據(jù),因此在模型訓(xùn)練之前需對沒有標(biāo)簽的視頻添加標(biāo)簽。通過ModelArts您可對視頻添加標(biāo)簽,快速完成對視頻的標(biāo)注操作,也可以對已標(biāo)注視頻修改或刪除標(biāo)簽進行重新標(biāo)注。
數(shù)據(jù)管理-智能標(biāo)注
除了人工標(biāo)注外,ModelArts數(shù)據(jù)管理平臺還提供了智能標(biāo)注功能,快速完成數(shù)據(jù)標(biāo)注,為您節(jié)省70%以上的標(biāo)注時間。數(shù)據(jù)管理中的智能標(biāo)注是指基于當(dāng)前標(biāo)注階段的標(biāo)簽及圖片學(xué)習(xí)訓(xùn)練,選中系統(tǒng)中已有的模型進行智能標(biāo)注,快速完成剩余圖片的標(biāo)注操作。
須知:
- 目前只有“圖像分類”和“物體檢測”類型的標(biāo)注作業(yè)支持智能標(biāo)注功能。
- 啟動智能標(biāo)注時,需標(biāo)注作業(yè)存在至少2種標(biāo)簽,且每種標(biāo)簽已標(biāo)注的圖片不少于5張。
- 啟動智能標(biāo)注時,必須存在未標(biāo)注圖片。
- 啟動智能標(biāo)注前,保證當(dāng)前系統(tǒng)中不存在正在進行中的智能標(biāo)注任務(wù)。
- 檢查用于標(biāo)注的圖片數(shù)據(jù),確保您的圖片數(shù)據(jù)中,不存在RGBA四通道圖片。如果存在四通道圖片,智能標(biāo)注任務(wù)將運行失敗,因此,請從數(shù)據(jù)集中刪除四通道圖片后,再啟動智能標(biāo)注。
啟動智能標(biāo)注:
- 1.登錄ModelArts管理控制臺,在左側(cè)菜單欄中選擇“數(shù)據(jù)管理 > 數(shù)據(jù)標(biāo)注”,進入“數(shù)據(jù)標(biāo)注”管理頁面。
- 2.在標(biāo)注作業(yè)列表中,選擇“物體檢測”或“圖像分類”類型的標(biāo)注作業(yè),單擊操作列的“智能標(biāo)注”啟動智能標(biāo)注作業(yè)。
- 3.在彈出的“啟動智能標(biāo)注”對話框中,選擇智能標(biāo)注類型,可選“主動學(xué)習(xí)”或者“預(yù)標(biāo)注”。
- 4.完成參數(shù)設(shè)置后,單擊“提交”,即可啟動智能標(biāo)注。
- 5.在標(biāo)注作業(yè)列表中,單擊標(biāo)注作業(yè)名稱進入“標(biāo)注作業(yè)詳情”頁。
- 6.在“數(shù)據(jù)集概覽頁標(biāo)注作業(yè)詳情頁”,選擇“標(biāo)注”頁簽,單擊“待確認”頁簽,即可查看智能標(biāo)注進度。您也可以在該頁簽,“啟動智能標(biāo)注”或者查看“智能標(biāo)注歷史”
數(shù)據(jù)管理-團隊標(biāo)注
數(shù)據(jù)管理平臺針對數(shù)據(jù)集較大的數(shù)據(jù)標(biāo)注任務(wù),需要多人協(xié)助完成。ModelArts提供了團隊標(biāo)注功能,可以由多人組成一個標(biāo)注團隊,針對同一個數(shù)據(jù)集進行標(biāo)注管理。
數(shù)據(jù)管理-數(shù)據(jù)發(fā)布
須知
- 1.數(shù)據(jù)管理中針對剛創(chuàng)建的數(shù)據(jù)集(未發(fā)布前),無數(shù)據(jù)集版本信息,必須執(zhí)行發(fā)布操作后,才能應(yīng)用于模型開發(fā)或訓(xùn)練。
- 2.在數(shù)據(jù)管理中數(shù)據(jù)集版本,默認按V001、V002遞增規(guī)則進行命名,您也可以在發(fā)布時自定義設(shè)置。
- 3.您可以將任意一個版本設(shè)置為當(dāng)前目錄,即表示數(shù)據(jù)集列表中進入的數(shù)據(jù)集詳情,為此版本的數(shù)據(jù)及標(biāo)注信息。
- 4.數(shù)據(jù)管理針對每一個數(shù)據(jù)集版本,您可以通過“存儲路徑”參數(shù),獲得此版本對應(yīng)的Manifest文件格式的數(shù)據(jù)集??捎糜趯?dǎo)入數(shù)據(jù)或難例篩選操作。
- 5.表格數(shù)據(jù)集暫不支持切換版本。
操作步驟
- 1.登錄ModelArts管理控制臺,在左側(cè)菜單欄中選擇“數(shù)據(jù)管理> 數(shù)據(jù)集”,進入“數(shù)據(jù)集”管理頁面。
- 2.在數(shù)據(jù)集列表中,單擊操作列的“發(fā)布”?;蛘?,您可以單擊數(shù)據(jù)集名稱,進入數(shù)據(jù)集“概覽”頁,在頁面右上角單擊“發(fā)布”。
- 3.在“發(fā)布新版本”彈出框中,填寫發(fā)布數(shù)據(jù)集的相關(guān)參數(shù),然后單擊“確定”。