卡方
物聯(lián)網(wǎng)大數(shù)據(jù)的五個特征
物聯(lián)網(wǎng) 大數(shù)據(jù) 的五個特征,如在此基礎(chǔ)上時,通過特征工程將一個數(shù)據(jù)插入,并插入特征工程,供后續(xù)的使用。您可以通過左側(cè)大屏查看該特征工程的功能。當(dāng)用戶選擇的是線下四種列。在特征工程中,完成特征工程的初始化操作才會產(chǎn)生初始值,用戶可以對已有的特征列進行刪除操作,進而生成新的特征列。單擊JupyterLab環(huán)境編輯界面右上角的圖標。在“特征操作流總覽”區(qū)域會新增一個“特征處理”節(jié)點。特征操作支持刪除 數(shù)據(jù)集 中指定的特征列,刪除其余特征列。單擊表頭,選中需要執(zhí)行的特征列。單擊“特征操作”,從下拉框中選擇“選擇特征”。彈出“選擇特征”對話框。檢查“已選擇特征”是否為用戶選擇的特征列。在“特征操作流總覽”區(qū)域會新增一個“刪除列”節(jié)點。待刪除的特征列無誤后,單擊“確定”。從下拉框中選擇“刪除列”。在“特征操作流總覽”區(qū)域會新增一個“選擇特征”節(jié)點??ǚ綑z驗卡方檢驗卡方檢驗通過計算數(shù)據(jù)集的特征列和標簽列之間的偏離程度(即卡方值)篩選出有價值的特征列。將卡方值由小到大排序,篩選出TOPN的特征列。為默認值為“離散”。特征操作流從下拉框中選擇當(dāng)前數(shù)據(jù)操作流的名字。操作流變量名如果存在多個數(shù)據(jù)操作流,可重命名操作流對象的變量名,以避免沖突。單擊圖標,運行“特征離散化”代碼框內(nèi)容。