檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
實(shí)戰(zhàn)項(xiàng)目 深度學(xué)習(xí)是一門(mén)實(shí)踐性很強(qiáng)的學(xué)科,需要通過(guò)實(shí)戰(zhàn)項(xiàng)目來(lái)加深對(duì)理論知識(shí)的理解和應(yīng)用??梢赃x擇一些開(kāi)源的深度學(xué)習(xí)項(xiàng)目進(jìn)行學(xué)習(xí)和實(shí)踐,如ImageNet、CIFAR-10等。 2.比賽競(jìng)賽 參加深度學(xué)習(xí)相關(guān)的比賽競(jìng)賽,可以鍛煉自己的深度學(xué)習(xí)能力和實(shí)戰(zhàn)經(jīng)驗(yàn),也可以與其他深度學(xué)習(xí)愛(ài)好者交
深度學(xué)習(xí)需要大量的數(shù)據(jù)集,但是現(xiàn)實(shí)是只有零星的數(shù)據(jù),大家有什么收集數(shù)據(jù)的經(jīng)驗(yàn)和經(jīng)歷,還有什么收集數(shù)據(jù)的好辦法
ow優(yōu)勢(shì)的深度學(xué)習(xí)框架。 JAX 是 Google Research 開(kāi)發(fā)的機(jī)器學(xué)習(xí)庫(kù),被稱為“在 GPU/TPU上運(yùn)行的具有自動(dòng)微分功能的Numpy”,該庫(kù)的核心是類似 Numpy 的向量和矩陣運(yùn)算。我個(gè)人認(rèn)為,與Numpy和PyTorch/TensorFlow最大的不同在于J
在深度學(xué)習(xí)時(shí)代,谷歌、Facebook、百度等科技巨頭開(kāi)源了多款框架來(lái)幫助開(kāi)發(fā)者更輕松地學(xué)習(xí)、構(gòu)建和訓(xùn)練不同類型的神經(jīng)網(wǎng)絡(luò)。而這些大公司也花費(fèi)了很大的精力來(lái)維護(hù) TensorFlow、PyTorch 這樣龐大的深度學(xué)習(xí)框架。除了這類主流框架之外,開(kāi)發(fā)者們也會(huì)開(kāi)源一些小而精的框架或者庫(kù)。比如今年
深度學(xué)習(xí)模型的能力是訓(xùn)練數(shù)據(jù)、算法設(shè)計(jì)(模型架構(gòu))和算力三者共同作用的結(jié)果,各自的作用不同,且相互依賴。1. 訓(xùn)練數(shù)據(jù):能力的“原材料”• 作用:數(shù)據(jù)是模型學(xué)習(xí)的直接來(lái)源,決定了模型能學(xué)到什么。數(shù)據(jù)的質(zhì)量(標(biāo)注準(zhǔn)確性、噪聲)、多樣性(覆蓋場(chǎng)景)和規(guī)模直接影響模型的泛化能力。• 例
損失函數(shù)的復(fù)雜性深度學(xué)習(xí)模型的損失函數(shù)通常是高度非凸的,存在大量局部極小值和鞍點(diǎn)。如果學(xué)習(xí)率太大,模型可能會(huì)跳過(guò)最優(yōu)解,甚至導(dǎo)致?lián)p失爆炸(NaN)。(3) 數(shù)值穩(wěn)定性過(guò)大的學(xué)習(xí)率可能導(dǎo)致參數(shù)更新后超出浮點(diǎn)數(shù)的表示范圍(如 inf 或數(shù)值溢出),使訓(xùn)練崩潰。3. 常見(jiàn)學(xué)習(xí)率值是怎么來(lái)的?(1)
深度學(xué)習(xí)區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同在于: (1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層的隱層節(jié)點(diǎn);(2)明確了特征學(xué)習(xí)的重要性。也就是說(shuō),通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更容易。與人工規(guī)則構(gòu)造特征的方法相比,
多任務(wù)學(xué)習(xí) (Caruana, 1993) 是通過(guò)合并幾個(gè)任務(wù)中的樣例(可以視為對(duì)參數(shù)施加的軟約束)來(lái)提高泛化的一種方式。額外的訓(xùn)練樣本以同樣的方式將模型的參數(shù)推向泛化更好的方向,當(dāng)模型的一部分在任務(wù)之間共享時(shí),模型的這一部分更多地被約束為良好的值(假設(shè)共享是合理的),往往能更好
入差別最小的三層神經(jīng)網(wǎng)絡(luò)的隱層,由于模型容量的限制以及稀疏性約束,使得得到的模型能夠學(xué)習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更具有表示能力的特征;在學(xué)習(xí)得到n-l層后,將n-l層的輸出作為第n層的輸入,訓(xùn)練第n層,由此分別得到各層的參數(shù)。自頂向下的監(jiān)督學(xué)習(xí)就是通過(guò)帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,
中大部分區(qū)域都是無(wú)效的輸入,感興趣的輸入只分布在包含少量點(diǎn)的子集構(gòu)成的一組流形中,而學(xué)習(xí)函數(shù)中感興趣輸出的變動(dòng)只位于流形中的方向,或者感興趣的變動(dòng)只發(fā)生在我們從一個(gè)流形移動(dòng)到另一個(gè)流形的時(shí)候。流形學(xué)習(xí)是在連續(xù)數(shù)值數(shù)據(jù)和無(wú)監(jiān)督學(xué)習(xí)的設(shè)定下被引入的,盡管這個(gè)概率集中的想法也能夠泛化到離
而,我們可以輕松地通過(guò)重疊的方式觀察到每個(gè)目標(biāo)。argmax的方式也很好理解。如上圖所示,每個(gè)通道只有0或1,以Person的通道為例,紅色的1表示為Person的像素,其他像素均為0。其他通道也是如此,并且不存在同一個(gè)像素點(diǎn)在兩個(gè)以上的通道均為1的情況。因此,通過(guò)argmax就
Attention,即Attention輸出的向量分布是一種one-hot的獨(dú)熱分布或是soft的軟分布,直接影響上下文的信息選擇。加入Attention的原因:1、當(dāng)輸入序列非常長(zhǎng)時(shí),模型難以學(xué)到合理的向量表示2、序列輸入時(shí),隨著序列的不斷增長(zhǎng),原始根據(jù)時(shí)間步的方式的表現(xiàn)越來(lái)越差,由于原始的時(shí)間步模型設(shè)計(jì)的結(jié)構(gòu)有缺
我們到目前為止看到的線性模型和神經(jīng)網(wǎng)絡(luò)的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)我們感興趣的損失函數(shù)都成為了非凸的。這意味著神經(jīng)網(wǎng)絡(luò)的訓(xùn)練通常使用的迭代的、基于梯度的優(yōu)化,僅僅使得代價(jià)函數(shù)達(dá)到一個(gè)非常小的值;而不是像用于訓(xùn)練線性回歸模型的線性方程求解器,或者用于訓(xùn)練邏輯回歸或SVM的凸優(yōu)化算
中大部分區(qū)域都是無(wú)效的輸入,感興趣的輸入只分布在包含少量點(diǎn)的子集構(gòu)成的一組流形中,而學(xué)習(xí)函數(shù)中感興趣輸出的變動(dòng)只位于流形中的方向,或者感興趣 變動(dòng)只發(fā)生在我們從一個(gè)流形移動(dòng)到另一個(gè)流形的時(shí)候。流形學(xué)習(xí)是在連續(xù)數(shù)值數(shù)據(jù)和無(wú)監(jiān)督學(xué)習(xí)的設(shè)定下被引入的,盡管這個(gè)概率集中的想法也能夠泛化到離
中大部分區(qū)域都是無(wú)效的輸入,感興趣的輸入只分布在包含少量點(diǎn)的子集構(gòu)成的一組流形中,而學(xué)習(xí)函數(shù)中感興趣輸出的變動(dòng)只位于流形中的方向,或者感興趣的變動(dòng)只發(fā)生在我們從一個(gè)流形移動(dòng)到另一個(gè)流形的時(shí)候。流形學(xué)習(xí)是在連續(xù)數(shù)值數(shù)據(jù)和無(wú)監(jiān)督學(xué)習(xí)的設(shè)定下被引入的,盡管這個(gè)概率集中的想法也能夠泛化到離散
任務(wù)上得到優(yōu)越的性能。至今,基于卷積神經(jīng)網(wǎng)絡(luò)的模式識(shí)別系統(tǒng)是最好的實(shí)現(xiàn)系統(tǒng)之一,尤其在手寫(xiě)體字符識(shí)別任務(wù)上表現(xiàn)出非凡的性能。 深度信任網(wǎng)絡(luò)模型 DBN可以解釋為貝葉斯概率生成模型,由多層隨機(jī)隱變量組成,上面的兩層具有無(wú)向?qū)ΨQ連接,下面的層得到來(lái)自上一層的自頂向下的有向連接,最底層
學(xué)習(xí)深度學(xué)習(xí)是否要先學(xué)習(xí)完機(jī)器學(xué)習(xí),對(duì)于學(xué)習(xí)順序不太了解
神經(jīng)網(wǎng)絡(luò)模型建立好了之后,必然要進(jìn)行模型的評(píng)估來(lái)了解神經(jīng)網(wǎng)絡(luò)的表現(xiàn)。 神經(jīng)網(wǎng)絡(luò)的因變量通常有兩種數(shù)據(jù)類型,定量數(shù)據(jù)和定性數(shù)據(jù)。不同因變量數(shù)據(jù)類型對(duì)應(yīng)的模型誤差的定義也不一樣。當(dāng)因變量為定性數(shù)據(jù)時(shí),模型誤差可以進(jìn)一步分為兩個(gè)類型: 假陽(yáng)性率, FPR False Positive Rate
區(qū)別最大的部分,可以看作是特征學(xué)習(xí)過(guò)程。具體的,先用無(wú)標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時(shí)先學(xué)習(xí)第一層的參數(shù),這層可以看作是得到一個(gè)使得輸出和輸入差別最小的三層神經(jīng)網(wǎng)絡(luò)的隱層,由于模型容量的限制以及稀疏性約束,使得得到的模型能夠學(xué)習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更具有表示能力的特征;在學(xué)
卷積操作就是filter矩陣跟filter覆蓋的圖片局部區(qū)域矩陣對(duì)應(yīng)的每個(gè)元素相乘后累加求和。