檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
優(yōu)化閉解。這就要求我們選擇一個(gè)迭代數(shù)值優(yōu)化過(guò)程,如梯度下降等。組合模型,損失函數(shù)和優(yōu)化算法來(lái)構(gòu)建學(xué)習(xí)算法的配方同時(shí)適用于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。線性回歸實(shí)例說(shuō)明了如何適用于監(jiān)督學(xué)習(xí)的。無(wú)監(jiān)督學(xué)習(xí)時(shí),我們需要定義一個(gè)只包含 X 的數(shù)據(jù)集,一個(gè)合適的無(wú)監(jiān)督損失函數(shù)和一個(gè)模型。例如,通過(guò)
源自這樣一個(gè)視角,教員或者老師提供目標(biāo) y 給機(jī)器學(xué)習(xí)系統(tǒng),指導(dǎo)其應(yīng)該做什么。在無(wú)監(jiān)督學(xué)習(xí)中,沒(méi)有教員或者老師,算法必須學(xué)會(huì)在沒(méi)有指導(dǎo)的情況下讓數(shù)據(jù)有意義。盡管無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)并非完全沒(méi)有交集的正式概念,它們確實(shí)有助于粗略分類我們研究機(jī)器學(xué)習(xí)算法時(shí)遇到的問(wèn)題。傳統(tǒng)地,人們將回歸,分類,
通過(guò) torch.autograd 實(shí)現(xiàn)自動(dòng)微分,簡(jiǎn)化梯度計(jì)算。Python 原生集成:API 設(shè)計(jì)與 Python 深度整合,使用習(xí)慣類似 NumPy,學(xué)習(xí)成本低。支持與 Python 生態(tài)工具(如 Jupyter、NumPy、Pandas)無(wú)縫協(xié)作。豐富的生態(tài)系統(tǒng):Torc
地泛化。展示了多任務(wù)學(xué)習(xí)中非常普遍的一種形式,其中不同的監(jiān)督任務(wù)(給定 x預(yù)測(cè) y(i))共享相同的輸入 x 以及一些中間層表示 h(share),能學(xué)習(xí)共同的因素池。該模型通??梢苑譃閮深愊嚓P(guān)的參數(shù):多任務(wù)學(xué)習(xí)在深度學(xué)習(xí)框架中可以以多種方式進(jìn)行,該圖說(shuō)明了任務(wù)共享相同輸入但涉及
深度學(xué)習(xí)系統(tǒng),學(xué)習(xí)的是輸入和輸出之間復(fù)雜的相關(guān)性,但是學(xué)習(xí)不到其間的因果關(guān)系。雖然有人工神經(jīng)網(wǎng)絡(luò)通過(guò)構(gòu)建和加強(qiáng)聯(lián)系,深度學(xué)習(xí)從數(shù)學(xué)上近似了人類神經(jīng)元和突觸的學(xué)習(xí)方式。訓(xùn)練數(shù)據(jù)被饋送到神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)會(huì)逐漸進(jìn)行調(diào)整,直到以正確的方式做出響應(yīng)為止。只要能夠看到很多訓(xùn)練圖像并具有足夠
權(quán)重比例推斷規(guī)則在其他設(shè)定下也是精確的,包括條件正態(tài)輸出的回歸網(wǎng)絡(luò)以及那些隱藏層不包含非線性的深度網(wǎng)絡(luò)。然而,權(quán)重比例推斷規(guī)則對(duì)具有非線性的深度模型僅僅是一個(gè)近似。雖然這個(gè)近似尚未有理論上的分析,但在實(shí)踐中往往效果很好。Goodfellow et al. (2013b) 實(shí)驗(yàn)發(fā)現(xiàn)
Attention機(jī)制Attention mechanism 在序列學(xué)習(xí)任務(wù)上具有巨大的提升作用,在編碼器框架內(nèi),通過(guò)編碼端加入Attention模型,對(duì)源數(shù)據(jù)序列進(jìn)行數(shù)據(jù)加權(quán)變換,或者在解碼端引入Attention模型,對(duì)目標(biāo)數(shù)據(jù)進(jìn)行加權(quán)變化,可以有效提高序列對(duì)序列的自然方式下
沒(méi)有免費(fèi)午餐定理暗示我們必須在特定任務(wù)上設(shè)計(jì)性能良好的機(jī)器學(xué)習(xí)算法。我們建立一組學(xué)習(xí)算法的偏好來(lái)達(dá)到這個(gè)要求。當(dāng)這些偏好和我們希望算法解決的學(xué)習(xí)問(wèn)題相吻合時(shí),性能會(huì)更好。 至此,我們具體討論修改學(xué)習(xí)算法的方法只有,通過(guò)增加或減少學(xué)習(xí)算法可選假設(shè)空間的函數(shù)來(lái)增加或減少模型的容量。我
有時(shí)候,在 x 的所有可能值下最大化或最小化一個(gè)函數(shù) f(x) 不是我們所希望的。相反,我們可能希望在 x 的某些集合 S 中找 f(x) 的最大值或最小值。這被稱為約束優(yōu)化 (constrained optimization)。在約束優(yōu)化術(shù)語(yǔ)中,集合 S 內(nèi)的點(diǎn) x 被稱為可行
一個(gè)利用流形假設(shè)的早期嘗試是切面距離(tangent distance)算法 (Simard et al., 1993, 1998)。它是一種非參數(shù)的最近鄰算法,其中使用的度量不是通用的歐幾里德距離,而是根據(jù)鄰近流形關(guān)于聚集概率的知識(shí)導(dǎo)出的。這個(gè)算法假設(shè)我們嘗試分類的樣本和同一流形上的樣本具有相同的類
存在一些函數(shù)族能夠在網(wǎng)絡(luò)的深度大于某個(gè)值 d 時(shí)被高效地近似,而當(dāng)深度被限制到小于或等于 d 時(shí)需要一個(gè)遠(yuǎn)遠(yuǎn)大于之前的模型。在很多情況下,淺層模型所需的隱藏單元的數(shù)量是 n 的指數(shù)級(jí)。這個(gè)結(jié)果最初被證明是在那些不與連續(xù)可微的神經(jīng)網(wǎng)絡(luò)類似的機(jī)器學(xué)習(xí)模型中出現(xiàn),但現(xiàn)在已經(jīng)擴(kuò)展到了這些模型。第一個(gè)結(jié)果是關(guān)于邏輯門電路的
這種方法由Lasserre et al. (2006) 提出,正則化一個(gè)模型(監(jiān)督模式下訓(xùn)練的分類器)的參數(shù),使其接近另一個(gè)無(wú)監(jiān)督模式下訓(xùn)練的模型(捕捉觀察到的輸入數(shù)據(jù)的分布)的參數(shù)。這種構(gòu)造架構(gòu)使得許多分類模型中的參數(shù)能與之對(duì)應(yīng)的無(wú)監(jiān)督模型的參數(shù)匹配。參數(shù)范數(shù)懲罰是正則化參數(shù)使
{(i − 1)k + 1, . . . , ik}。這提供了一種方法來(lái)學(xué)習(xí)對(duì)輸入 x 空間中多個(gè)方向響應(yīng)的分段線性函數(shù)。maxout 單元可以學(xué)習(xí)具有多達(dá) k 段的分段線性的凸函數(shù)。maxout 單元因此可以視為學(xué)習(xí)激活函數(shù)本身而不僅僅是單元之間的關(guān)系。使用足夠大的 k,maxout
深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的一個(gè)重要方面是代價(jià)函數(shù)的選擇。幸運(yùn)的是,神經(jīng)網(wǎng)絡(luò)的代價(jià)函數(shù)或多或少是和其他的參數(shù)模型例如線性模型的代價(jià)函數(shù)相同的。 在大多數(shù)情況下,我們的參數(shù)模型定義了一個(gè)分布 p(y | x; θ) 并且我們簡(jiǎn)單地使用最大似然原理。這意味著我們使
過(guò)擬合,欠擬合過(guò)擬合(overfitting):學(xué)習(xí)能力過(guò)強(qiáng),以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了。欠擬合(underfitting):學(xué)習(xí)能太差,訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好。下面是直觀解釋:
第一個(gè)支持流形假設(shè) (manifold hypothesis) 的觀察是現(xiàn)實(shí)生活中的圖像,文本,聲音的概率分布都是高度集中的。均勻的噪擾從來(lái)沒(méi)有和這類領(lǐng)域的結(jié)構(gòu)化輸入相似過(guò)。顯示均勻采樣的點(diǎn)看上去像是沒(méi)有信號(hào)時(shí)模擬電視上的靜態(tài)模式。同樣,如果我們均勻地隨機(jī)抽取字母來(lái)生成文件,能有
從數(shù)學(xué)上來(lái)看,深度神經(jīng)網(wǎng)絡(luò)僅僅是一種函數(shù)的表達(dá)形式,是復(fù)雜的多層復(fù)合函數(shù)。由于它有大量的可調(diào)參數(shù),而且近年來(lái)隨著大數(shù)據(jù)、優(yōu)化算法和并行計(jì)算GPU硬件的發(fā)展,使得用大規(guī)模的神經(jīng)網(wǎng)絡(luò)來(lái)逼近和擬合大數(shù)據(jù)成為可能。
在許多情況下,神經(jīng)網(wǎng)絡(luò)在獨(dú)立同分布的測(cè)試集上進(jìn)行評(píng)估已經(jīng)達(dá)到了人類表現(xiàn)。因此,我們自然要懷疑這些模型在這些任務(wù)上是否獲得了真正的人類層次的理解。為了探索網(wǎng)絡(luò)對(duì)底層任務(wù)的理解層次,我們可以探索這個(gè)模型錯(cuò)誤分類的例子。 Szegedy et al. (2014b) 發(fā)現(xiàn),在精度達(dá)到人
這種方法由Lasserre et al. (2006) 提出,正則化一個(gè)模型(監(jiān)督模式下訓(xùn)練的分類器)的參數(shù),使其接近另一個(gè)無(wú)監(jiān)督模式下訓(xùn)練的模型(捕捉觀察到的輸入數(shù)據(jù)的分布)的參數(shù)。這種構(gòu)造架構(gòu)使得許多分類模型中的參數(shù)能與之對(duì)應(yīng)的無(wú)監(jiān)督模型的參數(shù)匹配。參數(shù)范數(shù)懲罰是正則化參數(shù)使