檢測到您已登錄華為云國際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
池化是一個(gè)幾乎所有做深度學(xué)習(xí)的人都了解的一個(gè)技術(shù),大家對池化如何進(jìn)行前向傳播也都了解,池化的作用也了解一二。然而,池化如何回傳梯度呢,池化回傳梯度的原則是什么呢,最大池化與平均池化的區(qū)別是什么呢,什么時(shí)候選擇最大池化、什么時(shí)候選擇平均池化呢。主要用的池化操作有平均池化、最大池化、
y 是函數(shù)的另外一組輸入變量,但我們并不需要它們的導(dǎo)數(shù)。在學(xué)習(xí)算法中,我們最常需要的梯度是代價(jià)函數(shù)關(guān)于參數(shù)的梯度,即 ∇θJ(θ)。許多機(jī)器學(xué)習(xí)任務(wù)需要計(jì)算其他導(dǎo)數(shù),來作為學(xué)習(xí)過程的一部分,或者用來分析學(xué)得的模型。反向傳播算法也適用于這些任務(wù),不局限于計(jì)算代價(jià)函數(shù)關(guān)于參數(shù)的梯度。通
和泛化能力,而小模型因?yàn)榫W(wǎng)絡(luò)規(guī)模較小,表達(dá)能力有限。因此,可以利用大模型學(xué)習(xí)到的知識(shí)去指導(dǎo)小模型訓(xùn)練,使得小模型具有與大模型相當(dāng)?shù)男阅?,但是參?shù)數(shù)量大幅降低,從而實(shí)現(xiàn)模型壓縮與加速,這就是知識(shí)蒸餾與遷移學(xué)習(xí)在模型優(yōu)化中的應(yīng)用。Hinton等人最早在文章《Distilling the
數(shù)據(jù)依賴性性能是兩種算法之間的主要關(guān)鍵區(qū)別。雖然,當(dāng)數(shù)據(jù)很小時(shí),深度學(xué)習(xí)算法表現(xiàn)不佳。這就是是深度學(xué)習(xí)算法需要大量數(shù)據(jù)才能完美理解的原因。但是,在這種情況下,我們可以看到算法的使用以及他們手工制作的規(guī)則。上圖總結(jié)了這一事實(shí)。硬件依賴通常,深度學(xué)習(xí)依賴于高端機(jī)器,而傳統(tǒng)學(xué)習(xí)依賴于低端機(jī)器
成分學(xué)習(xí) 成分學(xué)習(xí)不僅使用一個(gè)模型的知識(shí),而且使用多個(gè)模型的知識(shí)。人們相信,通過獨(dú)特的信息組合或投入(包括靜態(tài)和動(dòng)態(tài)的),深度學(xué)習(xí)可以比單一的模型在理解和性能上不斷深入。 遷移學(xué)習(xí)是一個(gè)非常明顯的成分學(xué)習(xí)的例子, 基于這樣的一個(gè)想法, 在相似問題上預(yù)訓(xùn)練的模型權(quán)重可以
」換句話說,介質(zhì)不重要,重要的是計(jì)算能力。當(dāng)前,最強(qiáng)大的 AI 系統(tǒng)采用機(jī)器學(xué)習(xí)的一個(gè)分支——深度學(xué)習(xí),這些 AI 系統(tǒng)的算法通過處理互連節(jié)點(diǎn)隱藏層的大量數(shù)據(jù)來學(xué)習(xí),這被稱為深度神經(jīng)網(wǎng)絡(luò)。顧名思義,深度神經(jīng)網(wǎng)絡(luò)受到了人類大腦中真實(shí)神經(jīng)網(wǎng)絡(luò)的啟發(fā),它們的節(jié)點(diǎn)模擬真實(shí)神經(jīng)元?;蛘咧辽俑鶕?jù)
我們將基于深度學(xué)習(xí)的三維重建算法簡要地分為三部分,更詳細(xì)的文獻(xiàn)綜述將會(huì)在后續(xù)的公眾號(hào)的系列文章中做介紹:在傳統(tǒng)三維重建算法中引入深度學(xué)習(xí)方法進(jìn)行改進(jìn)深度學(xué)習(xí)重建算法和傳統(tǒng)三維重建算法進(jìn)行融合,優(yōu)勢互補(bǔ)模仿動(dòng)物視覺,直接利用深度學(xué)習(xí)算法進(jìn)行三維重建1 在傳統(tǒng)三維重建算法中引入深度學(xué)
器學(xué)習(xí)問題中,常見的回歸分析有線性回歸(Linear Regression)、多項(xiàng)式回歸(Polynomial Regression)、邏輯回歸(Logistic Regression)等。本節(jié)重點(diǎn)介紹線性回歸算法,邏輯回歸將在2.3節(jié)重點(diǎn)闡述。線性回歸是一個(gè)很簡單的回歸算法,使
上必須做什么;它必須產(chǎn)生一個(gè)接近 y 的值。 但是訓(xùn)練數(shù)據(jù)并沒有直接指明其他層應(yīng)該怎么做。學(xué)習(xí)算法必須決定如何使用這些層來產(chǎn)生想要的輸出,但是訓(xùn)練數(shù)據(jù)并沒有說每個(gè)單獨(dú)的層應(yīng)該做什么。相反,學(xué)習(xí)算法必須決定如何使用這些層來最好地實(shí)現(xiàn) f∗ 的近似。因?yàn)橛?xùn)練數(shù)據(jù)并沒有給出這些層中的每一層所需的輸出,所以這些層被稱為隱藏層
今天去面試算法崗位,被問到了一個(gè)問題,分享給大家,希望對大家有幫助:決策樹對缺失值是如何處理的?決策樹處理缺失要考慮以下三個(gè)問題: 1、當(dāng)開始選擇哪個(gè)屬性來劃分?jǐn)?shù)據(jù)集時(shí),樣本在某幾個(gè)屬性上有缺失怎么處理:(1)忽略這些缺失的樣本。 (2)填充缺失值,例如給屬性A填充一個(gè)均值或者用
當(dāng)數(shù)據(jù)的維數(shù)很高時(shí),很多機(jī)器學(xué)習(xí)問題變得相當(dāng)困難。這種現(xiàn)象被稱為維數(shù)災(zāi)難 (curse of dimensionality)。特別值得注意的是,一組變量不同的可能配置數(shù)量會(huì)隨著變量數(shù)目的增加而指數(shù)級(jí)增長。維數(shù)災(zāi)難發(fā)生在計(jì)算機(jī)科學(xué)的許多地方,在機(jī)器學(xué)習(xí)中尤其如此。 由維數(shù)災(zāi)難帶來的一個(gè)挑戰(zhàn)是統(tǒng)計(jì)挑戰(zhàn)。如圖5
機(jī)器學(xué)習(xí)的主要挑戰(zhàn)是我們的算法必須能夠在先前未觀測的新輸入上表現(xiàn)良好,而不只是在訓(xùn)練集上效果好。在先前未觀測到的輸入上表現(xiàn)良好的能力被稱為泛化 (generalization)。通常情況下,當(dāng)我們訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí),我們可以訪問訓(xùn)練集,在訓(xùn)練集上計(jì)算一些度量誤差,被稱為訓(xùn)練誤差 (training
對總訓(xùn)練時(shí)間的影響不大。提前終止是一種非常不顯眼的正則化形式,它幾乎不需要改變基本訓(xùn)練過程、目標(biāo)函數(shù)或一組允許的參數(shù)值。這意味著,無需破壞學(xué)習(xí)動(dòng)態(tài)就能很容易地使用提前終止。相對于權(quán)重衰減,必須小心不能使用太多的權(quán)重衰減,以防網(wǎng)絡(luò)陷入不良局部極小點(diǎn)(對應(yīng)于病態(tài)的小權(quán)重)。提前終止可
此策略避免了重新訓(xùn)練模型的高成本,但表現(xiàn)并沒有那么好。例如,驗(yàn)證集的目標(biāo)不一定能達(dá)到之前的目標(biāo)值,所以這種策略甚至不能保證終止。我們會(huì)在算法中更正式地介紹這個(gè)過程。提前終止對減少訓(xùn)練過程的計(jì)算成本也是有用的。除了由于限制訓(xùn)練的迭代次數(shù)而明顯減少的計(jì)算成本,還帶來了正則化的益處(
有時(shí),我們真正關(guān)心的損失函數(shù)(比如分類誤差)并不能被高效地優(yōu)化。例如,即使對于線性分類器而言,精確地最小化 0 − 1 損失通常是不可解的(復(fù)雜度是輸入維數(shù)的指數(shù)級(jí)別)(Marcotte and Savard, 1992)。在這種情況下,我們通常會(huì)優(yōu)化代理損失函數(shù)(surrogate
Convolution / Atrous Convolution)空間可分卷積(Spatially Separable Convolution)深度可分卷積(Depthwise Separable Convolution)平展卷積(Flattened Convolution)分組卷積(Grouped
矩陣和向量相乘矩陣乘法是矩陣運(yùn)算中最重要的操作之一。兩個(gè)矩陣A和B的矩陣相乘是第三個(gè)矩陣C。為了使乘法可被定義,矩陣A的列數(shù)必須和矩陣B的行數(shù)相等。如果矩陣A的形狀是m x n,矩陣B的形狀是n x p,那么矩陣C的形狀是m x p。我們可以通過將兩個(gè)或多個(gè)矩陣并列放置以書寫矩陣乘法,列如
以及計(jì)算從一個(gè)特定的概率分布上采樣得到、使用多種不同的編碼機(jī)制的消息的期望長度。在機(jī)器學(xué)習(xí)中,我們也可以把信息論應(yīng)用在連續(xù)型變量上,而信息論中一些消息長度的解釋不怎么使用。信息論是電子工程和計(jì)算機(jī)科學(xué)的許多領(lǐng)域的基礎(chǔ)。在本書中,我們主要使用信息論的一些關(guān)鍵思想來描述概率分布或者量化概率分布之間的相似性。
坐標(biāo)軸對齊使其算法步驟將不斷來回穿梭于真正的決策函數(shù)。 正如我們已經(jīng)看到的,最近鄰預(yù)測和決策樹都有很多的局限性。盡管如此,在計(jì)算資源受限制時(shí),它們都是很有用的學(xué)習(xí)算法。通過思考復(fù)雜算法和 k-最近鄰或決策樹之間的相似性和差異,我們可以建立對更復(fù)雜學(xué)習(xí)算法的直覺。
條件數(shù)表明函數(shù)相對于輸入的微小變化而變化的快慢程度。輸入被輕微擾動(dòng)而迅速改變的函數(shù)對于科學(xué)計(jì)算來說是可能是有問題的,因?yàn)檩斎胫械纳崛胝`差可能導(dǎo)致輸出的巨大變化??紤]函數(shù) f(x) = A−1x。當(dāng) A ∈ Rn×n 具有特征值分解時(shí),其條件數(shù)為:這是最大和最小特征值的模之比。當(dāng)該