檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://m.cqfng.cn/intl/zh-cn
不再顯示此消息
J 本身。訓(xùn)練深度模型的優(yōu)化算法通常也會(huì)包括一些針對(duì)機(jī)器學(xué)習(xí)目標(biāo)函數(shù)的特定結(jié)構(gòu)進(jìn)行的特化。通常,代價(jià)函數(shù)可寫為訓(xùn)練集上的平均,如J(θ) = E(x,y)∼pˆdata L(f(x; θ), y),中 L 是每個(gè)樣本的損失函數(shù),f(x; θ) 是輸入 x 時(shí)所預(yù)測(cè)的輸出,pˆdata
權(quán)重比例推斷規(guī)則在其他設(shè)定下也是精確的,包括條件正態(tài)輸出的回歸網(wǎng)絡(luò)以及那些隱藏層不包含非線性的深度網(wǎng)絡(luò)。然而,權(quán)重比例推斷規(guī)則對(duì)具有非線性的深度模型僅僅是一個(gè)近似。雖然這個(gè)近似尚未有理論上的分析,但在實(shí)踐中往往效果很好。Goodfellow et al. (2013b) 實(shí)驗(yàn)發(fā)現(xiàn)
損失是沒(méi)有意義的。反之,我們必須使用不同的性能度量,使模型對(duì)每個(gè)樣本都輸出一個(gè)連續(xù)數(shù)值的得分。最常用的方法是輸出模型在一些樣本上概率對(duì)數(shù)的平均值。通常,我們會(huì)更加關(guān)注機(jī)器學(xué)習(xí)算法在未觀測(cè)數(shù)據(jù)上的性能如何,因?yàn)檫@將決定其在現(xiàn)實(shí)生活中的性能如何。因此,我們使用測(cè)試數(shù)據(jù)來(lái)評(píng)估系統(tǒng)性能,同訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)分開。性
輸出一個(gè)連續(xù)數(shù)值的得分。最常用的方法是輸出模型在一些樣本上概率對(duì)數(shù)的平均值。 通常,我們會(huì)更加關(guān)注機(jī)器學(xué)習(xí)算法在未觀測(cè)數(shù)據(jù)上的性能如何,因?yàn)檫@將決定其在現(xiàn)實(shí)生活中的性能如何。因此,我們使用測(cè)試數(shù)據(jù)來(lái)評(píng)估系統(tǒng)性能,同訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)分開。性能度量的選擇或許看上去簡(jiǎn)
機(jī)器學(xué)習(xí)可以讓我們解決一些人為設(shè)計(jì)和實(shí)現(xiàn)固定程序很難解決的問(wèn)題。從科學(xué)和哲學(xué)的角度來(lái)看,機(jī)器學(xué)習(xí)受到關(guān)注是因?yàn)樘岣呶覀儗?duì)機(jī)器學(xué)習(xí)的認(rèn)識(shí)需要提高我們對(duì)智能背后原理的理解。 如果考慮 “任務(wù)”比較正式的定義,那么學(xué)習(xí)的過(guò)程并不是任務(wù)。 在相對(duì)正式的 “任務(wù)
FCN的網(wǎng)絡(luò)結(jié)構(gòu):網(wǎng)絡(luò)結(jié)構(gòu)詳細(xì)圖:FCN與CNN的區(qū)別:CNN網(wǎng)絡(luò):在卷積層之后會(huì)接上若干個(gè)全連接層, 將卷積層產(chǎn)生的特征圖(feature map)映射成一個(gè)固定長(zhǎng)度的特征向量。FNN網(wǎng)絡(luò):把cnn最后的全連接層轉(zhuǎn)換成卷積層,輸出一種輸出的是一張已經(jīng)Label好的圖片(語(yǔ)義分割
深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的一個(gè)重要方面是代價(jià)函數(shù)的選擇。幸運(yùn)的是,神經(jīng)網(wǎng)絡(luò)的代價(jià)函數(shù)或多或少是和其他的參數(shù)模型例如線性模型的代價(jià)函數(shù)相同的。 在大多數(shù)情況下,我們的參數(shù)模型定義了一個(gè)分布 p(y | x; θ) 并且我們簡(jiǎn)單地使用最大似然原理。這意味著我們使
沒(méi)有免費(fèi)午餐定理暗示我們必須在特定任務(wù)上設(shè)計(jì)性能良好的機(jī)器學(xué)習(xí)算法。我們建立一組學(xué)習(xí)算法的偏好來(lái)達(dá)到這個(gè)要求。當(dāng)這些偏好和我們希望算法解決的學(xué)習(xí)問(wèn)題相吻合時(shí),性能會(huì)更好。 至此,我們具體討論修改學(xué)習(xí)算法的方法只有,通過(guò)增加或減少學(xué)習(xí)算法可選假設(shè)空間的函數(shù)來(lái)增加或減少模型的容量。我們列舉的一個(gè)具體實(shí)例是線
單元可以學(xué)習(xí)具有多達(dá) k 段的分段線性的凸函數(shù)。maxout 單元因此可以視為學(xué)習(xí)激活函數(shù)本身而不僅僅是單元之間的關(guān)系。使用足夠大的 k,maxout 單元可以以任意的精確度來(lái)近似任何凸函數(shù)。特別地,具有兩塊的 maxout 層可以學(xué)習(xí)實(shí)現(xiàn)和傳統(tǒng)層相同的輸入 x 的函數(shù),這些傳
學(xué)習(xí)過(guò)程中獲得的信息對(duì)諸如文字,圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識(shí)別文字、圖像和聲音等數(shù)據(jù)。 深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,在語(yǔ)音和圖像識(shí)別方面取得的效果,遠(yuǎn)遠(yuǎn)超過(guò)先前相關(guān)技術(shù)。深度學(xué)習(xí)在搜索技術(shù),數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),
從數(shù)學(xué)上來(lái)看,深度神經(jīng)網(wǎng)絡(luò)僅僅是一種函數(shù)的表達(dá)形式,是復(fù)雜的多層復(fù)合函數(shù)。由于它有大量的可調(diào)參數(shù),而且近年來(lái)隨著大數(shù)據(jù)、優(yōu)化算法和并行計(jì)算GPU硬件的發(fā)展,使得用大規(guī)模的神經(jīng)網(wǎng)絡(luò)來(lái)逼近和擬合大數(shù)據(jù)成為可能。
早先我們討論過(guò)和訓(xùn)練數(shù)據(jù)相同分布的樣本組成的測(cè)試集可以用來(lái)估計(jì)學(xué)習(xí)過(guò)程完成之后的學(xué)習(xí)器的泛化誤差。其重點(diǎn)在于測(cè)試樣本不能以任何形式參與到模型的選擇,包括設(shè)定超參數(shù)?;谶@個(gè)原因,測(cè)試集中的樣本不能用于驗(yàn)證集。因此,我們總是從訓(xùn)練數(shù)據(jù)中構(gòu)建驗(yàn)證集。特別地,我們將訓(xùn)練數(shù)據(jù)分成兩個(gè)不相交的子集。其中一個(gè)
《機(jī)器學(xué)習(xí)》--周志華下面在那一個(gè)具體的例子: 如果我們有6個(gè)數(shù)據(jù),我們選擇用怎么樣的回歸曲線對(duì)它擬合呢?看下圖可以發(fā)現(xiàn)得到的直線 并不能較為準(zhǔn)確的描述訓(xùn)練數(shù)據(jù)的形態(tài),我們說(shuō)這不是一個(gè)良好的擬合,這也叫做欠擬合如果我們?cè)偌尤胍粋€(gè)特征值
機(jī)器學(xué)習(xí)算法和一般優(yōu)化算法不同的一點(diǎn)是,機(jī)器學(xué)習(xí)算法的目標(biāo)函數(shù)通常可以分解為訓(xùn)練樣本上的求和。機(jī)器學(xué)習(xí)中的優(yōu)化算法在計(jì)算參數(shù)的每一次更新時(shí)通常僅使用整個(gè)代價(jià)函數(shù)中一部分項(xiàng)來(lái)估計(jì)代價(jià)函數(shù)的期望值。另一個(gè)促使我們從小數(shù)目樣本中獲得梯度的統(tǒng)計(jì)估計(jì)的動(dòng)機(jī)是訓(xùn)練集的冗余。在最壞的情況下,訓(xùn)練集中所有的
數(shù)據(jù)集分成固定的訓(xùn)練集和固定的測(cè)試集后,若測(cè)試集的誤差很小,這將是有問(wèn)題的。一個(gè)小規(guī)模的測(cè)試集意味著平均測(cè)試誤差估計(jì)的統(tǒng)計(jì)不確定性,使得很難判斷算法 A 是否比算法 B 在給定的任務(wù)上做得更好。當(dāng)數(shù)據(jù)集有十萬(wàn)計(jì)或者更多的樣本時(shí),這不會(huì)是一個(gè)嚴(yán)重的問(wèn)題。當(dāng)數(shù)據(jù)集太小時(shí),也有替代方法
將數(shù)據(jù)集分成固定的訓(xùn)練集和固定的測(cè)試集后,若測(cè)試集的誤差很小,這將是有問(wèn)題的。一個(gè)小規(guī)模的測(cè)試集意味著平均測(cè)試誤差估計(jì)的統(tǒng)計(jì)不確定性,使得很難判斷算法 A 是否比算法 B 在給定的任務(wù)上做得更好。 當(dāng)數(shù)據(jù)集有十萬(wàn)計(jì)或者更多的樣本時(shí),這不會(huì)是一個(gè)嚴(yán)重的問(wèn)題。當(dāng)數(shù)據(jù)集太
為了更精確地描述反向傳播算法,使用更精確的計(jì)算圖(computational graph)語(yǔ)言是很有幫助的。將計(jì)算形式化為圖形的方法有很多。這里,我們使用圖中的每一個(gè)節(jié)點(diǎn)來(lái)表示一個(gè)變量。變量可以是標(biāo)量、向量、矩陣、張量、或者甚至是另一類型的變量。為了形式化我們的圖形,我們還需引入操作(ope
brary的方式供用戶使用,將模型的IR轉(zhuǎn)化為引擎內(nèi)部的IR表示,然后映射綁定到對(duì)應(yīng)硬件的算子實(shí)現(xiàn),最后使用引擎的runtime來(lái)啟動(dòng)推理計(jì)算。基于自家的處理器和高度定制的算子實(shí)現(xiàn),推理引擎能夠達(dá)到非常極致的優(yōu)化性能。但是推理引擎的架構(gòu)決定了不能很好的覆蓋所有原生框架的算子(模型
1999)。核機(jī)器的一個(gè)主要缺點(diǎn)是計(jì)算決策函數(shù)的成本關(guān)于訓(xùn)練樣本的數(shù)目是線性的。因?yàn)榈?i 個(gè)樣本貢獻(xiàn) αik(x, x(i)) 到?jīng)Q策函數(shù)。支持向量機(jī)能夠通過(guò)學(xué)習(xí)主要包含零的向量 α,以緩和這個(gè)缺點(diǎn)。那么判斷新樣本的類別僅需要計(jì)算非零 αi 對(duì)應(yīng)的訓(xùn)練樣本的核函數(shù)。這些訓(xùn)練樣本被稱為支持向量
在有限區(qū)間中均勻分布。許多先驗(yàn)偏好于“更簡(jiǎn)單” 的解決方法(如小幅度的系數(shù),或是接近常數(shù)的函數(shù))。 貝葉斯估計(jì)通常使用的情況下,先驗(yàn)開始是相對(duì)均勻的分布或高熵的高斯分布,觀測(cè)數(shù)據(jù)通常會(huì)使后驗(yàn)的熵下降,并集中在參數(shù)的幾個(gè)可能性很高的值。