互聯(lián)網(wǎng)的崛起、價(jià)廉物美的傳感器和低價(jià)的存儲(chǔ)器令我們?cè)絹碓饺菀撰@取大量數(shù)據(jù)。加之便宜的計(jì)算力,尤其是原本為電腦游戲設(shè)計(jì)的GPU的出現(xiàn),上文描述的情況改變了許多。一瞬間,原本被認(rèn)為不可能的算法和模型變得觸手可及。很顯然,存儲(chǔ)容量沒能跟上數(shù)據(jù)量增長(zhǎng)的步伐。與此同時(shí),計(jì)算力的增長(zhǎng)又蓋過了數(shù)據(jù)量的增長(zhǎng)。這樣的趨勢(shì)使得統(tǒng)計(jì)模型可以在優(yōu)化參數(shù)上投入更多的計(jì)算力,但同時(shí)需要提高存儲(chǔ)的利用效率,例如使用非線性處理單元。這也相應(yīng)導(dǎo)致了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的比較好選擇從廣義線性模型及核方法變化為深度多層神經(jīng)網(wǎng)絡(luò)。這樣的變化正是諸如多層感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)等深度學(xué)習(xí)的支柱模型在過去10年從...
深度學(xué)習(xí)框架中涉及很多參數(shù),如果一些基本的參數(shù)如果不了解,那么你去看任何一個(gè)深度學(xué)習(xí)框架是都會(huì)覺得很困難,下面介紹幾個(gè)新手常問的幾個(gè)參數(shù)。batch深度學(xué)習(xí)的優(yōu)化算法,說白了就是梯度下降。每次的參數(shù)更新有兩種方式。第一種,遍歷全部數(shù)據(jù)集算一次損失函數(shù),然后算函數(shù)對(duì)各個(gè)參數(shù)的梯度,更新梯度。這種方法每更新一次參數(shù)都要把數(shù)據(jù)集里的所有樣本都看一遍,計(jì)算量開銷大,計(jì)算速度慢,不支持在線學(xué)習(xí),這稱為Batchgradientdescent,批梯度下降。另一種,每看一個(gè)數(shù)據(jù)就算一下?lián)p失函數(shù),然后求梯度更新參數(shù),這個(gè)稱為隨機(jī)梯度下降,stochasticgradientdescent。這個(gè)方法...
近年來,研究人員也逐漸將這幾類方法結(jié)合起來,如對(duì)原本是以有監(jiān)督學(xué)習(xí)為基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行無監(jiān)督的預(yù)訓(xùn)練,進(jìn)而利用鑒別信息微調(diào)網(wǎng)絡(luò)參數(shù)形成的卷積深度置信網(wǎng)絡(luò)。與傳統(tǒng)的學(xué)習(xí)方法相比,深度學(xué)習(xí)方法預(yù)設(shè)了更多的模型參數(shù),因此模型訓(xùn)練難度更大,根據(jù)統(tǒng)計(jì)學(xué)習(xí)的一般規(guī)律知道,模型參數(shù)越多,需要參與訓(xùn)練的數(shù)據(jù)量也越大。[2]20世紀(jì)八九十年代由于計(jì)算機(jī)計(jì)算能力有限和相關(guān)技術(shù)的限制,可用于分析的數(shù)據(jù)量太小,深度學(xué)習(xí)在模式分析中并沒有表現(xiàn)出優(yōu)異的識(shí)別性能。自從2006年,Hinton等提出快速計(jì)算受限玻耳茲曼機(jī)(RBM)網(wǎng)絡(luò)權(quán)值及偏差的CD-K算法以后,RBM就成了增加神經(jīng)網(wǎng)絡(luò)深度...
卷積神經(jīng)網(wǎng)絡(luò)–CNNCNN的價(jià)值:能夠?qū)⒋髷?shù)據(jù)量的圖片有效的降維成小數(shù)據(jù)量(并不影響結(jié)果)能夠保留圖片的特征,類似人類的視覺原理CNN的基本原理:卷積層–主要作用是保留圖片的特征池化層–主要作用是把數(shù)據(jù)降維,可以有效的避免過擬合全連接層–根據(jù)不同任務(wù)輸出我們想要的結(jié)果CNN的實(shí)際應(yīng)用:圖片分類、檢索目標(biāo)定位檢測(cè)目標(biāo)分割人臉識(shí)別骨骼識(shí)別了解更多《一文看懂卷積神經(jīng)網(wǎng)絡(luò)-CNN(基本原理+獨(dú)特價(jià)值+實(shí)際應(yīng)用)》循環(huán)神經(jīng)網(wǎng)絡(luò)–RNNRNN是一種能有效的處理序列數(shù)據(jù)的算法。比如:文章內(nèi)容、語(yǔ)音音頻、**價(jià)格走勢(shì)…之所以他能處理序列數(shù)據(jù),是因?yàn)樵谛蛄兄星懊娴妮斎胍矔?huì)影響到后面的輸出,相當(dāng)于有了...
1981年的諾貝爾醫(yī)學(xué)獎(jiǎng),頒發(fā)給了DavidHubel(出生于加拿大的美國(guó)神經(jīng)生物學(xué)家)和TorstenWiesel,以及RogerSperry。前兩位的主要貢獻(xiàn),是“發(fā)現(xiàn)了視覺系統(tǒng)的信息處理”:可視皮層是分級(jí)的:我們看看他們做了什么。1958年,DavidHubel和TorstenWiesel在JohnHopkinsUniversity,研究瞳孔區(qū)域與大腦皮層神經(jīng)元的對(duì)應(yīng)關(guān)系。他們?cè)谪埖暮竽X頭骨上,開了一個(gè)3毫米的小洞,向洞里插入電極,測(cè)量神經(jīng)元的活躍程度。然后,他們?cè)谛∝埖难矍埃宫F(xiàn)各種形狀、各種亮度的物體。并且,在展現(xiàn)每一件物體時(shí),還改變物體放置的位置和角度。他們期望通過這個(gè)...
1981年的諾貝爾醫(yī)學(xué)獎(jiǎng),頒發(fā)給了DavidHubel(出生于加拿大的美國(guó)神經(jīng)生物學(xué)家)和TorstenWiesel,以及RogerSperry。前兩位的主要貢獻(xiàn),是“發(fā)現(xiàn)了視覺系統(tǒng)的信息處理”:可視皮層是分級(jí)的:我們看看他們做了什么。1958年,DavidHubel和TorstenWiesel在JohnHopkinsUniversity,研究瞳孔區(qū)域與大腦皮層神經(jīng)元的對(duì)應(yīng)關(guān)系。他們?cè)谪埖暮竽X頭骨上,開了一個(gè)3毫米的小洞,向洞里插入電極,測(cè)量神經(jīng)元的活躍程度。然后,他們?cè)谛∝埖难矍埃宫F(xiàn)各種形狀、各種亮度的物體。并且,在展現(xiàn)每一件物體時(shí),還改變物體放置的位置和角度。他們期望通過這個(gè)...
現(xiàn)代統(tǒng)計(jì)學(xué)在20世紀(jì)的真正起飛要?dú)w功于數(shù)據(jù)的收集和發(fā)布。統(tǒng)計(jì)學(xué)巨匠之一羅納德·費(fèi)雪(1890–1962)對(duì)統(tǒng)計(jì)學(xué)理論和統(tǒng)計(jì)學(xué)在基因?qū)W中的應(yīng)用功不可沒。他發(fā)明的許多算法和公式,例如線性判別分析和費(fèi)雪信息,仍經(jīng)常被使用。即使是他在1936年發(fā)布的Iris數(shù)據(jù)集,仍然偶爾被用于演示機(jī)器學(xué)習(xí)算法??藙诘隆は戕r(nóng)(1916–2001)的信息論以及阿蘭·圖靈(1912–1954)的計(jì)算理論也對(duì)機(jī)器學(xué)習(xí)有深遠(yuǎn)影響。圖靈在他***的論文《計(jì)算機(jī)器與智能》中提出了“機(jī)器可以思考嗎?”這樣一個(gè)問題[1]。在他描述的“圖靈測(cè)試”中,如果一個(gè)人在使用文本交互時(shí)不能區(qū)分他的對(duì)話對(duì)象到底是人類還是機(jī)器的話,那么...
傳統(tǒng)機(jī)器學(xué)習(xí)VS深度學(xué)習(xí)傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的相似點(diǎn)在數(shù)據(jù)準(zhǔn)備和預(yù)處理方面,兩者是很相似的。他們都可能對(duì)數(shù)據(jù)進(jìn)行一些操作:數(shù)據(jù)清洗數(shù)據(jù)標(biāo)簽歸一化去噪降維對(duì)于數(shù)據(jù)預(yù)處理感興趣的可以看看《AI數(shù)據(jù)集**常見的6大問題(附解決方案)》傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的**區(qū)別傳統(tǒng)機(jī)器學(xué)習(xí)的特征提取主要依賴人工,針對(duì)特定簡(jiǎn)單任務(wù)的時(shí)候人工提取特征會(huì)簡(jiǎn)單有效,但是并不能通用。深度學(xué)習(xí)的特征提取并不依靠人工,而是機(jī)器自動(dòng)提取的。這也是為什么大家都說深度學(xué)習(xí)的可解釋性很差,因?yàn)橛袝r(shí)候深度學(xué)習(xí)雖然能有好的表現(xiàn),但是我們并不知道他的原理是什么。深度學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)-成都深度智谷。江西深度學(xué)習(xí)培訓(xùn)教程 深度學(xué)習(xí)...
深度學(xué)習(xí)的優(yōu)缺點(diǎn)優(yōu)點(diǎn)1:學(xué)習(xí)能力強(qiáng)從結(jié)果來看,深度學(xué)習(xí)的表現(xiàn)非常好,他的學(xué)習(xí)能力非常強(qiáng)。優(yōu)點(diǎn)2:覆蓋范圍廣,適應(yīng)性好深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)層數(shù)很多,寬度很廣,理論上可以映射到任意函數(shù),所以能解決很復(fù)雜的問題。優(yōu)點(diǎn)3:數(shù)據(jù)驅(qū)動(dòng),上限高深度學(xué)習(xí)高度依賴數(shù)據(jù),數(shù)據(jù)量越大,他的表現(xiàn)就越好。在圖像識(shí)別、面部識(shí)別、NLP等部分任務(wù)甚至已經(jīng)超過了人類的表現(xiàn)。同時(shí)還可以通過調(diào)參進(jìn)一步提高他的上限。優(yōu)點(diǎn)4:可移植性好由于深度學(xué)習(xí)的優(yōu)異表現(xiàn),有很多框架可以使用,例如TensorFlow、Pytorch。這些框架可以兼容很多平臺(tái)。缺點(diǎn)1:計(jì)算量大,便攜性差深度學(xué)習(xí)需要大量的數(shù)據(jù)很大量的算力,所以成本很高。并...
你可能已經(jīng)接觸過編程,并開發(fā)過一兩款程序。同時(shí)你可能讀過關(guān)于深度學(xué)習(xí)或者機(jī)器學(xué)習(xí)的鋪天蓋地的報(bào)道,盡管很多時(shí)候它們被賦予了更廣義的名字:人工智能。實(shí)際上,或者說幸運(yùn)的是,大部分程序并不需要深度學(xué)習(xí)或者是更廣義上的人工智能技術(shù)。例如,如果我們要為一臺(tái)微波爐編寫一個(gè)用戶界面,只需要一點(diǎn)兒工夫我們便能設(shè)計(jì)出十幾個(gè)按鈕以及一系列能精確描述微波爐在各種情況下的表現(xiàn)的規(guī)則。再比如,假設(shè)我們要編寫一個(gè)電子郵件客戶端。這樣的程序比微波爐要復(fù)雜一些,但我們還是可以沉下心來一步一步思考:客戶端的用戶界面將需要幾個(gè)輸入框來接受收件人、主題、郵件正文等,程序?qū)?**鍵盤輸入并寫入一個(gè)緩沖區(qū),然后將它們顯示...
區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同在于: [4] (1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層的隱層節(jié)點(diǎn); [4] (2)明確了特征學(xué)習(xí)的重要性。也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)豐富的內(nèi)在信息。 [4] 通過設(shè)計(jì)建立適量的神經(jīng)元計(jì)算節(jié)點(diǎn)和多層運(yùn)算層次結(jié)構(gòu),選擇合適的輸人層和輸出層,通過網(wǎng)絡(luò)的學(xué)習(xí)和調(diào)優(yōu),建立起從輸入到輸出的函數(shù)關(guān)系,雖然不能100%找到輸入與輸出的函數(shù)關(guān)系,但是可以盡可能的逼近現(xiàn)實(shí)的關(guān)聯(lián)關(guān)系。使用訓(xùn)練成功的網(wǎng)絡(luò)模型,就可以實(shí)現(xiàn)我們對(duì)...
深度生成模型可以通過生成全新的樣本來演示其對(duì)于數(shù)據(jù)的理解,盡管這些生成的樣本非常類似于那些訓(xùn)練樣本。許多這樣的模型和之前的自編碼器的思想有關(guān),其有一個(gè)編碼器函數(shù)將數(shù)據(jù)映射到表征,還有一個(gè)解碼器函數(shù)(或生成器)將該抽象的表征映射到原始數(shù)據(jù)空間。此外,生成模型很多也應(yīng)用到了GAN的思想,即通過判別器與生成器之間的對(duì)抗促使生成器生成非常真實(shí)的圖像。在變分自編碼器中,我們需要通過樣本訓(xùn)練一個(gè)編碼器和解碼器,在這過程中我們能得到中間的隱藏變量。若我們需要生成新的圖像,那么只需要在隱藏變量采樣并投入解碼器就能完成生成。而在生成對(duì)抗網(wǎng)絡(luò)中,我們會(huì)定義一個(gè)判別模型與生成模型。首先我們會(huì)將生成的樣本...
互聯(lián)網(wǎng)的崛起、價(jià)廉物美的傳感器和低價(jià)的存儲(chǔ)器令我們?cè)絹碓饺菀撰@取大量數(shù)據(jù)。加之便宜的計(jì)算力,尤其是原本為電腦游戲設(shè)計(jì)的GPU的出現(xiàn),上文描述的情況改變了許多。一瞬間,原本被認(rèn)為不可能的算法和模型變得觸手可及。很顯然,存儲(chǔ)容量沒能跟上數(shù)據(jù)量增長(zhǎng)的步伐。與此同時(shí),計(jì)算力的增長(zhǎng)又蓋過了數(shù)據(jù)量的增長(zhǎng)。這樣的趨勢(shì)使得統(tǒng)計(jì)模型可以在優(yōu)化參數(shù)上投入更多的計(jì)算力,但同時(shí)需要提高存儲(chǔ)的利用效率,例如使用非線性處理單元。這也相應(yīng)導(dǎo)致了機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的比較好選擇從廣義線性模型及核方法變化為深度多層神經(jīng)網(wǎng)絡(luò)。這樣的變化正是諸如多層感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)等深度學(xué)習(xí)的支柱模型在過去10年從...
深度學(xué)習(xí)是一類模式分析方法的統(tǒng)稱,就具體研究?jī)?nèi)容而言,主要涉及三類方法:[2](1)基于卷積運(yùn)算的神經(jīng)網(wǎng)絡(luò)系統(tǒng),即卷積神經(jīng)網(wǎng)絡(luò)(CNN)。[2](2)基于多層神經(jīng)元的自編碼神經(jīng)網(wǎng)絡(luò),包括自編碼(Autoencoder)以及近年來受到***關(guān)注的稀疏編碼兩類(SparseCoding)。[2](3)以多層自編碼神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行預(yù)訓(xùn)練,進(jìn)而結(jié)合鑒別信息進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的深度置信網(wǎng)絡(luò)(DBN)。[2]通過多層處理,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡(jiǎn)單模型”即可完成復(fù)雜的分類等學(xué)習(xí)任務(wù)。由此可將深度學(xué)習(xí)理解為進(jìn)行“特征學(xué)習(xí)”(featurelearning...
Capsule是由深度學(xué)習(xí)先驅(qū)GeoffreyHinton等人提出的新一代神經(jīng)網(wǎng)絡(luò)形式,旨在修正反向傳播機(jī)制。「Capsule是一組神經(jīng)元,其輸入輸出向量表示特定實(shí)體類型的實(shí)例化參數(shù)(即特定物體、概念實(shí)體等出現(xiàn)的概率與某些屬性)。我們使用輸入輸出向量的長(zhǎng)度表征實(shí)體存在的概率,向量的方向表示實(shí)例化參數(shù)(即實(shí)體的某些圖形屬性)。同一層級(jí)的capsule通過變換矩陣對(duì)更高級(jí)別的capsule的實(shí)例化參數(shù)進(jìn)行預(yù)測(cè)。當(dāng)多個(gè)預(yù)測(cè)一致時(shí)(論文中使用動(dòng)態(tài)路由使預(yù)測(cè)一致),更高級(jí)別的capsule將變得活躍?!蛊款i對(duì)深度學(xué)習(xí)的主要批評(píng)是許多方法缺乏理論支撐。大多數(shù)深度結(jié)構(gòu)**是梯度下降的某些變式。盡...
到***你將能夠?構(gòu)建和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)、實(shí)施向量化神經(jīng)網(wǎng)絡(luò)、識(shí)別架構(gòu)參數(shù)并將DL應(yīng)用于您的應(yīng)用程序?使用比較好實(shí)踐來訓(xùn)練和開發(fā)測(cè)試集并分析偏差/方差以構(gòu)建深度學(xué)習(xí)應(yīng)用程序、使用標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)技術(shù)、應(yīng)用優(yōu)化算法并在TensorFlow中實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)?使用減少機(jī)器學(xué)習(xí)系統(tǒng)錯(cuò)誤的策略,了解復(fù)雜的機(jī)器學(xué)習(xí)設(shè)置,并應(yīng)用端到端、遷移和多任務(wù)學(xué)習(xí)?構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),將其應(yīng)用于視覺檢測(cè)和識(shí)別任務(wù),使用神經(jīng)風(fēng)格遷移生成藝術(shù)作品,并將這些算法應(yīng)用于圖像、視頻和其他2D/3D數(shù)據(jù)?構(gòu)建和訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體(GRU、LSTM),將RNN應(yīng)用于字符級(jí)語(yǔ)言建模,使用NLP和詞嵌入,并使用HuggingFace標(biāo)記器...
截止現(xiàn)在,也出現(xiàn)了不少NB的特征(好的特征應(yīng)具有不變性(大小、尺度和旋轉(zhuǎn)等)和可區(qū)分性):例如Sift的出現(xiàn),是局部圖像特征描述子研究領(lǐng)域一項(xiàng)里程碑式的工作。由于SIFT對(duì)尺度、旋轉(zhuǎn)以及一定視角和光照變化等圖像變化都具有不變性,并且SIFT具有很強(qiáng)的可區(qū)分性,的確讓很多問題的解決變?yōu)榭赡?。但它也不?**的。然而,手工地選取特征是一件非常費(fèi)力、啟發(fā)式(需要專業(yè)知識(shí))的方法,能不能選取好很大程度上靠經(jīng)驗(yàn)和運(yùn)氣,而且它的調(diào)節(jié)需要大量的時(shí)間。既然手工選取特征不太好,那么能不能自動(dòng)地學(xué)習(xí)一些特征呢?答案是能!DeepLearning就是用來干這個(gè)事情的,看它的一個(gè)別名Unsupervise...
來源于生物學(xué)的靈感是神經(jīng)網(wǎng)絡(luò)名字的由來。這類研究者可以追溯到一個(gè)多世紀(jì)前的亞歷山大·貝恩(1818–1903)和查爾斯·斯科特·謝靈頓(1857–1952)。研究者們嘗試組建模仿神經(jīng)元互動(dòng)的計(jì)算電路。隨著時(shí)間發(fā)展,神經(jīng)網(wǎng)絡(luò)的生物學(xué)解釋被稀釋,但仍保留了這個(gè)名字。時(shí)至***,絕大多數(shù)神經(jīng)網(wǎng)絡(luò)都包含以下的**原則。交替使用線性處理單元與非線性處理單元,它們經(jīng)常被稱為“層”。使用鏈?zhǔn)椒▌t(即反向傳播)來更新網(wǎng)絡(luò)的參數(shù)。在**初的快速發(fā)展之后,自約1995年起至2005年,大部分機(jī)器學(xué)習(xí)研究者的視線從神經(jīng)網(wǎng)絡(luò)上移開了。這是由于多種原因。首先,訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要極強(qiáng)的計(jì)算力。盡管20世紀(jì)末內(nèi)存...
2006年,Hinton提出了在非監(jiān)督數(shù)據(jù)上建立多層神經(jīng)網(wǎng)絡(luò)的一個(gè)有效方法,具體分為兩步:首先逐層構(gòu)建單層神經(jīng)元,這樣每次都是訓(xùn)練一個(gè)單層網(wǎng)絡(luò);當(dāng)所有層訓(xùn)練完后,使用wake-sleep算法進(jìn)行調(diào)優(yōu)。[6]將除**頂層的其他層間的權(quán)重變?yōu)殡p向的,這樣**頂層仍然是一個(gè)單層神經(jīng)網(wǎng)絡(luò),而其他層則變?yōu)榱藞D模型。向上的權(quán)重用于“認(rèn)知”,向下的權(quán)重用于“生成”。然后使用wake-sleep算法調(diào)整所有的權(quán)重。讓認(rèn)知和生成達(dá)成一致,也就是保證生成的**頂層表示能夠盡可能正確的復(fù)原底層的節(jié)點(diǎn)。比如頂層的一個(gè)節(jié)點(diǎn)表示人臉,那么所有人臉的圖像應(yīng)該***這個(gè)節(jié)點(diǎn),并且這個(gè)結(jié)果向下生成的圖像應(yīng)該能夠表現(xiàn)...
來源于生物學(xué)的靈感是神經(jīng)網(wǎng)絡(luò)名字的由來。這類研究者可以追溯到一個(gè)多世紀(jì)前的亞歷山大·貝恩(1818–1903)和查爾斯·斯科特·謝靈頓(1857–1952)。研究者們嘗試組建模仿神經(jīng)元互動(dòng)的計(jì)算電路。隨著時(shí)間發(fā)展,神經(jīng)網(wǎng)絡(luò)的生物學(xué)解釋被稀釋,但仍保留了這個(gè)名字。時(shí)至***,絕大多數(shù)神經(jīng)網(wǎng)絡(luò)都包含以下的**原則。交替使用線性處理單元與非線性處理單元,它們經(jīng)常被稱為“層”。使用鏈?zhǔn)椒▌t(即反向傳播)來更新網(wǎng)絡(luò)的參數(shù)。在**初的快速發(fā)展之后,自約1995年起至2005年,大部分機(jī)器學(xué)習(xí)研究者的視線從神經(jīng)網(wǎng)絡(luò)上移開了。這是由于多種原因。首先,訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要極強(qiáng)的計(jì)算力。盡管20世紀(jì)末內(nèi)存...
好的容量控制方法,如丟棄法,使大型網(wǎng)絡(luò)的訓(xùn)練不再受制于過擬合(大型神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)記憶大部分訓(xùn)練數(shù)據(jù)的行為)[3]。這是靠在整個(gè)網(wǎng)絡(luò)中注入噪聲而達(dá)到的,如訓(xùn)練時(shí)隨機(jī)將權(quán)重替換為隨機(jī)的數(shù)字[4]。注意力機(jī)制解決了另一個(gè)困擾統(tǒng)計(jì)學(xué)超過一個(gè)世紀(jì)的問題:如何在不增加參數(shù)的情況下擴(kuò)展一個(gè)系統(tǒng)的記憶容量和復(fù)雜度。注意力機(jī)制使用了一個(gè)可學(xué)習(xí)的指針結(jié)構(gòu)來構(gòu)建出一個(gè)精妙的解決方法[5]。也就是說,與其在像機(jī)器翻譯這樣的任務(wù)中記憶整個(gè)句子,不如記憶指向翻譯的中間狀態(tài)的指針。由于生成譯文前不需要再存儲(chǔ)整句原文的信息,這樣的結(jié)構(gòu)使準(zhǔn)確翻譯長(zhǎng)句變得可能。記憶網(wǎng)絡(luò)[6]和神經(jīng)編碼器—解釋器[7]這樣的多階設(shè)計(jì)使得針...
許多情況下單塊GPU已經(jīng)不能滿足在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的需要。過去10年內(nèi)我們構(gòu)建分布式并行訓(xùn)練算法的能力已經(jīng)有了極大的提升。設(shè)計(jì)可擴(kuò)展算法的比較大瓶頸在于深度學(xué)習(xí)優(yōu)化算法的**:隨機(jī)梯度下降需要相對(duì)更小的批量。與此同時(shí),更小的批量也會(huì)降低GPU的效率。如果使用1,024塊GPU,每塊GPU的批量大小為32個(gè)樣本,那么單步訓(xùn)練的批量大小將是32,000個(gè)以上。近年來李沐[11]、YangYou等人[12]以及XianyanJia等人[13]的工作將批量大小增至多達(dá)64,000個(gè)樣例,并把在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型的時(shí)間降到了7分鐘。與之相比,**初的訓(xùn)練時(shí)...
為了克服兩種方法的缺點(diǎn),現(xiàn)在一般采用的是一種折中手段,mini-batchgradientdecent,小批的梯度下降,這種方法把數(shù)據(jù)分為若干個(gè)批,按批來更新參數(shù),這樣,一個(gè)批中的一組數(shù)據(jù)共同決定了本次梯度的方向,下降起來就不容易跑偏,減少了隨機(jī)性。另一方面因?yàn)榕臉颖緮?shù)與整個(gè)數(shù)據(jù)集相比小了很多,計(jì)算量也不是很大。基本上現(xiàn)在的梯度下降都是基于mini-batch的,所以深度學(xué)習(xí)框架的函數(shù)中經(jīng)常會(huì)出現(xiàn)batch_size,就是指這個(gè)。關(guān)于如何將訓(xùn)練樣本轉(zhuǎn)換從batch_size的格式可以參考訓(xùn)練樣本的batch_size數(shù)據(jù)的準(zhǔn)備。iterationsiterations(迭代):每...
深度學(xué)習(xí)框架,尤其是基于人工神經(jīng)網(wǎng)絡(luò)的框架可以追溯到1980年福島邦彥提出的新認(rèn)知機(jī),而人工神經(jīng)網(wǎng)絡(luò)的歷史則更為久遠(yuǎn),甚至可以追溯到公元前亞里士多德為了解釋人類大腦的運(yùn)行規(guī)律而提出的聯(lián)想主義心理學(xué)。1989年,揚(yáng)·勒丘恩(YannLeCun)等人開始將1974年提出的標(biāo)準(zhǔn)反向傳播算法應(yīng)用于深度神經(jīng)網(wǎng)絡(luò),這一網(wǎng)絡(luò)被用于手寫郵政編碼識(shí)別,并且在美國(guó)成功地被銀行商業(yè)化應(yīng)用了,轟動(dòng)一時(shí)。2007年前后,杰弗里·辛頓和魯斯蘭·薩拉赫丁諾夫(RuslanSalakhutdinov)提出了一種在前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行有效訓(xùn)練的算法。這一算法將網(wǎng)絡(luò)中的每一層視為無監(jiān)督的受限玻爾茲曼機(jī)(RBM),再使用...