非監(jiān)督學(xué)習(xí)非監(jiān)督學(xué)習(xí)中,給定的數(shù)據(jù)集沒(méi)有“正確答案”,所有的數(shù)據(jù)都是一樣的。無(wú)監(jiān)督學(xué)習(xí)的任務(wù)是從給定的數(shù)據(jù)集中,挖掘出潛在的結(jié)構(gòu)。舉個(gè)栗子:我們把一堆貓和狗的照片給機(jī)器,不給這些照片打任何標(biāo)簽,但是我們希望機(jī)器能夠?qū)⑦@些照片分分類(lèi)。將不打標(biāo)簽的照片給機(jī)器通過(guò)學(xué)習(xí),機(jī)器會(huì)把這些照片分為2類(lèi),一類(lèi)都是貓的照片,一類(lèi)都是狗的照片。雖然跟上面的監(jiān)督學(xué)習(xí)看上去結(jié)果差不多,但是有著本質(zhì)的差別:非監(jiān)督學(xué)習(xí)中,雖然照片分為了貓和狗,但是機(jī)器并不知道哪個(gè)是貓,哪個(gè)是狗。對(duì)于機(jī)器來(lái)說(shuō),相當(dāng)于分成了A、B兩類(lèi)。
7.遷移學(xué)習(xí)假設(shè)你是個(gè)零售業(yè)的數(shù)據(jù)科學(xué)家,已經(jīng)花了幾個(gè)月的時(shí)間訓(xùn)練高質(zhì)量模型,用來(lái)將圖像分為襯衫、T恤和Polo衫這三類(lèi)。新任務(wù)是建一個(gè)類(lèi)似的模型,把服裝圖像分為牛仔褲、工裝褲、休閑褲和正裝褲這幾類(lèi)。那么能不能把***個(gè)模型中已建立的知識(shí)轉(zhuǎn)移到第二個(gè)模型中呢?當(dāng)然可以,遷移學(xué)習(xí)可以做到。遷移學(xué)習(xí)是指重復(fù)使用先前訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的一部分,并使其適應(yīng)類(lèi)似的新任務(wù)。具體來(lái)說(shuō)就是,使用先前任務(wù)中訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò),可以傳輸一小部分訓(xùn)練過(guò)的圖層,并將它們與用于新任務(wù)數(shù)據(jù)訓(xùn)練的幾個(gè)圖層組合在一起。通過(guò)添加圖層,新的神經(jīng)網(wǎng)絡(luò)就能快速學(xué)習(xí)并適應(yīng)新的任務(wù)。遷移學(xué)習(xí)的主要優(yōu)點(diǎn)是訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需的數(shù)據(jù)較少,這點(diǎn)尤為重要,因?yàn)樯疃葘W(xué)習(xí)算法的訓(xùn)練既耗時(shí),(計(jì)算資源上)花費(fèi)又高。而且,通常也很難找到足夠的標(biāo)記數(shù)據(jù)來(lái)供培訓(xùn)使用。還是回到上文的例子,假設(shè)襯衫模型中,你用了一個(gè)有20個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),幾次嘗試后,發(fā)現(xiàn)可以遷移其中的18個(gè)襯衫模型層,并能把它們與用來(lái)訓(xùn)練褲子圖像的某個(gè)新的參數(shù)層相結(jié)合。此時(shí),褲子模型將有19個(gè)隱藏層。這兩個(gè)任務(wù)的輸入和輸出不同,但一些概括與兩者都有關(guān)的信息如布料、衣服上扣件和形狀等方面的參數(shù)層可重復(fù)使用。 青海學(xué)習(xí)機(jī)器學(xué)習(xí)培訓(xùn)深度智谷深度人工智能學(xué)院數(shù)據(jù)處理算法模型。
不論是在科研中還是在工業(yè)領(lǐng)域,機(jī)器學(xué)習(xí)都是個(gè)熱門(mén)話題,新的機(jī)器學(xué)習(xí)方法也層出不窮。機(jī)器學(xué)習(xí)發(fā)展迅速又很復(fù)雜。對(duì)初學(xué)者而言,緊跟其發(fā)展無(wú)疑十分困難,即便是對(duì)**們來(lái)說(shuō)也非易事。為揭開(kāi)機(jī)器學(xué)習(xí)的神秘面紗,幫助新手學(xué)習(xí)該領(lǐng)域的**概念,本文會(huì)介紹十種不同的機(jī)器學(xué)習(xí)方法,包括簡(jiǎn)單描述和可視化等,并一一舉例說(shuō)明。機(jī)器學(xué)習(xí)算法(模型)是個(gè)表示某一問(wèn)題(常為商業(yè)問(wèn)題)所包含數(shù)據(jù)信息的數(shù)學(xué)表達(dá)式。設(shè)計(jì)算法是為了分析數(shù)據(jù)從而獲取有用信息。比如,在線零售商想要預(yù)測(cè)下一季度的銷(xiāo)售額時(shí),就可能會(huì)用到機(jī)器學(xué)習(xí)算法,根據(jù)之前的銷(xiāo)售額和其他相關(guān)數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)。同樣,風(fēng)車(chē)制造商可以監(jiān)管重要的設(shè)備,他們給算法提供視頻數(shù)據(jù)使其在訓(xùn)練之后能夠識(shí)別設(shè)備上的裂縫。本文介紹的十種機(jī)器學(xué)習(xí)方法可以讓你對(duì)機(jī)器學(xué)習(xí)有一個(gè)整體的了解。
4.**近領(lǐng)算法——KNNKNN即**近鄰算法,其主要過(guò)程為:1.計(jì)算訓(xùn)練樣本和測(cè)試樣本中每個(gè)樣本點(diǎn)的距離(常見(jiàn)的距離度量有歐式距離,馬氏距離等);2.對(duì)上面所有的距離值進(jìn)行排序;3.選前k個(gè)**小距離的樣本;4.根據(jù)這k個(gè)樣本的標(biāo)簽進(jìn)行投票,得到***的分類(lèi)類(lèi)別;如何選擇一個(gè)比較好的K值,這取決于數(shù)據(jù)。一般情況下,在分類(lèi)時(shí)較大的K值能夠減小噪聲的影響。但會(huì)使類(lèi)別之間的界限變得模糊。一個(gè)較好的K值可通過(guò)各種啟發(fā)式技術(shù)來(lái)獲取,比如,交叉驗(yàn)證。另外噪聲和非相關(guān)性特征向量的存在會(huì)使K近鄰算法的準(zhǔn)確性減小。近鄰算法具有較強(qiáng)的一致性結(jié)果。隨著數(shù)據(jù)趨于無(wú)限,算法保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯算法錯(cuò)誤率的兩倍。對(duì)于一些好的K值,K近鄰保證錯(cuò)誤率不會(huì)超過(guò)貝葉斯理論誤差率。KNN算法的優(yōu)點(diǎn)理論成熟,思想簡(jiǎn)單,既可以用來(lái)做分類(lèi)也可以用來(lái)做回歸;可用于非線性分類(lèi);訓(xùn)練時(shí)間復(fù)雜度為O(n);對(duì)數(shù)據(jù)沒(méi)有假設(shè),準(zhǔn)確度高,對(duì)outlier不敏感;缺點(diǎn)計(jì)算量大;樣本不平衡問(wèn)題(即有些類(lèi)別的樣本數(shù)量很多,而其它樣本的數(shù)量很少);需要大量的內(nèi)存。 深度智谷深度人工智能學(xué)院梯度下降法。
Sigmoid函數(shù):優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,***的應(yīng)用于工業(yè)問(wèn)題上;分類(lèi)時(shí)計(jì)算量非常小,速度很快,存儲(chǔ)資源低;便利的觀測(cè)樣本概率分?jǐn)?shù);對(duì)邏輯回歸而言,多重共線性并不是問(wèn)題,它可以結(jié)合L2正則化來(lái)解決該問(wèn)題;缺點(diǎn):當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好;容易欠擬合,一般準(zhǔn)確度不太高不能很好地處理大量多類(lèi)特征或變量;只能處理兩分類(lèi)問(wèn)題(在此基礎(chǔ)上衍生出來(lái)的softmax可以用于多分類(lèi)),且必須線性可分;對(duì)于非線性特征,需要進(jìn)行轉(zhuǎn)換;3.線性回歸線性回歸是用于回歸的,而不像Logistic回歸是用于分類(lèi),其基本思想是用梯度下降法對(duì)**小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化,當(dāng)然也可以用normalequation直接求得參數(shù)的解,結(jié)果為:而在LWLR(局部加權(quán)線性回歸)中,參數(shù)的計(jì)算表達(dá)式為:由此可見(jiàn)LWLR與LR不同,LWLR是一個(gè)非參數(shù)模型,因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次。優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,計(jì)算簡(jiǎn)單。 深度智谷深度人工智能學(xué)院KT樹(shù)算法。黑龍江機(jī)器學(xué)習(xí)培訓(xùn)上海
深度智谷深度人工智能學(xué)院決策樹(shù)算法培訓(xùn)。四川機(jī)器學(xué)習(xí)培訓(xùn)班哪個(gè)好
fp-growth:求頻繁**的算法,只用遍歷數(shù)據(jù)集兩次,就可建立fp樹(shù)遍歷**,求**小項(xiàng)集的出現(xiàn)次數(shù)給所有樣本內(nèi)部排序,并且過(guò)濾掉出現(xiàn)次數(shù)小于閾值的項(xiàng)集用排序好的數(shù)據(jù)建立fp樹(shù),樹(shù)是字典樹(shù),節(jié)點(diǎn)是頻繁**的路徑,值是路徑出現(xiàn)次數(shù)fp樹(shù)建好后,使用header鏈表,自底向上獲得頻繁項(xiàng)mahout的分布式fp:***次遍歷樣本一樣,求**小項(xiàng)集的出現(xiàn)次數(shù)根據(jù)排序的**小項(xiàng)集,分割項(xiàng)集,如a,b,c,d,e,f,g,分割數(shù)據(jù)a,b,c,d,e,f,g;c,d,e,f,g;efg;這樣頻繁**不會(huì)應(yīng)為分片而丟失(可以理解為fp樹(shù)從頂向下分割數(shù)據(jù))基于項(xiàng)目的推薦算法:計(jì)算人-物計(jì)算物-物獲得物和物的相似矩陣在用相似矩陣*人-物,就是人和其他物品的關(guān)聯(lián)度。 四川機(jī)器學(xué)習(xí)培訓(xùn)班哪個(gè)好
成都深度智谷科技有限公司屬于教育培訓(xùn)的高新企業(yè),技術(shù)力量雄厚。深度智谷是一家有限責(zé)任公司企業(yè),一直“以人為本,服務(wù)于社會(huì)”的經(jīng)營(yíng)理念;“誠(chéng)守信譽(yù),持續(xù)發(fā)展”的質(zhì)量方針。公司業(yè)務(wù)涵蓋人工智能培訓(xùn),深度學(xué)習(xí)培訓(xùn),AI培訓(xùn),AI算法工程師培訓(xùn),價(jià)格合理,品質(zhì)有保證,深受廣大客戶的歡迎。深度智谷以創(chuàng)造***產(chǎn)品及服務(wù)的理念,打造高指標(biāo)的服務(wù),引導(dǎo)行業(yè)的發(fā)展。