KNNk臨近算法遍歷所有訓(xùn)練樣本,求距離**近的點(diǎn)的結(jié)論,作為***的預(yù)測(cè)結(jié)果MR版:map求樣本距離(key:樣本,value:距離),combine求的**小值,是過濾功能,reduce就有一個(gè)求得距離**小值貝葉斯:貝葉斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)貝葉斯將在屬性條件下的結(jié)論的概率轉(zhuǎn)為:在結(jié)論條件下屬性的概率的乘積*結(jié)論的概率求得樣本屬性的在結(jié)論上的出現(xiàn)次數(shù),樣本結(jié)論的次數(shù),商就是P(B|A)MR版:map求拼接keyvalue(key:屬性-結(jié)論|結(jié)論,value:1)combine求和(key:屬性-結(jié)論|結(jié)論,value:count)reduce和combine相同決策樹:id3香農(nóng)熵根據(jù)香農(nóng)熵比較大的來選擇分裂特征,香農(nóng)熵中的p(x)是在結(jié)論ci下xi的概率,可以寫成p(x,c|c);(c|c)-p(x,c|c)信息增益率p(c|c)-p(x,c|c)/p(x|x)CARTcart的決策樹是二叉樹,每次取特征值得規(guī)則是使得信息雜質(zhì)**少方法一:GINI1-pow(yi/y,2)-pow(yi/y,2)方法二:方差pow(e-yi,2)+pow(e-yi,2)SVM:SVM的原理是用超平面分割數(shù)據(jù),不同分類在超平面的兩側(cè);使得超平面離樣本幾何距離比較大;使用對(duì)偶和梯度上升,調(diào)整超平面的參數(shù)W向量,使得所有樣本都滿足kkt條件wx+b=0為超平面,wx+b=1和wx+b=-1為兩類邊界logistic回歸分類是將y=0|x<a。 深度智谷深度人工智能學(xué)院圖像邊界檢測(cè)。重慶機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)
Sigmoid函數(shù):優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,***的應(yīng)用于工業(yè)問題上;分類時(shí)計(jì)算量非常小,速度很快,存儲(chǔ)資源低;便利的觀測(cè)樣本概率分?jǐn)?shù);對(duì)邏輯回歸而言,多重共線性并不是問題,它可以結(jié)合L2正則化來解決該問題;缺點(diǎn):當(dāng)特征空間很大時(shí),邏輯回歸的性能不是很好;容易欠擬合,一般準(zhǔn)確度不太高不能很好地處理大量多類特征或變量;只能處理兩分類問題(在此基礎(chǔ)上衍生出來的softmax可以用于多分類),且必須線性可分;對(duì)于非線性特征,需要進(jìn)行轉(zhuǎn)換;3.線性回歸線性回歸是用于回歸的,而不像Logistic回歸是用于分類,其基本思想是用梯度下降法對(duì)**小二乘法形式的誤差函數(shù)進(jìn)行優(yōu)化,當(dāng)然也可以用normalequation直接求得參數(shù)的解,結(jié)果為:而在LWLR(局部加權(quán)線性回歸)中,參數(shù)的計(jì)算表達(dá)式為:由此可見LWLR與LR不同,LWLR是一個(gè)非參數(shù)模型,因?yàn)槊看芜M(jìn)行回歸計(jì)算都要遍歷訓(xùn)練樣本至少一次。優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單,計(jì)算簡(jiǎn)單。 重慶機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)深度智谷深度人工智能學(xué)院機(jī)器學(xué)習(xí)就業(yè)。
5.決策樹易于解釋。它可以毫無壓力地處理特征間的交互關(guān)系并且是非參數(shù)化的,因此你不必?fù)?dān)心異常值或者數(shù)據(jù)是否線性可分(舉個(gè)例子,決策樹能輕松處理好類別A在某個(gè)特征維度x的末端,類別B在中間,然后類別A又出現(xiàn)在特征維度x前端的情況)。它的缺點(diǎn)之一就是不支持在線學(xué)習(xí),于是在新樣本到來后,決策樹需要全部重建。另一個(gè)缺點(diǎn)就是容易出現(xiàn)過擬合,但這也就是諸如隨機(jī)森林RF(或提升樹boostedtree)之類的集成方法的切入點(diǎn)。另外,隨機(jī)森林經(jīng)常是很多分類問題的贏家(通常比支持向量機(jī)好上那么一丁點(diǎn)),它訓(xùn)練快速并且可調(diào),同時(shí)你無須擔(dān)心要像支持向量機(jī)那樣調(diào)一大堆參數(shù),所以在以前都一直很受歡迎。決策樹中很重要的一點(diǎn)就是選擇一個(gè)屬性進(jìn)行分枝,因此要注意一下信息增益的計(jì)算公式,并深入理解它。信息熵的計(jì)算公式如下:其中的n**有n個(gè)分類類別(比如假設(shè)是2類問題,那么n=2)。分別計(jì)算這2類樣本在總樣本中出現(xiàn)的概率p1和p2,這樣就可以計(jì)算出未選中屬性分枝前的信息熵?,F(xiàn)在選中一個(gè)屬性xixi用來進(jìn)行分枝,此時(shí)分枝規(guī)則是:如果xi=vxi=v的話,將樣本分到樹的一個(gè)分支;如果不相等則進(jìn)入另一個(gè)分支。很顯然,分支中的樣本很有可能包括2個(gè)類別。
(4)VSM法VSM法即向量空間模型(VectorSpaceModel)法,由Salton等人于60年代末提出。這是**早也是**出名的信息檢索方面的數(shù)學(xué)模型。其基本思想是將文檔表示為加權(quán)的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通過計(jì)算文本相似度的方法來確定待分樣本的類別。當(dāng)文本被表示為空間向量模型的時(shí)候,文本的相似度就可以借助特征向量之間的內(nèi)積來表示。在實(shí)際應(yīng)用中,VSM法一般事先依據(jù)語料庫中的訓(xùn)練樣本和分類體系建立類別向量空間。當(dāng)需要對(duì)一篇待分樣本進(jìn)行分類的時(shí)候,只需要計(jì)算待分樣本和每一個(gè)類別向量的相似度即內(nèi)積,然后選取相似度比較大的類別作為該待分樣本所對(duì)應(yīng)的類別。由于VSM法中需要事先計(jì)算類別的空間向量,而該空間向量的建立又很大程度的依賴于該類別向量中所包含的特征項(xiàng)。根據(jù)研究發(fā)現(xiàn),類別中所包含的非零特征項(xiàng)越多,其包含的每個(gè)特征項(xiàng)對(duì)于類別的表達(dá)能力越弱。因此,VSM法相對(duì)其他分類方法而言,更適合于專業(yè)文獻(xiàn)的分類。 深度智谷深度人工智能學(xué)院極小二乘法算法。
學(xué)習(xí)方式根據(jù)數(shù)據(jù)類型的不同,對(duì)一個(gè)問題的建模有不同的方式。在機(jī)器學(xué)習(xí)或者人工智能領(lǐng)域,人們首先會(huì)考慮算法的學(xué)習(xí)方式。在機(jī)器學(xué)習(xí)領(lǐng)域,有幾種主要的學(xué)習(xí)方式。將算法按照學(xué)習(xí)方式分類是一個(gè)不錯(cuò)的想法,這樣可以讓人們?cè)诮:退惴ㄟx擇的時(shí)候考慮能根據(jù)輸入數(shù)據(jù)來選擇**合適的算法來獲得比較好的結(jié)果。監(jiān)督式學(xué)習(xí):在監(jiān)督式學(xué)習(xí)下,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個(gè)明確的標(biāo)識(shí)或結(jié)果,如對(duì)防垃圾郵件系統(tǒng)中“垃圾郵件”“非垃圾郵件”,對(duì)手寫數(shù)字識(shí)別中的“1“,”2“,”3“,”4“等。在建立預(yù)測(cè)模型的時(shí)候,監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過程,將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較,不斷的調(diào)整預(yù)測(cè)模型,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見應(yīng)用場(chǎng)景如分類問題和回歸問題。常見算法有邏輯回歸(LogisticRegression)和反向傳遞神經(jīng)網(wǎng)絡(luò)(BackPropagationNeuralNetwork)非監(jiān)督式學(xué)習(xí):在非監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見算法包括Apriori算法以及k-Means算法。半監(jiān)督式學(xué)習(xí):在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識(shí)。 深度智谷深度人工智能學(xué)院重慶機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)
深度智谷深度人工智能學(xué)院圖像直方圖操作。重慶機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)
,每個(gè)模型都是基于上一次模型的錯(cuò)誤率來建立的,過分關(guān)注分錯(cuò)的樣本,而對(duì)正確分類的樣本減少關(guān)注度,逐次迭代之后,可以得到一個(gè)相對(duì)較好的模型。是一種典型的boosting算法。下面是總結(jié)下它的優(yōu)缺點(diǎn)。優(yōu)點(diǎn)adaboost是一種有很高精度的分類器??梢允褂酶鞣N方法構(gòu)建子分類器,Adaboost算法提供的是框架。當(dāng)使用簡(jiǎn)單分類器時(shí),計(jì)算出的結(jié)果是可以理解的,并且弱分類器的構(gòu)造極其簡(jiǎn)單。簡(jiǎn)單,不用做特征篩選。不容易發(fā)生overfitting。關(guān)于隨機(jī)森林和GBDT等組合算法,參考這篇文章:機(jī)器學(xué)習(xí)-組合算法總結(jié)缺點(diǎn):對(duì)outlier比較敏感,為避免過擬合提供了很好的理論保證,而且就算數(shù)據(jù)在原特征空間線性不可分,只要給個(gè)合適的核函數(shù),它就能運(yùn)行得很好。在動(dòng)輒超高維的文本分類問題中特別受歡迎??上?nèi)存消耗大,難以解釋,運(yùn)行和調(diào)參也有些煩人,而隨機(jī)森林卻剛好避開了這些缺點(diǎn),比較實(shí)用。優(yōu)點(diǎn)可以解決高維問題,即大型特征空間;能夠處理非線性特征的相互作用;無需依賴整個(gè)數(shù)據(jù);可以提高泛化能力;缺點(diǎn)當(dāng)觀測(cè)樣本很多時(shí),效率并不是很高;對(duì)非線性問題沒有通用解決方案,有時(shí)候很難找到一個(gè)合適的核函數(shù);對(duì)缺失數(shù)據(jù)敏感;對(duì)于核的選擇也是有技巧的。 重慶機(jī)器學(xué)習(xí)培訓(xùn)總結(jié)
成都深度智谷科技有限公司主要經(jīng)營范圍是教育培訓(xùn),擁有一支專業(yè)技術(shù)團(tuán)隊(duì)和良好的市場(chǎng)口碑。公司業(yè)務(wù)涵蓋人工智能培訓(xùn),深度學(xué)習(xí)培訓(xùn),AI培訓(xùn),AI算法工程師培訓(xùn)等,價(jià)格合理,品質(zhì)有保證。公司將不斷增強(qiáng)企業(yè)重點(diǎn)競(jìng)爭(zhēng)力,努力學(xué)習(xí)行業(yè)知識(shí),遵守行業(yè)規(guī)范,植根于教育培訓(xùn)行業(yè)的發(fā)展。深度智谷憑借創(chuàng)新的產(chǎn)品、專業(yè)的服務(wù)、眾多的成功案例積累起來的聲譽(yù)和口碑,讓企業(yè)發(fā)展再上新高。