最顯而易見(jiàn)的部分。任何問(wèn)題都可以用不同的方式解決。你選擇的方法會(huì)影響到最終模型的準(zhǔn)確性、性能以及大小。需要注意一點(diǎn):如果數(shù)據(jù)質(zhì)量差,即使采用最好的算法也無(wú)濟(jì)于事。這被稱為“垃圾進(jìn),垃圾出”(garbae in - garbage out,GIGO)。所以,在把大量心思花到正確率之前,應(yīng)該獲取更多的數(shù)據(jù)。
Part 1:經(jīng)典機(jī)器學(xué)習(xí)算法
經(jīng)典機(jī)器學(xué)習(xí)算法源自1950年代的純統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)家們解決的是諸如尋找數(shù)字中的模式、估計(jì)數(shù)據(jù)點(diǎn)間的距離以及計(jì)算向量方向這樣的形式數(shù)學(xué)(formal math)問(wèn)題。
經(jīng)驗(yàn)法則(rule of thumb)表明,數(shù)據(jù)越復(fù)雜,算法就越復(fù)雜。對(duì)于文本、數(shù)字、表格這樣的數(shù)據(jù),我會(huì)選擇經(jīng)典方法來(lái)操作。這些模型較小,學(xué)習(xí)速度更快,工作流程也更清晰。對(duì)于圖片、視頻以及其他復(fù)雜的大數(shù)據(jù),我肯定會(huì)研究神經(jīng)網(wǎng)絡(luò)。
或者,你可以嘗試使用無(wú)監(jiān)督學(xué)習(xí)。但是印象中,我不記得有什么關(guān)于它的最佳實(shí)踐。無(wú)監(jiān)督學(xué)習(xí)通常用于探索性數(shù)據(jù)分析(exploratory data analysis),而不是作為主要的算法。那些擁有牛津大學(xué)學(xué)位且經(jīng)過(guò)特殊訓(xùn)練的人給機(jī)器投喂了一大堆垃圾然后開(kāi)始觀察:有沒(méi)有聚類呢?沒(méi)有??梢钥吹揭恍┞?lián)系嗎?沒(méi)有。好吧,接下來(lái),你還是想從事數(shù)據(jù)科學(xué)工作的,對(duì)吧?