對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性其實(shí)這里面就包含了上一節(jié)中提到的的五個(gè)問(wèn)題中找出異常數(shù)據(jù),并處理缺失值或者不平衡值,統(tǒng)一成數(shù)據(jù)為數(shù)值型(一致性)等問(wèn)題。首先我們回顧一下數(shù)據(jù)變量類(lèi)型分為Numerical(數(shù)值數(shù)據(jù))和 Categorical(分類(lèi)數(shù)據(jù))。
1.載入各種數(shù)據(jù)科學(xué)以及可視化庫(kù);2.載入數(shù)據(jù):(載入訓(xùn)練集和測(cè)試集:(簡(jiǎn)略觀(guān)察數(shù)據(jù)(head()+shape)));3.數(shù)據(jù)總覽:(通過(guò)describe()來(lái)熟悉數(shù)據(jù)的相關(guān)統(tǒng)計(jì)量;通過(guò)info()來(lái)熟悉數(shù)據(jù)類(lèi)型);4.判斷數(shù)據(jù)缺失和異常(查看每列的存在Nan情況;異常值檢測(cè),注意:在這之前一定要將所有數(shù)據(jù)數(shù)值化)5.了解預(yù)測(cè)值的分布:(總體分布概況(無(wú)界約翰遜分布等);查看skewness and kurtosis;類(lèi)別特征箱形圖可視化;查看預(yù)測(cè)值的具體頻數(shù))6.特征分為類(lèi)別特征和數(shù)字特征(對(duì)這些特征進(jìn)行探索):(6.1并對(duì)類(lèi)別特征查看unique分布;類(lèi)別特征的小提琴圖可視化;類(lèi)別特征的柱形圖可視化類(lèi)別;特征的每個(gè)類(lèi)別頻數(shù)可視化(count_plot);6.2.數(shù)字特征分析:相關(guān)性分析;查看特征的偏度和峰值;每個(gè)數(shù)字特征的分布可視化;數(shù)字特征相互之間的關(guān)系可視化;多變量互相回歸關(guān)系可視化)7. 直接用pandas_profiling生成數(shù)據(jù)報(bào)告這是對(duì)代碼的文字總結(jié)部分,看一下真正的結(jié)果和我實(shí)驗(yàn)做得代碼部分吧,知乎內(nèi)容有限我上傳了代碼附件作為記錄,記錄幾個(gè)問(wèn)題的思考。
Definition:偏度是描述數(shù)據(jù)分布形態(tài)的統(tǒng)計(jì)量,其描述的是某總體取值分布的對(duì)稱(chēng)性,簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)的不對(duì)稱(chēng)程度。Definition:峰度是描述某變量所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量,簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)分布頂?shù)?strong>尖銳程度。然后需要注意的步驟有一點(diǎn)要對(duì)預(yù)測(cè)值的分布有一定的了解,當(dāng)遇到不平衡使,可以使用log變換這樣的trick去做處理
偏度是三階中心距計(jì)算出來(lái)的。
(1)Skewness = 0 ,分布形態(tài)與正態(tài)分布偏度相同。
(2)Skewness > 0 ,正偏差數(shù)值較大,為正偏或右偏。長(zhǎng)尾巴拖在右邊,數(shù)據(jù)右端有較多的極端值。
(3)Skewness < 0 ,負(fù)偏差數(shù)值較大,為負(fù)偏或左偏。長(zhǎng)尾巴拖在左邊,數(shù)據(jù)左端有較多的極端值。
(4)數(shù)值的絕對(duì)值越大,表明數(shù)據(jù)分布越不對(duì)稱(chēng),偏斜程度大。
| Skewness| 越大,分布形態(tài)偏移程度越大。
峰度是四階標(biāo)準(zhǔn)矩計(jì)算出來(lái)的。
(1)Kurtosis=0 與正態(tài)分布的陡緩程度相同。
(2)Kurtosis>0 比正態(tài)分布的高峰更加陡峭——尖頂峰
(3)Kurtosis<0 比正態(tài)分布的高峰來(lái)得平臺(tái)——平頂峰
歡迎光臨 愛(ài)鋒貝 (http://m.7gfy2te7.cn/) | Powered by Discuz! X3.4 |