愛(ài)鋒貝

標(biāo)題: 去哪找數(shù)據(jù)?怎么挖掘? [打印本頁(yè)]

作者: 數(shù)碼桃桃    時(shí)間: 2021-12-15 04:15
標(biāo)題: 去哪找數(shù)據(jù)?怎么挖掘?
本文轉(zhuǎn)自簡(jiǎn)道云的知乎回答有哪些「神奇」的數(shù)據(jù)獲取方式?
已經(jīng)將網(wǎng)站匯總成表格,大家可以下載查看:【簡(jiǎn)道云匯總】110+數(shù)據(jù)網(wǎng)站
如果你不是會(huì)爬蟲(chóng)的技術(shù)流,那下面這110+網(wǎng)站可以解決你90%的數(shù)據(jù)需求。
首先,常見(jiàn)的公開(kāi)數(shù)據(jù)網(wǎng)站在https://hao.199it.com/都可以搜索到。

(, 下載次數(shù): 26)
除此之外,補(bǔ)充上面沒(méi)有的一些網(wǎng)站,一共110+,按需選擇:
金融財(cái)經(jīng)數(shù)據(jù)

互聯(lián)網(wǎng)數(shù)據(jù)

營(yíng)銷查詢:
報(bào)告分析:
地理數(shù)據(jù)

水土氣候數(shù)據(jù):
環(huán)境數(shù)據(jù):
遙感數(shù)據(jù):
其他自然人文數(shù)據(jù):
影像數(shù)據(jù):
政府?dāng)?shù)據(jù)

其他細(xì)分行業(yè)數(shù)據(jù)

除去現(xiàn)成的數(shù)據(jù)源,還有一塊就是用python爬取數(shù)據(jù),這也是大數(shù)據(jù)的熱門(mén)模塊。
其實(shí),想要快速學(xué)會(huì)python,除去一些基礎(chǔ)的理論知識(shí)外,最重要的就是項(xiàng)目!項(xiàng)目!項(xiàng)目!
就拿入門(mén)課程來(lái)舉例子吧,我為什么說(shuō)它適合0基礎(chǔ)的呢?有3點(diǎn):

(, 下載次數(shù): 23)
暫時(shí)就說(shuō)這么多吧,想要學(xué)習(xí)完整的Python入門(mén)知識(shí),在【夜曲編程】回復(fù)【免費(fèi)教程】
有了數(shù)據(jù)之后,剩下的事情就是分析和展示數(shù)據(jù)了,這里介紹一下FineBI數(shù)據(jù)分析工具,如果你經(jīng)常用Excel,可以用下這個(gè)數(shù)據(jù)分析工具,能很大程度上提高效率。
FineBI工具在這里:

(, 下載次數(shù): 23)
數(shù)據(jù)分析工具,操作非常簡(jiǎn)單,設(shè)計(jì)頁(yè)面類excel,直接拖拽數(shù)據(jù)字段就能生成圖表??蛇x擇的圖表類型非常多,有很多創(chuàng)意十足的圖表令人眼前一亮,系統(tǒng)自帶的配色方案也好看。進(jìn)階一點(diǎn)的話,還可以拿來(lái)制作Dashboard。

(, 下載次數(shù): 26)
主要面對(duì)的是業(yè)務(wù)人員,不懂編程的也可快速上手,根據(jù)自己需求設(shè)計(jì)出儀表板來(lái)進(jìn)行分析,不再麻煩技術(shù)人員去一個(gè)個(gè)要需求,浪費(fèi)時(shí)間不說(shuō),還不能做出自己想要的效果。自己分析得出想要的結(jié)果,最終幫助企業(yè)做出正確的經(jīng)營(yíng)決策。它的可視化效果也是非常不錯(cuò)的。

(, 下載次數(shù): 25)

(, 下載次數(shù): 24)

-----------------------------
作者: 在水。    時(shí)間: 2021-12-15 06:47
本文轉(zhuǎn)自簡(jiǎn)道云的知乎回答有哪些「神奇」的數(shù)據(jù)獲取方式?
已經(jīng)將網(wǎng)站匯總成表格,大家可以下載查看:【簡(jiǎn)道云匯總】110+數(shù)據(jù)網(wǎng)站
如果你不是會(huì)爬蟲(chóng)的技術(shù)流,那下面這110+網(wǎng)站可以解決你90%的數(shù)據(jù)需求。
首先,常見(jiàn)的公開(kāi)數(shù)據(jù)網(wǎng)站在https://hao.199it.com/都可以搜索到。

(, 下載次數(shù): 22)
除此之外,補(bǔ)充上面沒(méi)有的一些網(wǎng)站,一共110+,按需選擇:
金融財(cái)經(jīng)數(shù)據(jù)

互聯(lián)網(wǎng)數(shù)據(jù)

營(yíng)銷查詢:
報(bào)告分析:
地理數(shù)據(jù)

水土氣候數(shù)據(jù):
環(huán)境數(shù)據(jù):
遙感數(shù)據(jù):
其他自然人文數(shù)據(jù):
影像數(shù)據(jù):
政府?dāng)?shù)據(jù)

其他細(xì)分行業(yè)數(shù)據(jù)

除去現(xiàn)成的數(shù)據(jù)源,還有一塊就是用python爬取數(shù)據(jù),這也是大數(shù)據(jù)的熱門(mén)模塊。
其實(shí),想要快速學(xué)會(huì)python,除去一些基礎(chǔ)的理論知識(shí)外,最重要的就是項(xiàng)目!項(xiàng)目!項(xiàng)目!
就拿入門(mén)課程來(lái)舉例子吧,我為什么說(shuō)它適合0基礎(chǔ)的呢?有3點(diǎn):

(, 下載次數(shù): 29)
暫時(shí)就說(shuō)這么多吧,想要學(xué)習(xí)完整的Python入門(mén)知識(shí),在【夜曲編程】回復(fù)【免費(fèi)教程】
有了數(shù)據(jù)之后,剩下的事情就是分析和展示數(shù)據(jù)了,這里介紹一下FineBI數(shù)據(jù)分析工具,如果你經(jīng)常用Excel,可以用下這個(gè)數(shù)據(jù)分析工具,能很大程度上提高效率。
FineBI工具在這里:
FineBI商業(yè)智能軟件 - 新一代自助大數(shù)據(jù)分析的BI工具
(, 下載次數(shù): 24)
數(shù)據(jù)分析工具,操作非常簡(jiǎn)單,設(shè)計(jì)頁(yè)面類excel,直接拖拽數(shù)據(jù)字段就能生成圖表??蛇x擇的圖表類型非常多,有很多創(chuàng)意十足的圖表令人眼前一亮,系統(tǒng)自帶的配色方案也好看。進(jìn)階一點(diǎn)的話,還可以拿來(lái)制作Dashboard。

(, 下載次數(shù): 21)
主要面對(duì)的是業(yè)務(wù)人員,不懂編程的也可快速上手,根據(jù)自己需求設(shè)計(jì)出儀表板來(lái)進(jìn)行分析,不再麻煩技術(shù)人員去一個(gè)個(gè)要需求,浪費(fèi)時(shí)間不說(shuō),還不能做出自己想要的效果。自己分析得出想要的結(jié)果,最終幫助企業(yè)做出正確的經(jīng)營(yíng)決策。它的可視化效果也是非常不錯(cuò)的。

(, 下載次數(shù): 22)

(, 下載次數(shù): 22)
FineBI商業(yè)智能軟件 - 新一代自助大數(shù)據(jù)分析的BI工具
作者: 小心肝    時(shí)間: 2021-12-15 08:42
答主整理了一些主流、免費(fèi)、省力獲取數(shù)據(jù)的網(wǎng)站,推薦給大家。
一、中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局>>國(guó)家數(shù)據(jù)
網(wǎng)址:http://data.stats.gov.cn/
主要包含:國(guó)民經(jīng)濟(jì)、人口、對(duì)外經(jīng)濟(jì)貿(mào)易、能源、財(cái)政、價(jià)格、農(nóng)業(yè)、工業(yè)、運(yùn)輸、旅游、教育、科技、衛(wèi)生等數(shù)據(jù),可以按年度、季度、月度查詢。
可以免費(fèi)下載

(, 下載次數(shù): 22)
另外在國(guó)際數(shù)據(jù)目錄下,有“各國(guó)數(shù)據(jù)”,這里鏈接了各個(gè)國(guó)家的權(quán)威統(tǒng)計(jì)網(wǎng)站哦,善于科學(xué)上網(wǎng),你就可以擁有這些數(shù)據(jù)!

(, 下載次數(shù): 24)
二、世界銀行——各國(guó)發(fā)展數(shù)據(jù)
網(wǎng)址:https://data.worldbank.org.cn/ (cn域名的外國(guó)網(wǎng)站哦,不需科學(xué)上網(wǎng),就能暢快瀏覽)
主要包含:各國(guó)相關(guān)的發(fā)展數(shù)據(jù),而且資金等數(shù)據(jù)有多個(gè)維度可以查看。
數(shù)據(jù)可以免費(fèi)下載

(, 下載次數(shù): 30)
點(diǎn)擊數(shù)據(jù)目錄,就可以查看并下載相關(guān)數(shù)據(jù)啦。

(, 下載次數(shù): 23)

(, 下載次數(shù): 21)
以上,如果大家有關(guān)注B站的可視化作品的話,就會(huì)發(fā)現(xiàn),90%UP主所使用的數(shù)據(jù),都來(lái)自上面兩個(gè)網(wǎng)站。

(, 下載次數(shù): 24)
三、GitHub——高質(zhì)量公共數(shù)據(jù)集
網(wǎng)址:https://github.com/awesomedata/awesome-public-datasets
主要包含:農(nóng)業(yè)、生物、計(jì)算機(jī)、天氣、經(jīng)濟(jì)學(xué)、博物館、機(jī)器學(xué)習(xí)等你能想到的幾乎所有數(shù)據(jù)
大部分免費(fèi),部分收費(fèi)
隨便截個(gè)目錄,給大家感受一下。

(, 下載次數(shù): 25)
四、其他
國(guó)內(nèi)也有很多企業(yè)數(shù)據(jù)交易的網(wǎng)站,但大多收費(fèi),Kaggle平臺(tái)上數(shù)據(jù)比較干凈也免費(fèi),但是需要會(huì)點(diǎn)代碼。
所以答主建議大家,如果僅是個(gè)人研究分析用的話,從上面三個(gè)網(wǎng)站上獲取主要數(shù)據(jù)就可以了。
作者: 婷婷吖    時(shí)間: 2021-12-15 10:13
今天有個(gè)事情震驚到我了,某家公司為了找到在外部平臺(tái)發(fā)帖的員工,直接爬取另一家公司的數(shù)據(jù)?
拼多多的HR親自告訴大家數(shù)據(jù)獲取的一種方式,這年頭,如果不會(huì)爬取數(shù)據(jù)還不能做HR了?
內(nèi)卷就是這么來(lái)的吧。

(, 下載次數(shù): 22)
這數(shù)據(jù)可真有意思,比各種報(bào)告來(lái)的充實(shí)多了。
言歸正傳,還是要看一下數(shù)據(jù)的獲取方式的,這也是做數(shù)據(jù)分析的基礎(chǔ)。
一、怎么找數(shù)據(jù)?
二、怎么看待數(shù)據(jù)?
并不是有了數(shù)據(jù)就能直接用的,你得去看看能不能用,準(zhǔn)確性怎么樣,不然好不容易分析好一個(gè)東西,到頭來(lái)告訴你數(shù)據(jù)不對(duì)。
一個(gè)圖總結(jié)一下吧:

(, 下載次數(shù): 22)
三、數(shù)據(jù)不準(zhǔn)確怎么辦?
就像上面說(shuō)的,不是所有的數(shù)據(jù)都是準(zhǔn)確的,所以自己對(duì)各種數(shù)據(jù)需要有一個(gè)鑒別的能力,同時(shí)也有外部搜索的能力,看看能不能對(duì)上,不要怕麻煩。
好比數(shù)據(jù)分析或者數(shù)據(jù)分析師的價(jià)值,其實(shí)不是具體的數(shù)字,而是對(duì)于某個(gè)業(yè)務(wù)的總體趨勢(shì)判斷和結(jié)合外部數(shù)據(jù)進(jìn)行綜合分析、理解。
四、常用的數(shù)據(jù)源
1、官方統(tǒng)計(jì)數(shù)據(jù):
中國(guó)信通院-研究成果-權(quán)威發(fā)布-白皮書(shū)
中國(guó)經(jīng)濟(jì)信息網(wǎng)
2、咨詢公司報(bào)告:
波士頓咨詢
貝恩咨詢
艾瑞咨詢
3、數(shù)據(jù)分析:
頭條指數(shù)
百度統(tǒng)計(jì)
4、第三方機(jī)構(gòu):
阿里研究院
IT桔子
騰訊大數(shù)據(jù)
199IT
易觀數(shù)據(jù)
5、媒體數(shù)據(jù):
36氪研究院
總結(jié):
就說(shuō)到這里,不用太多,完全夠用了,以上內(nèi)容由李啟方整理創(chuàng)作。
數(shù)據(jù)獲取之后,可以用FineBI進(jìn)行分析:


                               
登錄/注冊(cè)后可看大圖

作者: 平安6。    時(shí)間: 2021-12-15 12:27
數(shù)據(jù)來(lái)源主要有兩個(gè)部分。
爬蟲(chóng)作為目前用的較多的數(shù)據(jù)爬取方法已經(jīng)有很多教程了,但是對(duì)于沒(méi)有代碼基礎(chǔ)的朋友來(lái)說(shuō)短期上手python還是很難得。
因此今天就帆軟君分別給大家介紹一下免費(fèi)的數(shù)據(jù)源網(wǎng)站和一些零基礎(chǔ)小白也可以應(yīng)用的數(shù)據(jù)爬取工具
一、行業(yè)數(shù)據(jù)

互聯(lián)網(wǎng)數(shù)據(jù)
二、免費(fèi)的數(shù)據(jù)源網(wǎng)站

1、簡(jiǎn)單、公開(kāi)的數(shù)據(jù)集
先分享一些科研機(jī)構(gòu)、企業(yè)、政府會(huì)開(kāi)放的一些數(shù)據(jù)集和一些專業(yè)的數(shù)據(jù)下載網(wǎng)站。這些數(shù)據(jù)集一般都比較完善、質(zhì)量相對(duì)較高,拿到手?jǐn)?shù)據(jù)清洗的工作比較少,適合新手做一些簡(jiǎn)單基礎(chǔ)的分析
1)中國(guó)統(tǒng)計(jì)信息網(wǎng):http://www.tjcn.org/
全國(guó)各級(jí)政府各年度的國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)信息,部分?jǐn)?shù)據(jù)免費(fèi)
2)國(guó)家統(tǒng)計(jì)局:http://www.stats.gov.cn/
各種民生相關(guān)的統(tǒng)計(jì)數(shù)據(jù),而且所有數(shù)據(jù)都是免費(fèi),而且這個(gè)網(wǎng)站的友情鏈接里還有很多其他地方的數(shù)據(jù)以及國(guó)外數(shù)據(jù)。

(, 下載次數(shù): 22)
3)中國(guó)產(chǎn)業(yè)信息網(wǎng):http://www.chyxx.com/data/
包含了各個(gè)行業(yè)相關(guān)的數(shù)據(jù),所有的數(shù)據(jù)全部免費(fèi),做行業(yè)分析經(jīng)常用到的

(, 下載次數(shù): 24)
4)美國(guó)政府公開(kāi)數(shù)據(jù):https://www.data.gov/
美國(guó)政府公開(kāi)數(shù)據(jù)的網(wǎng)站,包含了經(jīng)濟(jì)、消費(fèi)、教育、醫(yī)療、農(nóng)業(yè)等多個(gè)領(lǐng)域的數(shù)據(jù)
5)世界銀行:https://data.worldbank.org/
世界銀行的開(kāi)放數(shù)據(jù)。平臺(tái)還提供了一些工具,比如開(kāi)放數(shù)據(jù)目錄,世界發(fā)展指數(shù),教育指數(shù)等。
6)百度數(shù)據(jù)開(kāi)放平臺(tái):https://open.baidu.com/open/#/open

(, 下載次數(shù): 22)
7)國(guó)云數(shù)據(jù)市場(chǎng):http://www.moojnn.com/data-market/
主要包含:生活服務(wù)、教育、能源、建筑、交通運(yùn)輸、政府、金融、農(nóng)業(yè)、醫(yī)療、衛(wèi)生等行業(yè)的數(shù)據(jù),大部分免費(fèi),有些需要付費(fèi)

(, 下載次數(shù): 22)
2、數(shù)據(jù)可視化項(xiàng)目數(shù)據(jù)集
最常見(jiàn)的數(shù)據(jù)可視化項(xiàng)目就是制作某某地區(qū)人均收入?yún)^(qū)別的信息圖,找數(shù)據(jù)可視化項(xiàng)目相關(guān)的數(shù)據(jù)集的時(shí)候,我們希望數(shù)據(jù)集盡量“干凈”,減少數(shù)據(jù)清洗的工作,數(shù)據(jù)要足夠有趣,能夠支撐起豐富的圖表,所以這類的數(shù)據(jù)可以去上面我的說(shuō)一些公開(kāi)數(shù)據(jù)網(wǎng)站找,另外我也列一些除了政府網(wǎng)站之外的相關(guān)網(wǎng)站:
1)FiveThirtyEight:http://fivethirtyeight.com/
這是互動(dòng)式新聞與體育賽事的網(wǎng)站,網(wǎng)站中會(huì)發(fā)布許多數(shù)據(jù)相關(guān)的文章,這些文章中會(huì)把使用到的數(shù)據(jù)集發(fā)布在github上,除了獲取數(shù)據(jù)集,你還可以參考別人的項(xiàng)目過(guò)程
2)Socrata OpenData:https://opendata.socrata.com/
Socrata OpenData 網(wǎng)站包含多個(gè)清洗后的數(shù)據(jù)集,可以直接在瀏覽器中查看,也可以下載到本地進(jìn)行可視化,大部分?jǐn)?shù)據(jù)來(lái)源于美國(guó)政府。
3、數(shù)據(jù)建模、機(jī)器學(xué)習(xí)的數(shù)據(jù)集
1)UCI:https://archive.ics.uci.edu/ml/datasets.html
UCI是加州大學(xué)歐文分校開(kāi)放的經(jīng)典數(shù)據(jù)集,是機(jī)器學(xué)習(xí)領(lǐng)域最有名的數(shù)據(jù)存儲(chǔ)庫(kù)。包含各種數(shù)據(jù)集,比如經(jīng)典的泰坦尼克號(hào)幸存預(yù)測(cè)到最新的數(shù)據(jù)(如空氣質(zhì)量和GPS軌跡)。
2)阿里天池:https://tianchi.aliyun.com/
作為國(guó)內(nèi)互聯(lián)網(wǎng)龍頭阿里巴巴旗下的大數(shù)據(jù)競(jìng)賽網(wǎng)站,提供了很多比賽數(shù)據(jù)集可以練手,說(shuō)不定還能順手拿個(gè)獎(jiǎng),賺點(diǎn)獎(jiǎng)金

(, 下載次數(shù): 22)
3)Kaggle:https://www.kaggle.com/datasets
Kaggle 是一個(gè)舉辦了多項(xiàng)機(jī)器學(xué)習(xí)競(jìng)賽的數(shù)據(jù)科學(xué)社區(qū)。用戶可以自己上傳數(shù)據(jù)集,也可以通過(guò)某項(xiàng)競(jìng)賽下載數(shù)據(jù)集,里面有不少別的平臺(tái)找不到的有趣數(shù)據(jù)集。

(, 下載次數(shù): 22)
4)科賽網(wǎng):https://www.kesci.com/home/project
這個(gè)網(wǎng)站提供了不少數(shù)據(jù)集可以免費(fèi)下載,而且還有一些數(shù)據(jù)項(xiàng)目的比賽,不過(guò)整體來(lái)說(shuō)項(xiàng)目的難度比較低,獎(jiǎng)金也不是很多,學(xué)生參加的比較多,反正單純用來(lái)獲取數(shù)據(jù)集還是很不錯(cuò)的

(, 下載次數(shù): 23)
5)Quandl
這是一個(gè)包含經(jīng)濟(jì)與金融數(shù)據(jù)的倉(cāng)庫(kù)。其中的部分信息是免費(fèi)的,但是大部分?jǐn)?shù)據(jù)集需要購(gòu)買(mǎi),數(shù)據(jù)可以用來(lái)構(gòu)建經(jīng)濟(jì)指標(biāo)預(yù)測(cè)或者股價(jià)分析模型等等。

(, 下載次數(shù): 21)

4、大型數(shù)據(jù)集
有時(shí)候你可能只是想找一些大型的數(shù)據(jù)集來(lái)進(jìn)行分析,分析的結(jié)果可能并不重要,重要的只是對(duì)于數(shù)據(jù)的讀取與分析過(guò)程,練習(xí)數(shù)據(jù)處理能力,這里我也列舉幾個(gè)用的比較多的網(wǎng)站:
1)AWS 公開(kāi)數(shù)據(jù)集:https://www.amazon.com/aws
亞馬遜在其 Amazon Web Services 中提供了一些大型數(shù)據(jù)集可以免費(fèi)下載,不過(guò)你得注冊(cè)一個(gè)aws賬戶,新用戶有免費(fèi)訪問(wèn)的權(quán)限


(, 下載次數(shù): 22)

2)Google 公開(kāi)數(shù)據(jù)集:https://cloud.google.com/bigquery/public-data/
Google提供了一些數(shù)據(jù)集作為其Big Query工具的一部分。包括 GitHub 公共資料庫(kù)的數(shù)據(jù),Hacker News 的所有故事和評(píng)論。
3)Youtube標(biāo)簽視頻數(shù)據(jù)集:https://research.google.com/youtube8m/
Youtube標(biāo)簽視頻數(shù)據(jù)集包括來(lái)自4800個(gè)可視化實(shí)體的800萬(wàn)個(gè)YouTube視頻ID和相關(guān)標(biāo)簽。它具有數(shù)十億幀的預(yù)計(jì)算的、最先進(jìn)的視覺(jué)功能。


(, 下載次數(shù): 23)

三、數(shù)據(jù)爬取工具

1、Microsoft Excel
沒(méi)錯(cuò), Excel可以用來(lái)做數(shù)據(jù)爬取。雖然很多知道Excel可以用來(lái)做數(shù)據(jù)分析,但很少有人知道它還能用來(lái)爬數(shù)
2、火車頭采集器
官網(wǎng)地址:http://www.locoy.com/
火車頭是爬蟲(chóng)界的元老了,是目前使用人數(shù)最多的互聯(lián)網(wǎng)數(shù)據(jù)抓取軟件。它的優(yōu)勢(shì)是采集不限網(wǎng)頁(yè),不限內(nèi)容,同時(shí)還是分布式采集,效率會(huì)高一些。不過(guò)它規(guī)則和操作設(shè)置在我看來(lái)有一些死板,對(duì)小白用戶來(lái)說(shuō)上手也有點(diǎn)困難,需要有一定的網(wǎng)頁(yè)知識(shí)基礎(chǔ)
3、Google Sheet
使用Google Sheet爬取數(shù)據(jù)前,要保證三點(diǎn):使用Chrome瀏覽器、擁有Google賬號(hào)、電腦已翻墻。
4、八爪魚(yú)采集器
網(wǎng)站:https://www.bazhuayu.com/
八爪魚(yú)采集器是用過(guò)最簡(jiǎn)單易用的采集器,很適合新手使用。采集原理類似火車頭采集器,用戶設(shè)定抓取規(guī)則,軟件執(zhí)行。八爪魚(yú)的優(yōu)點(diǎn)是提供了常見(jiàn)抓取網(wǎng)站的模板,如果不會(huì)寫(xiě)規(guī)則, 就直接用套用模板就好了。
它是基于瀏覽器內(nèi)核實(shí)現(xiàn)可視化抓取數(shù)據(jù),所以存在卡頓、采集數(shù)據(jù)慢的現(xiàn)象。不過(guò)整體來(lái)說(shuō)還是不錯(cuò)的,畢竟能基本滿足新手在短時(shí)間抓取數(shù)據(jù)的場(chǎng)景,比如翻頁(yè)查詢,Ajax 動(dòng)態(tài)加載數(shù)據(jù)等。
5、GooSeeker 集搜客
網(wǎng)站:https://www.gooseeker.com/
集搜客也是一款容易上手的可視化采集數(shù)據(jù)工具。同樣能抓取動(dòng)態(tài)網(wǎng)頁(yè),也支持可以抓取手機(jī)網(wǎng)站上的數(shù)據(jù),還支持抓取在指數(shù)圖表上懸浮顯示的數(shù)據(jù)。集搜客是以瀏覽器插件形式抓取數(shù)據(jù)。雖然具有前面所述的優(yōu)點(diǎn),但缺點(diǎn)也有,無(wú)法多線程采集數(shù)據(jù),出現(xiàn)瀏覽器卡頓也在所難免。
6、WebScraper
網(wǎng)址:https://webscraper.io/
WebScraper 是一款優(yōu)秀國(guó)外的瀏覽器插件。同樣也是一款適合新手抓取數(shù)據(jù)的可視化工具。我們通過(guò)簡(jiǎn)單設(shè)置一些抓取規(guī)則,剩下的就交給瀏覽器去工作。
7、Scrapinghub
地址:https://scrapinghub.com/
如果你想抓取國(guó)外的網(wǎng)站數(shù)據(jù),可以考慮 Scrapinghub。它是一個(gè)基于Python 的 Scrapy 框架的云爬蟲(chóng)平臺(tái),安裝和部署挺簡(jiǎn)單的,但是操作界面是純英文的,不太友好,而且性價(jià)比不高,它提供的每個(gè)工具都是單獨(dú)收費(fèi)的。
其實(shí)任何數(shù)據(jù)來(lái)源,看是一方面,分析也是一方面,如果要有分析的話,那就離不開(kāi)一些可以自主使用的數(shù)據(jù)分析工具。
如果數(shù)據(jù)不簡(jiǎn)單,數(shù)據(jù)量也很大,還有不少的數(shù)據(jù)處理工作,甚至你還想要一些酷炫的可視化效果,簡(jiǎn)單快速上手,不妨用一些在線的圖表工具,但是前提是數(shù)據(jù)要在Excel中處理好,如果數(shù)據(jù)量大可能實(shí)現(xiàn)還要在數(shù)據(jù)庫(kù)中處理。
或者一蹴而就用BI分析工具,諸如FineBI(www.finebi.com),分析過(guò)程無(wú)代碼,可以很迅速的出結(jié)果,同時(shí)自帶的可視化圖表基本能滿足大部分使用需求了,適合企業(yè)級(jí)的數(shù)據(jù)分析,如果個(gè)人想拿來(lái)做做報(bào)告什么的也是非常輕松。

(, 下載次數(shù): 22)
作者: 冰之雪    時(shí)間: 2021-12-15 14:50
開(kāi)放數(shù)據(jù)集

包括:      科研數(shù)據(jù)共享        數(shù)據(jù)算法競(jìng)賽        政府公司分享

①Stanford Large Network Datasets
網(wǎng)站: Stanford Large Network Dataset Collection
網(wǎng)站里的數(shù)據(jù)還是挺多的,一般每個(gè)數(shù)據(jù)都是從具體的一篇論文里來(lái)的,也有一個(gè)對(duì)數(shù)據(jù)的說(shuō)明。

(, 下載次數(shù): 23)
推薦其中兩個(gè)比較好的:
soc_Pokec數(shù)據(jù)集  該數(shù)據(jù)集包含了斯洛伐克最流行的社交網(wǎng)站pokec的網(wǎng)絡(luò)信息。  以下是該數(shù)據(jù)集的基本信息

(, 下載次數(shù): 23)
由于該數(shù)據(jù)集包含了非常詳盡完備的整個(gè)社交網(wǎng)站的網(wǎng)絡(luò)信息,是非常具有代表性的公開(kāi)數(shù)據(jù)集。
這個(gè)數(shù)據(jù)集有一百六十多萬(wàn)個(gè)節(jié)點(diǎn),三千多萬(wàn)條邊,文件足足半個(gè)G,是一個(gè)比較大的數(shù)據(jù)集了。
location-based online social networks  數(shù)據(jù)集

(, 下載次數(shù): 21)
該數(shù)據(jù)集Gowalla是一個(gè)簽到網(wǎng)絡(luò)。它將用戶線上和線下行為很好地關(guān)聯(lián)了起來(lái)。
注意: 下面的網(wǎng)站要翻墻啦。
foursquare dataset  網(wǎng)址:https://sites.google.com/site/yangdingqi/home/foursquare-dataset  該數(shù)據(jù)集也是一個(gè)簽到網(wǎng)絡(luò)數(shù)據(jù)集
UCI Machine Learning Repository  跟機(jī)器學(xué)習(xí)相關(guān)的
CRAWDADYour Home for Data Science國(guó)內(nèi)的兩個(gè)數(shù)據(jù)站點(diǎn):
天池大數(shù)據(jù)眾智平臺(tái)-阿里云天池

DataCastle數(shù)據(jù)城堡國(guó)內(nèi)的這些商業(yè)化程度高一點(diǎn) 里面還有一些付費(fèi)的課程。
網(wǎng)絡(luò)爬蟲(chóng)


進(jìn)行數(shù)據(jù)分析工作首先需要獲取數(shù)據(jù),爬蟲(chóng)則是獲取互聯(lián)網(wǎng)上公開(kāi)數(shù)據(jù)的一項(xiàng)利器,也是數(shù)據(jù)分析師一項(xiàng)非常加分的技能。
網(wǎng)絡(luò)爬蟲(chóng)可以分為兩種
基于網(wǎng)站API的爬取
基于網(wǎng)頁(yè)的爬取

(, 下載次數(shù): 21)

就先這些吧~
還有一個(gè)很經(jīng)典的,在社會(huì)網(wǎng)絡(luò)分析里。Network data
像里面的 空手道俱樂(lè)部,海豚網(wǎng)都非常入門(mén) , 導(dǎo)到Gephi里就可以進(jìn)行網(wǎng)絡(luò)分析, 算是一點(diǎn)簡(jiǎn)單的挖掘吧~
作者: 倔強(qiáng)毛驢    時(shí)間: 2021-12-15 16:04
以上數(shù)據(jù)均來(lái)自和鯨社區(qū)
@科賽網(wǎng)Kesci
https://www.kesci.com/home/dataset


yulang:數(shù)據(jù)分析機(jī)器學(xué)習(xí)必備-各行業(yè)的信息(含鏈接)
作者: 暖寶寶    時(shí)間: 2021-12-15 18:26
再補(bǔ)充幾個(gè)可以查宏觀數(shù)據(jù)的網(wǎng)站:
1、中國(guó)統(tǒng)計(jì)局:國(guó)家數(shù)據(jù) 可以查詢國(guó)家的各種數(shù)據(jù),如GDP、CPI、總?cè)丝?、社?huì)消費(fèi)品零售總額、糧食產(chǎn)量、PMI、PPI……數(shù)據(jù)可以免費(fèi)下載成Excel文件,另外也推出了移動(dòng)客戶端:數(shù)據(jù)中國(guó)pro
2、美聯(lián)儲(chǔ)經(jīng)濟(jì)數(shù)據(jù)庫(kù):Federal Reserve Economic Data 查詢到的數(shù)據(jù)以美國(guó)為主,也有少數(shù)其他的西方國(guó)家,可以查詢到50年代的數(shù)據(jù),支持免費(fèi)下載
3、世界銀行:World Bank Open Data 查詢?nèi)蚋鲊?guó)相關(guān)各方面的宏觀數(shù)據(jù),免費(fèi)提供CSV文件下載(Excel可以直接打開(kāi)),非常方便
4、IndexMundi:IndexMundi - Country Facts 包含詳細(xì)的全球各國(guó)的統(tǒng)計(jì)數(shù)據(jù),可以按地區(qū),國(guó)家,主題,行業(yè)部門(mén)和類型組織的幾千種指標(biāo)。它并不是一個(gè)官方組織,而是一個(gè)第三方網(wǎng)站,但是整合了各種數(shù)據(jù)來(lái)源,查詢起來(lái)還是非常方便的,建議可以和世界銀行的數(shù)據(jù)一起結(jié)合使用。

————————————————————————————————————
耗費(fèi)200小時(shí),嘔心瀝血精選數(shù)據(jù)源,包含常用數(shù)據(jù)公開(kāi)網(wǎng)站、政府開(kāi)放網(wǎng)站、數(shù)據(jù)交易平臺(tái),歡迎收藏。
一、公開(kāi)數(shù)據(jù)庫(kù)

?1、常用數(shù)據(jù)公開(kāi)網(wǎng)站

UCI:該網(wǎng)站目前維護(hù)了436個(gè)經(jīng)典的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘數(shù)據(jù)集,包含分類、聚類、回歸等問(wèn)題下的多個(gè)數(shù)據(jù)集。

(, 下載次數(shù): 26)
國(guó)家數(shù)據(jù):數(shù)據(jù)來(lái)源中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局,包含了我國(guó)經(jīng)濟(jì)民生等多個(gè)方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,較為全面。

(, 下載次數(shù): 22)
CEIC:涵蓋超過(guò)195個(gè)國(guó)家400多萬(wàn)個(gè)時(shí)間序列的數(shù)據(jù)源,最完整的一套超過(guò)128個(gè)國(guó)家的經(jīng)濟(jì)數(shù)據(jù),能夠精確查找GDP、CPI、進(jìn)口、出口、外資直接投資、零售、銷售以及國(guó)際利率等深度數(shù)據(jù)。

(, 下載次數(shù): 22)
萬(wàn)得:被譽(yù)為中國(guó)的Bloomberg,在金融業(yè)有著全面的數(shù)據(jù)覆蓋,金融數(shù)據(jù)的類目更新非??欤瑩?jù)說(shuō)很受國(guó)內(nèi)的商業(yè)分析者和投資人的親睞。

(, 下載次數(shù): 28)
搜數(shù)網(wǎng):已加載到搜數(shù)網(wǎng)站的統(tǒng)計(jì)資料達(dá)到7,874本,涵蓋1,761,009張統(tǒng)計(jì)表格和364,580,479個(gè)統(tǒng)計(jì)數(shù)據(jù),匯集了中國(guó)資訊行自92年以來(lái)收集的44個(gè)行業(yè)所有統(tǒng)計(jì)和調(diào)查數(shù)據(jù)。

(, 下載次數(shù): 20)
中國(guó)統(tǒng)計(jì)信息網(wǎng):國(guó)家統(tǒng)計(jì)局的官方網(wǎng)站,匯集了全國(guó)各級(jí)政府各年度的國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)信息,建立了以統(tǒng)計(jì)公報(bào)為主,統(tǒng)計(jì)年鑒、階段發(fā)展數(shù)據(jù)、統(tǒng)計(jì)分析、經(jīng)濟(jì)新聞、主要統(tǒng)計(jì)指標(biāo)排行等。

(, 下載次數(shù): 24)
亞馬遜:來(lái)自亞馬遜的跨科學(xué)云數(shù)據(jù)平臺(tái),擁有免費(fèi)且開(kāi)源的數(shù)據(jù)庫(kù),包含化學(xué)、生物、經(jīng)濟(jì)等多個(gè)領(lǐng)域的數(shù)據(jù)集。

(, 下載次數(shù): 29)
figshare:研究成果共享平臺(tái),這里向全世界開(kāi)放免費(fèi)的研究成果及科學(xué)數(shù)據(jù)。

(, 下載次數(shù): 22)
github:一個(gè)非常全面的數(shù)據(jù)獲取渠道,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫(kù)資源,自然科學(xué)和社會(huì)科學(xué)的覆蓋都很全面,適合做研究和數(shù)據(jù)分析的人員。

(, 下載次數(shù): 21)
2、政府開(kāi)放數(shù)據(jù)

北京市政務(wù)數(shù)據(jù)資源網(wǎng):包含競(jìng)技、交通、醫(yī)療、天氣等數(shù)據(jù)。
深圳市政府?dāng)?shù)據(jù)開(kāi)放平臺(tái):交通、文娛、就業(yè)、基礎(chǔ)設(shè)施等數(shù)據(jù)。
上海市政務(wù)數(shù)據(jù)服務(wù)網(wǎng):覆蓋經(jīng)濟(jì)建設(shè)、文化科技、信用服務(wù)、交通出行等12個(gè)重點(diǎn)領(lǐng)域數(shù)據(jù)。
貴州省政府?dāng)?shù)據(jù)開(kāi)放平臺(tái):貴州省在政務(wù)數(shù)據(jù)開(kāi)放方面做的確實(shí)不錯(cuò)。
http://Data.gov:美國(guó)政府開(kāi)放數(shù)據(jù),包含氣候、教育、能源金融等各領(lǐng)域數(shù)據(jù)。
3、數(shù)據(jù)競(jìng)賽網(wǎng)站

競(jìng)賽的數(shù)據(jù)集通常干凈且科研性非常高。
DataCastle:專業(yè)的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。
Kaggle:全球最大的數(shù)據(jù)競(jìng)賽平臺(tái)。
天池:阿里旗下數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。
Datafountain:CCF制定大數(shù)據(jù)競(jìng)賽平臺(tái)。
二、可以獲得有價(jià)值數(shù)據(jù)

這里給出了一些網(wǎng)站平臺(tái),我們可p a網(wǎng)站上的數(shù)據(jù),某些網(wǎng)站上也給出獲取數(shù)據(jù)的API接口,但需要付費(fèi)。
1.財(cái)經(jīng)數(shù)據(jù)
(1)新浪財(cái)經(jīng):免費(fèi)提供接口,可在新浪財(cái)經(jīng)上獲取獲取歷史和實(shí)時(shí)股票數(shù)據(jù)。
(2)東方財(cái)富網(wǎng):可以查看財(cái)務(wù)指標(biāo)或者根據(jù)財(cái)務(wù)指標(biāo)選股。
(3)中財(cái)網(wǎng):提供各類財(cái)經(jīng)數(shù)據(jù)。
(4)黃金頭條:各種財(cái)經(jīng)資訊。
(5)StockQ:國(guó)際股市指數(shù)行情。
(6)Quandl:金融數(shù)據(jù)界的維基百科。
(7)Investing:投資數(shù)據(jù)。
(8)整合的96個(gè)股票API合集。
(9)Market Data Feed and API:提供大量數(shù)據(jù),付費(fèi),有試用期。
2.網(wǎng)貸數(shù)據(jù)
(1)網(wǎng)貸之家:包含各大網(wǎng)貸平臺(tái)不同時(shí)間段的放貸數(shù)據(jù)。
(2)零壹數(shù)據(jù):各大平臺(tái)的放貸數(shù)據(jù)。
(4)網(wǎng)貸天眼:網(wǎng)貸平臺(tái)、行業(yè)數(shù)據(jù)。
(5)76676互聯(lián)網(wǎng)金融門(mén)戶:網(wǎng)貸、P2P、理財(cái)?shù)然ソ饠?shù)據(jù)。
3.公司年報(bào)
(1)巨潮資訊:各種股市咨詢,公司股票、財(cái)務(wù)信息。
(2)http://SEC.gov:美國(guó)證券交易數(shù)據(jù)
(3)HKEx news披露易:年度業(yè)績(jī)報(bào)告和年報(bào)。
4.創(chuàng)投數(shù)據(jù)
(1)36氪:最新的投資資訊。
(2)投資潮:投資資訊、上市公司信息。
(3)IT桔子:各種創(chuàng)投數(shù)據(jù)。
5.社交平臺(tái)
(1)新浪微博:評(píng)論、輿情數(shù)據(jù),社交關(guān)系數(shù)據(jù)。
(2)Twitter:輿情數(shù)據(jù),社交關(guān)系數(shù)據(jù)。
(3)知乎:優(yōu)質(zhì)問(wèn)答、用戶數(shù)據(jù)。
(4)微信公眾號(hào):公眾號(hào)運(yùn)營(yíng)數(shù)據(jù)。
(5)百度貼吧:輿情數(shù)據(jù)
(6)Tumblr:各種福利圖片、視頻。
6.就業(yè)招聘
(1)拉勾:人才需求數(shù)據(jù)。
(2)中華英才網(wǎng):招聘信息數(shù)據(jù)。
(3)智聯(lián)招聘:招聘信息數(shù)據(jù)。
(4)獵聘網(wǎng):高端職位招聘數(shù)據(jù)。
7.餐飲食品
(1)美團(tuán)外賣:區(qū)域商家、銷量、評(píng)論數(shù)據(jù)。
(2)百度外賣:區(qū)域商家、銷量、評(píng)論數(shù)據(jù)。
(3)餓了么:區(qū)域商家、銷量、評(píng)論數(shù)據(jù)。
(4)大眾點(diǎn)評(píng):點(diǎn)評(píng)、輿情數(shù)據(jù)。
8.交通旅游
(1)12306:鐵路運(yùn)行數(shù)據(jù)。
(2)攜程:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。
(3)去哪兒:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。
(4)途牛:景點(diǎn)、路線、機(jī)票、酒店等數(shù)據(jù)。
(5)貓途鷹:世界各地旅游景點(diǎn)數(shù)據(jù),來(lái)自全球旅行者的真實(shí)點(diǎn)評(píng)。
類似的還有同程、驢媽媽、途家等
9.電商平臺(tái)
(1)亞馬遜:商品、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)
(2)淘寶:商品、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)
(3)天貓:商品、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)
(4)京東:3C產(chǎn)品為主的商品信息、銷量、折扣、點(diǎn)評(píng)等數(shù)據(jù)
(5)當(dāng)當(dāng):圖書(shū)信息、銷量、點(diǎn)評(píng)數(shù)據(jù)。
類似的唯品會(huì)、聚美優(yōu)品、1號(hào)店等。
10.影音數(shù)據(jù)
(1)豆瓣電影:國(guó)內(nèi)最受歡迎的電影信息、評(píng)分、評(píng)論數(shù)據(jù)。
(2)時(shí)光網(wǎng):最全的影視資料庫(kù),評(píng)分、影評(píng)數(shù)據(jù)。
(3)貓眼電影專業(yè)版:實(shí)時(shí)票房數(shù)據(jù),電影票房排行。
(4)網(wǎng)易云音樂(lè):音樂(lè)歌單、歌手信息、音樂(lè)評(píng)論數(shù)據(jù)。
11.房屋信息
(1)58同城房產(chǎn):二手房數(shù)據(jù)。
(2)安居客:新房和二手房數(shù)據(jù)。
(3)Q房網(wǎng):新房信息、銷售數(shù)據(jù)。
(4)房天下:新房、二手房、租房數(shù)據(jù)。
(5)小豬短租:短租房源數(shù)據(jù)。
12.購(gòu)車租車
(1)網(wǎng)易汽車:汽車資訊、汽車數(shù)據(jù)。
(2)人人車:二手車信息、交易數(shù)據(jù)。
(3)中國(guó)汽車工業(yè)協(xié)會(huì):汽車制造商產(chǎn)量、銷量數(shù)據(jù)。
13.新媒體數(shù)據(jù)
新榜:新媒體平臺(tái)運(yùn)營(yíng)數(shù)據(jù)。
清博大數(shù)據(jù):微信公眾號(hào)運(yùn)營(yíng)榜單及輿情數(shù)據(jù)。
微問(wèn)數(shù)據(jù):一個(gè)針對(duì)微信的數(shù)據(jù)網(wǎng)站。
知微傳播分析:微博傳播數(shù)據(jù)。
14.分類信息
(1)58同城:豐富的同城分類信息。
(2)趕集網(wǎng):豐富的同城分類信息。
三、數(shù)據(jù)交易平臺(tái)

由于現(xiàn)在數(shù)據(jù)的需求很大,也催生了很多做數(shù)據(jù)交易的平臺(tái),當(dāng)然,除去付費(fèi)購(gòu)買(mǎi)的數(shù)據(jù),在這些平臺(tái),也有很多免費(fèi)的數(shù)據(jù)可以獲取。
優(yōu)易數(shù)據(jù):擁有國(guó)家級(jí)信息資源的數(shù)據(jù)平臺(tái)。包含政務(wù)、社會(huì)、社交、教育、消費(fèi)、交通、能源、金融、健康等多個(gè)領(lǐng)域的數(shù)據(jù)資源。

(, 下載次數(shù): 28)

數(shù)據(jù)堂:提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務(wù),包含語(yǔ)音識(shí)別、醫(yī)療健康、交通地理、電子商務(wù)、社交網(wǎng)絡(luò)、圖像識(shí)別等方面的數(shù)據(jù)。

(, 下載次數(shù): 22)

四、網(wǎng)絡(luò)指數(shù)

百度指數(shù):指數(shù)查詢平臺(tái),可以根據(jù)指數(shù)的變化查看某個(gè)主題在各個(gè)時(shí)間段受關(guān)注的情況,進(jìn)行趨勢(shì)分析、輿情預(yù)測(cè)有很好的指導(dǎo)作用。除了關(guān)注趨勢(shì)之外,還有需求分析、人群畫(huà)像等精準(zhǔn)分析的工具,對(duì)于市場(chǎng)調(diào)研來(lái)說(shuō)具有很好的參考意義。同樣的另外兩個(gè)搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。

(, 下載次數(shù): 22)

阿里指數(shù):國(guó)內(nèi)權(quán)威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺(tái)的交易數(shù)據(jù)基本能夠看出國(guó)內(nèi)商品交易的概況。
友盟+全域羅盤(pán):友盟在移動(dòng)互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析,對(duì)于研究移動(dòng)端產(chǎn)品、做市場(chǎng)調(diào)研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報(bào)告同樣是了解互聯(lián)網(wǎng)趨勢(shì)的優(yōu)秀讀物。

(, 下載次數(shù): 22)
愛(ài)奇藝指數(shù):愛(ài)奇藝指數(shù)是專門(mén)針對(duì)視頻的播放行為、趨勢(shì)的分析平臺(tái),對(duì)于互聯(lián)網(wǎng)視頻的播放有著全面的統(tǒng)計(jì)和分析,涉及到播放趨勢(shì)、播放設(shè)備、用戶畫(huà)像、地域分布等多個(gè)方面。由于愛(ài)奇藝龐大的用戶基數(shù),該指數(shù)基本可以說(shuō)明實(shí)際情況。

(, 下載次數(shù): 23)
微指數(shù):微指數(shù)是新浪微博的數(shù)據(jù)分析工具,微指數(shù)通過(guò)關(guān)鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來(lái)反映微博輿情或賬號(hào)的發(fā)展走勢(shì)。分為熱詞指數(shù)和影響力指數(shù)兩大模塊,此外,還可以查看熱議人群及各類賬號(hào)的地域分布情況。

(, 下載次數(shù): 29)
除了以上指數(shù)外,還有谷歌趨勢(shì)、搜狗指數(shù)、360趨勢(shì)、艾漫指數(shù)等等。
有了以上數(shù)據(jù)源,當(dāng)然就可以做數(shù)據(jù)分析了。個(gè)人用戶推薦免費(fèi)工具豌豆BI,企業(yè)用戶推薦企業(yè)數(shù)據(jù)分析工具億信ABI。無(wú)需下載安裝,直接云上試用。
億信豌豆BI-敏捷BI自助式分析工具|商業(yè)智能BI工具與大數(shù)據(jù)分析平臺(tái)億信ABI一站式大數(shù)據(jù)分析平臺(tái)-全能型數(shù)據(jù)可視化分析工具
關(guān)于億信華辰

億信華辰是中國(guó)專業(yè)的智能數(shù)據(jù)產(chǎn)品與服務(wù)提供商,一直致力于為政企用戶提供從數(shù)據(jù)采集、存儲(chǔ)、治理、分析到智能應(yīng)用的智能數(shù)據(jù)全生命周期管理方案,幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)智能,已積累了8000多家用戶的服務(wù)和客戶成功經(jīng)驗(yàn),為客戶提供數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)治理系統(tǒng)搭建等專業(yè)的產(chǎn)品咨詢、實(shí)施和技術(shù)支持服務(wù)。

(, 下載次數(shù): 31)

△億信華辰全產(chǎn)品架構(gòu)圖(點(diǎn)擊查看大圖)


歡迎關(guān)注公眾號(hào):億信華辰Pro
-讓數(shù)據(jù)驅(qū)動(dòng)進(jìn)步-
作者: 霸氣    時(shí)間: 2021-12-15 19:36
主要來(lái)自電子政務(wù);開(kāi)放政府;政府?dāng)?shù)據(jù);政府?dāng)?shù)據(jù)開(kāi)放;大數(shù)據(jù)數(shù)據(jù)開(kāi)放平臺(tái)。
這里匯總了幾十個(gè)公開(kāi)數(shù)據(jù)源,可以點(diǎn)擊查看。
最全的中國(guó)開(kāi)放數(shù)據(jù)(open data)及政府公開(kāi)數(shù)據(jù)平臺(tái)匯總
作者: 登記表就    時(shí)間: 2021-12-15 20:13
分享一個(gè)網(wǎng)址
https://github.com/caesar0301/awesome-public-datasets,github上的一個(gè)數(shù)據(jù)庫(kù)集合,里面有挺多數(shù)據(jù)的,大多都免費(fèi)的,介紹如下:
This list of public data sources are collected and tidied from blogs, answers, and user responses. Most of the data sets listed below are free, however, some are not. Other amazingly awesome lists can be found in the
awesome-awesomeness and
sindresorhus's awesome list.
放個(gè)數(shù)據(jù)庫(kù)目錄導(dǎo)航

(, 下載次數(shù): 26)

(, 下載次數(shù): 23)
作者: 我就軍    時(shí)間: 2021-12-15 20:39
逐漸就可以直接上一些網(wǎng)上的數(shù)據(jù)交易市場(chǎng)找了,大數(shù)據(jù)帶動(dòng)了一大批這類網(wǎng)站,但總體來(lái)說(shuō)對(duì)于從業(yè)者是好事,目前沒(méi)有一家獨(dú)大的,列個(gè)表,需要的可以看看:
百度apistore、阿里云云市場(chǎng)、數(shù)據(jù)堂、聚合數(shù)據(jù)
數(shù)糧、極速數(shù)據(jù)、apix、通聯(lián)、大海洋、優(yōu)易數(shù)據(jù)
還有上面答案提到的幾個(gè)網(wǎng)站,總體來(lái)說(shuō)這些網(wǎng)站的數(shù)據(jù)量在不斷增加
如果找統(tǒng)計(jì)數(shù)據(jù)可以直接去國(guó)家統(tǒng)計(jì)局網(wǎng)站,量大、正宗,并且可以外鏈到幾個(gè)全球范圍的統(tǒng)計(jì)網(wǎng)站,質(zhì)量很高
作者: 酒自斟    時(shí)間: 2021-12-15 22:46
現(xiàn)在找數(shù)據(jù)的渠道很多,基本上分為開(kāi)放性的數(shù)據(jù)和爬蟲(chóng)獲取的專業(yè)數(shù)據(jù),另外現(xiàn)在逐漸也可以找到一些數(shù)據(jù)交易平臺(tái)了。無(wú)論是哪種渠道,主要應(yīng)該想好所找數(shù)據(jù)的方向,才能挖掘出更多數(shù)據(jù)。同時(shí)數(shù)據(jù)收集后要做好梳理分析,才能讓數(shù)據(jù)產(chǎn)生價(jià)值。
結(jié)合上面說(shuō)的,列舉一些常見(jiàn)的數(shù)據(jù)渠道,希望帶來(lái)一些幫助:
1、開(kāi)放性的數(shù)據(jù)渠道
一般這種數(shù)據(jù)比較好找,像國(guó)家統(tǒng)計(jì)局、中國(guó)信息統(tǒng)計(jì)網(wǎng),以及北京、上海等地方政府類數(shù)據(jù)官網(wǎng),里面包含了城市、交通、就業(yè)、基礎(chǔ)設(shè)施等數(shù)據(jù)。當(dāng)然還包括行業(yè)類的一些數(shù)據(jù)平臺(tái),比如新浪財(cái)經(jīng)、東方財(cái)富網(wǎng)又或者智聯(lián)招聘、獵聘網(wǎng)等就業(yè)市場(chǎng)類的數(shù)據(jù)。不過(guò)很多開(kāi)放的數(shù)據(jù)渠道可能數(shù)據(jù)會(huì)有些老,且比較散亂,通常需要多個(gè)渠道去找,這需要有鑒別能力,慢慢梳理,不要著急。

(, 下載次數(shù): 19)
2、專業(yè)爬蟲(chóng)數(shù)據(jù)渠道
   不建議數(shù)據(jù)小白通過(guò)這種方式和渠道挖掘數(shù)據(jù),因?yàn)榍捌谛枰獙W(xué)習(xí)爬蟲(chóng)獲取技術(shù),比較耗費(fèi)時(shí)間和精力。有基礎(chǔ)知識(shí)和能力的小伙伴,可以從易觀智庫(kù)、阿里研究院、科賽網(wǎng)等,以及火車頭、八爪魚(yú)等采集軟件中獲取,但可能會(huì)出現(xiàn)采集速度慢,數(shù)據(jù)混亂等情況。另外關(guān)于國(guó)外的數(shù)據(jù)網(wǎng)站,檢索成本較高,比如部分需要VPN翻墻或者數(shù)據(jù)信息冗雜,需要加強(qiáng)鑒別梳理,因此不建議小白采用這個(gè)方式。

(, 下載次數(shù): 17)
3、數(shù)據(jù)交易渠道
現(xiàn)在數(shù)據(jù)交易渠道也很多,通過(guò)付費(fèi)方式得到想要的數(shù)據(jù)。雖然有一定的成本,但
數(shù)據(jù)獲取效率會(huì)比較高,像數(shù)據(jù)堂、萬(wàn)得、數(shù)位觀察、優(yōu)易數(shù)據(jù)等。這些數(shù)據(jù)交易渠道的
數(shù)據(jù)覆蓋面很廣,比如數(shù)位觀察,可以直接查詢城市、客群、商圈、品牌、區(qū)域等,而且數(shù)據(jù)相對(duì)精準(zhǔn)全面。此外,這些渠道的數(shù)據(jù)都比較有邏輯性,像在數(shù)位觀察上查,得到的數(shù)據(jù)都有熱力圖、模型的分析梳理,這樣就省去數(shù)據(jù)統(tǒng)計(jì)整合的過(guò)程,提高效率,省事省心。

(, 下載次數(shù): 17)
作者: 星晴    時(shí)間: 2021-12-16 01:11
數(shù)據(jù)挖掘可以通過(guò)商業(yè)軟件來(lái)實(shí)現(xiàn),例如:思邁特軟件Smartbi mining,SAS,SPSS clementine等;也可以通過(guò)自己編程或是下載已有的開(kāi)源代碼來(lái)實(shí)現(xiàn),例如:決策樹(shù)就有C4.5、ID3等很多種成熟的開(kāi)源算法。
作者: 穿越時(shí)光    時(shí)間: 2021-12-16 03:21
下面分享精心整理的數(shù)據(jù)網(wǎng)站,涵蓋各種原始數(shù)據(jù)以及數(shù)據(jù)分析報(bào)告,看完麻煩點(diǎn)個(gè)贊哈

0. 搜數(shù)網(wǎng)

http://www.soshoo.com.cn/index.do

(, 下載次數(shù): 23)
1.中華人民共和國(guó)統(tǒng)計(jì)局

國(guó)家統(tǒng)計(jì)局

(, 下載次數(shù): 16)
2. 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心

中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心

(, 下載次數(shù): 17)
3. 中國(guó)信通院

中國(guó)信息通信研究院

(, 下載次數(shù): 16)
4. 艾瑞網(wǎng)

報(bào)告_艾瑞網(wǎng)

(, 下載次數(shù): 18)
(另外,我整理了學(xué)習(xí)數(shù)據(jù)分析完整的路線需要的書(shū)籍送給大家)

(, 下載次數(shù): 17)
錯(cuò)過(guò)了,需要再等一年的數(shù)據(jù)分析書(shū)籍5.前瞻網(wǎng)

經(jīng)濟(jì)學(xué)人 - 讓您成為更懂趨勢(shì)的人_細(xì)分產(chǎn)業(yè)市場(chǎng)分析_前瞻經(jīng)濟(jì)學(xué)人App - 前瞻網(wǎng)

(, 下載次數(shù): 17)
6. 極光大數(shù)據(jù)

數(shù)據(jù)報(bào)告列表 - 極光

(, 下載次數(shù): 17)
7.中國(guó)互聯(lián)網(wǎng)數(shù)據(jù)資訊中心

互聯(lián)網(wǎng)數(shù)據(jù)資訊網(wǎng)-199IT | 發(fā)現(xiàn)數(shù)據(jù)的價(jià)值-199IT | 中文互聯(lián)網(wǎng)數(shù)據(jù)研究資訊中心-199IT

(, 下載次數(shù): 16)
8. 易觀智庫(kù)

分析報(bào)告-易觀分析

(, 下載次數(shù): 19)
9. talking data

數(shù)據(jù)報(bào)告-移動(dòng)觀象臺(tái)-TalkingData

(, 下載次數(shù): 16)
(另外,我整理了學(xué)習(xí)數(shù)據(jù)分析完整的路線需要的書(shū)籍送給大家)


錯(cuò)過(guò)了,需要再等一年的數(shù)據(jù)分析書(shū)籍5.前瞻網(wǎng)

10.艾媒網(wǎng)

艾媒網(wǎng)-全球領(lǐng)先的新經(jīng)濟(jì)行業(yè)數(shù)據(jù)分析報(bào)告發(fā)布平臺(tái)

(, 下載次數(shù): 17)
11.七麥數(shù)據(jù)

七麥數(shù)據(jù)(原ASO100)-專業(yè)移動(dòng)產(chǎn)品商業(yè)分析平臺(tái)-ASO-ASM優(yōu)化

(, 下載次數(shù): 17)
12.企鵝智庫(kù)

企鵝智酷_騰訊網(wǎng)

(, 下載次數(shù): 18)
13.騰訊大數(shù)據(jù)

騰訊大數(shù)據(jù)

(, 下載次數(shù): 14)
14.IT桔子

IT桔子 | 泛互聯(lián)網(wǎng)創(chuàng)業(yè)投資項(xiàng)目信息數(shù)據(jù)庫(kù)及商業(yè)信息服務(wù)商

(, 下載次數(shù): 16)
15. 百度指數(shù)

https://index.baidu.com/v2/index.html#/

(, 下載次數(shù): 18)
--------------------
碼字不易,麻煩給我點(diǎn)個(gè)贊,更多干貨不要錯(cuò)過(guò)關(guān)注我
作者: 涵西溪    時(shí)間: 2021-12-16 04:18
分享一下我平時(shí)常用的幾個(gè)經(jīng)典的數(shù)據(jù)源吧。
1,世界銀行公開(kāi)數(shù)據(jù):World Bank Open Data
免費(fèi)并公開(kāi)獲取世界各國(guó)的發(fā)展數(shù)據(jù),數(shù)據(jù)全面、權(quán)威且比較規(guī)范。

(, 下載次數(shù): 18)

2,聯(lián)合國(guó)人口司數(shù)據(jù)集:United Nations Population Division

(, 下載次數(shù): 17)
網(wǎng)頁(yè)中有個(gè)數(shù)據(jù)專區(qū),含有各種人口相關(guān)的數(shù)據(jù)集,比如人口老齡化數(shù)據(jù)、全球移民數(shù)據(jù)、世界人口婚姻狀況數(shù)據(jù)、人口增長(zhǎng)趨勢(shì)數(shù)據(jù)等等,想挖掘人口相關(guān)的問(wèn)題,是一個(gè)不可多得的數(shù)據(jù)源。

3,Kaggle數(shù)據(jù)集:Datasets | Kaggle,總有你感興趣的數(shù)據(jù)

(, 下載次數(shù): 17)
Kaggle主要是為數(shù)據(jù)科學(xué)家提供機(jī)器學(xué)習(xí)競(jìng)賽、編寫(xiě)和分享代碼的平臺(tái),里面的各種數(shù)據(jù)集十分豐富。

4,如果上面的幾個(gè)不能滿足你的需要,那就給你來(lái)個(gè)集大成的數(shù)據(jù)網(wǎng)站
大數(shù)據(jù)導(dǎo)航:大數(shù)據(jù)導(dǎo)航-大數(shù)據(jù)工具導(dǎo)航-199IT大數(shù)據(jù)導(dǎo)航-199IT大數(shù)據(jù)工具導(dǎo)航-Hao.199it.com

(, 下載次數(shù): 18)
數(shù)據(jù)包羅萬(wàn)象,各行業(yè)、各領(lǐng)域分門(mén)別類,總有你需要的。

5,授人以魚(yú)不如授人以漁,沒(méi)有數(shù)據(jù)就沒(méi)法玩做可視化嗎,NO!
沒(méi)有數(shù)據(jù)還可以自己模擬數(shù)據(jù),分享一個(gè)數(shù)據(jù)模擬神器:WebPlotDigitizer

(, 下載次數(shù): 23)

不用到處找數(shù)據(jù),如果你想做圖,沒(méi)問(wèn)題,把你想要的圖表導(dǎo)進(jìn)去,這個(gè)神器可以幫你模擬出一套數(shù)據(jù)哦(工具獲取及用法詳見(jiàn):采悟:PowerBI完美制作魔力象限圖,內(nèi)含可視化神器!)

最后,如果你下載數(shù)據(jù)不方便,我平時(shí)自己整理使用的一些數(shù)據(jù),近百個(gè)、Excel格式,簡(jiǎn)單易用,在微信公眾號(hào)「PowerBI星球」,回復(fù)關(guān)鍵字"數(shù)據(jù)"即可獲取下載鏈接。
學(xué)習(xí)愉快!
.
作者: 貓頭鷹    時(shí)間: 2021-12-16 05:23
原創(chuàng)作者:吳曉光
出自公眾號(hào):51CTO技術(shù)棧
“時(shí)下數(shù)據(jù)科學(xué)是一個(gè)熱點(diǎn)話題,各個(gè)行業(yè)里面也有一些比較成熟的應(yīng)用,在這個(gè)大的背景下,我們?cè)诖蠹s一年前就開(kāi)始有意識(shí)地把數(shù)據(jù)技術(shù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘這些技術(shù)融合到運(yùn)維領(lǐng)域的應(yīng)用?!?br /> 在這個(gè)過(guò)程中,我們做的時(shí)間其實(shí)不長(zhǎng),比較短,目前只是做了一些相對(duì)來(lái)說(shuō)較為簡(jiǎn)單的一些事情,但取得的成果在公司內(nèi)部感覺(jué)還是比較好的。

CDP白皮書(shū):2020營(yíng)銷技術(shù)新風(fēng)向 - Linkflow聯(lián)否官網(wǎng)今天跟大家分享一下我們?cè)趹?yīng)用開(kāi)發(fā)過(guò)程中的一些案例,即如何讓數(shù)據(jù)技術(shù)在運(yùn)維實(shí)踐中得到充分的應(yīng)用,希望對(duì)大家的工作有一些參考價(jià)值。
分為四個(gè)部分進(jìn)行分享:



(, 下載次數(shù): 16)
但有些問(wèn)題我們經(jīng)常重復(fù)遇到,并且形成了一些提問(wèn)范式,如:
目前各類數(shù)學(xué)模型的輸出在我們的具體工作中主要被用作輔助決策,有兩個(gè)原因使我們還不能直接把結(jié)果自動(dòng)地用于決策:
在實(shí)際工作中,算法和業(yè)務(wù)規(guī)則庫(kù)都會(huì)進(jìn)行建設(shè),用來(lái)幫助運(yùn)維人員更容易和正確地做出決定。
今天給大家重點(diǎn)介紹“數(shù)據(jù)處理技術(shù)”、“數(shù)據(jù)分析技術(shù)”、“數(shù)據(jù)挖掘技術(shù)”這三個(gè)方面在唯品會(huì)的應(yīng)用實(shí)踐,主要會(huì)講到一些應(yīng)用場(chǎng)景,最后談下“數(shù)據(jù)技術(shù)”在運(yùn)維的生態(tài)建設(shè)和一些規(guī)劃。
數(shù)據(jù)處理技術(shù)應(yīng)用

對(duì)于數(shù)據(jù)處理技術(shù)來(lái)說(shuō),我們主要解決以下五個(gè)方面的問(wèn)題
這里有些問(wèn)題在行業(yè)里已有比較成熟的解決方案,有些可能不是每個(gè)公司都會(huì)碰到。
數(shù)據(jù)采集



(, 下載次數(shù): 14)
首先我們看數(shù)據(jù)采集,對(duì)唯品會(huì)來(lái)說(shuō),我們主要是兩類數(shù)據(jù):
對(duì)于日志數(shù)據(jù)來(lái)說(shuō),我們有兩類采集:
對(duì)于服務(wù)器端的日志采集,實(shí)際上是比較簡(jiǎn)單的,一般來(lái)說(shuō)就是落到本地盤(pán)之后,通過(guò) Flume 傳送到公司的 Kafka 集群,然后大家在上面消費(fèi)。
對(duì)于客戶端行為的采集,分成兩種:
對(duì)于數(shù)據(jù)庫(kù)的采集,實(shí)際上我們也是有兩種方法:
有些會(huì)還原數(shù)據(jù)庫(kù),有些就直接用消息來(lái)計(jì)算指標(biāo),具體要根據(jù)情況進(jìn)行分析。
上圖主要描述了唯品會(huì)用到的一些主要開(kāi)源產(chǎn)品,基本上是這樣。
數(shù)據(jù)計(jì)算



(, 下載次數(shù): 17)
數(shù)據(jù)計(jì)算是比較重要的一環(huán),實(shí)際上要兼顧性能和靈活性兩個(gè)方面。
對(duì)日志的處理,會(huì)有一個(gè)日志解析程序來(lái)消費(fèi) Kafka 的消息,“日志解析”實(shí)現(xiàn)一個(gè)實(shí)時(shí) ETL 的過(guò)程,我們會(huì)根據(jù)配置(基本配置也跟 ETL 差不多)去生成預(yù)定義的標(biāo)準(zhǔn)格式,后續(xù)就交給 Spark 做聚合。
“日志解析”由于日志之間沒(méi)有相關(guān)性,可以 Map 之后并行計(jì)算,吞吐量和資源的投入是成正比的,這樣效率就沒(méi)有什么太多的問(wèn)題。
對(duì)于 Spark 的聚合配置,一般來(lái)說(shuō)我們會(huì)把日志解析完的數(shù)據(jù)進(jìn)行定義,定義各個(gè)字段是維度或是指標(biāo),然后會(huì)做一個(gè)全維度的聚合。
這里面實(shí)際上也是有個(gè)要求的,我們要求所有的指標(biāo)在各個(gè)維度上都具有累加性。
如果不具備累加性(比如百分比這種指標(biāo)),我們?cè)?Spark 里是不做聚合的,只是在展現(xiàn)的時(shí)候重新計(jì)算,計(jì)算好的數(shù)據(jù)會(huì)放到一個(gè) OLAP 和 MOLAP 的數(shù)據(jù)庫(kù)里。
還有一種情況,是通過(guò)腳本在數(shù)據(jù)庫(kù)從庫(kù)上直接進(jìn)行指標(biāo)的計(jì)算,一般用于只有時(shí)間維度的指標(biāo)計(jì)算,配置好的計(jì)算腳本,我們會(huì)用公司開(kāi)源的一個(gè)產(chǎn)品 Saturn 來(lái)進(jìn)行一個(gè)分布式調(diào)度。
Saturn 這個(gè)東西還是不錯(cuò)的,推薦大家去嘗試一下。對(duì)于日志的詳細(xì)查詢,我們還是放到 ES 里,通過(guò)全文檢索的方式來(lái)查詢。
數(shù)據(jù)展現(xiàn)



(, 下載次數(shù): 16)
數(shù)據(jù)展現(xiàn)是最終的結(jié)果輸出,實(shí)際工作中,我們對(duì)結(jié)果數(shù)據(jù)的查詢效率要求比較嚴(yán)苛,因?yàn)檫@些結(jié)果數(shù)據(jù)不僅用于前端,還用于告警輸出等各個(gè)方面。
對(duì)于告警的數(shù)據(jù)我們需要做到毫秒級(jí)響應(yīng),前端界面一般要求是在 3 秒內(nèi)渲染完成。
為了完成這個(gè)要求,我們構(gòu)建了一個(gè) ROLAP 數(shù)據(jù)庫(kù),還有一個(gè) MOLAP 的數(shù)據(jù)庫(kù),在 ROLAP 的數(shù)據(jù)庫(kù)里,一般只存當(dāng)天的多維數(shù)據(jù),而在 MOLAP 的數(shù)據(jù)庫(kù)里,會(huì)存歷史數(shù)據(jù)。
對(duì)于 MOLAP 數(shù)據(jù)庫(kù)的檢索,由于應(yīng)用主要是切片方面的需求,基本上都是 K-value 模式的一個(gè)檢索,所以它比較快。
MySQL 里一般是存放單維度指標(biāo),應(yīng)該這么講,它不是多維數(shù)據(jù)。Redis 緩沖里,一般會(huì)存放我們的秒級(jí)數(shù)據(jù),還有一些配置信息。
這個(gè)架構(gòu)中,最后通過(guò) Application  Server 進(jìn)行一個(gè)數(shù)據(jù)的整合,來(lái)滿足前端數(shù)據(jù)的一個(gè)展示要求。
多維分析界面案例



(, 下載次數(shù): 17)
這是一個(gè)多維分析案例的界面,左邊是我們的分析平臺(tái),右邊是我們的實(shí)時(shí)監(jiān)控平臺(tái)。
從這上面大家能看到,我們實(shí)際提供的功能主要是對(duì)數(shù)據(jù)切片的能力,這個(gè)能力基本可以滿足我們目前所有的需求。
A/B 測(cè)試實(shí)現(xiàn)

對(duì)于數(shù)據(jù)分析來(lái)說(shuō),基于 A/B 測(cè)試的對(duì)比分析是一種重要的方法,因?yàn)?A/B 測(cè)試對(duì)比的結(jié)果容易被業(yè)務(wù)理解,如果沒(méi)有 A/B 測(cè)試,你說(shuō)我做了一件事情,這件事情帶來(lái)了一個(gè)好的效果,還是很難經(jīng)得起挑戰(zhàn)的。
在 A/B 測(cè)試中,它需要一些技術(shù)來(lái)支撐的,因?yàn)槲覀冊(cè)诰€上同時(shí)會(huì)有很多 A/B 測(cè)試的案例同時(shí)在跑,你自己的 A/B 測(cè)試不應(yīng)該被別人干擾。
在這種情況下實(shí)際上是要求各個(gè) A/B 測(cè)試之間的用戶分布得具有正交性,也就是說(shuō)別人的 A/B 測(cè)試集用戶應(yīng)該平均分布在你的 A/B 測(cè)試集上。
這種實(shí)現(xiàn)我們大約有兩種方法,一種是會(huì)在 APP 端設(shè)置開(kāi)關(guān),每個(gè)開(kāi)關(guān)管理一個(gè) A/B 測(cè)試的實(shí)驗(yàn)。
更多的 A/B 測(cè)試,是統(tǒng)一請(qǐng)求后端的 A/B 測(cè)試分組服務(wù),這個(gè)服務(wù)通過(guò)算法來(lái)保證各個(gè)試驗(yàn)之間相互獨(dú)立。
一般來(lái)說(shuō),當(dāng)客戶端發(fā)起 A/B 測(cè)試場(chǎng)景的時(shí)候,就會(huì)向 A/B 測(cè)試分組服務(wù)發(fā)個(gè)請(qǐng)求,然后 A/B 分組服務(wù)會(huì)返回這個(gè)用戶是屬于 A 組還是 B 組,一般是這樣的。

(, 下載次數(shù): 18)

數(shù)據(jù)分析技術(shù)應(yīng)用

這部分會(huì)簡(jiǎn)單介紹具體的分析方法,并主要說(shuō)下應(yīng)用場(chǎng)景和案例。我們的運(yùn)維數(shù)據(jù)分析技術(shù)主要是用于解決兩方面的問(wèn)題:
績(jī)效分析

以前我們做了挺多的項(xiàng)目,這些項(xiàng)目一般來(lái)說(shuō) WBS 分解之后,我們會(huì)對(duì)項(xiàng)目的結(jié)果做一個(gè)簡(jiǎn)單的跟蹤,只是說(shuō)做完了,還是沒(méi)做完,一般也不會(huì)對(duì)它做一些定量的分析或者說(shuō)對(duì)這個(gè)質(zhì)量有一個(gè)看法。
這種情況在我們的項(xiàng)目中非常常見(jiàn),這種項(xiàng)目一般來(lái)說(shuō)比較小,都是靠個(gè)人技術(shù)能力就能控制住。


(, 下載次數(shù): 15)
但在大型項(xiàng)目中這種做法就很困難,它會(huì)面臨更多的一個(gè)挑戰(zhàn),尤其是跨部門(mén)合作等情況,因?yàn)榇蠹业臏贤ㄊ址ú粌H僅是技術(shù)的,可能還有一些管理上的,這時(shí)就需要大家用數(shù)據(jù)在各個(gè)部門(mén)之間作為一個(gè)溝通的橋梁。
績(jī)效分析-全站 HTTPS 項(xiàng)目案例

于是數(shù)據(jù)分析人員開(kāi)始介入來(lái)進(jìn)行分析體系的設(shè)計(jì),主要包括:分析指標(biāo)的設(shè)計(jì)和分析維度的設(shè)計(jì),同時(shí)和研發(fā)確認(rèn)數(shù)據(jù)采集方案、A/B測(cè)試方案、統(tǒng)計(jì)口徑等。
指標(biāo)主要是根據(jù)項(xiàng)目中各項(xiàng)工作都關(guān)注什么問(wèn)題來(lái)設(shè)計(jì),而維度的設(shè)計(jì)是從當(dāng)指標(biāo)不滿意時(shí),可以在哪些方面著手改進(jìn)來(lái)進(jìn)行。
在這個(gè)項(xiàng)目中可預(yù)見(jiàn)的是,由于證書(shū)握手的原因,TCP 連接時(shí)間會(huì)變長(zhǎng),可能會(huì)影響用戶體驗(yàn),同時(shí)也會(huì)減少劫持從總體上提高用戶體驗(yàn),所以項(xiàng)目的目標(biāo)設(shè)置為轉(zhuǎn)化率至少不下降,最好能有上升。
我們實(shí)際上是做了一個(gè) HTTPS 的全站項(xiàng)目,在項(xiàng)目開(kāi)始之初,我們就有意識(shí)地把數(shù)據(jù)分析團(tuán)隊(duì)和技術(shù)人員整合到一起跟進(jìn)項(xiàng)目,取得了不錯(cuò)的結(jié)果。
數(shù)據(jù)分析人員在項(xiàng)目的初期就已經(jīng)開(kāi)始介入,來(lái)進(jìn)行分析體系的設(shè)計(jì),主要包括:分析指標(biāo)的設(shè)計(jì)和分析維度的設(shè)計(jì),同時(shí)和研發(fā)確認(rèn)數(shù)據(jù)采集方案,A/B 測(cè)試方案,統(tǒng)計(jì)口徑等。
分析人員會(huì)把這些工作做好,可他們?cè)趺磥?lái)設(shè)計(jì)這個(gè)項(xiàng)目的一些指標(biāo)呢?一般來(lái)說(shuō),在 WBS 分解之后,我們關(guān)注什么問(wèn)題,就會(huì)把這個(gè)問(wèn)題變換成一個(gè)主要的監(jiān)控指標(biāo)。那如何去設(shè)定這些維度呢?


(, 下載次數(shù): 15)
實(shí)際上這些維度都是我們能解決問(wèn)題的一些角度,也就是說(shuō)實(shí)際上所有的維度都是我們能控制、能改善的地方。
首先 HTTPS 項(xiàng)目,不知道大家有沒(méi)有了解,如果了解可能知道 HTTPS 項(xiàng)目,因?yàn)?TCP 握手時(shí)間會(huì)延長(zhǎng),這一點(diǎn)上可能會(huì)損失一部分的用戶體驗(yàn),但在防劫持等方面,又會(huì)加強(qiáng)整體的用戶體驗(yàn)。
在這種情況下,我們項(xiàng)目設(shè)立了一個(gè)最終的主要目標(biāo),也就是保證轉(zhuǎn)化率,這個(gè)轉(zhuǎn)化率不能下降,最好還有一點(diǎn)點(diǎn)提升。
在這個(gè)主要目標(biāo)上,我們就控制這個(gè)主要目標(biāo),不停地灰度放量,不停地調(diào)整,這個(gè)效果是比較好的。
因?yàn)樵谶@個(gè)過(guò)程中我們發(fā)現(xiàn)了很多的問(wèn)題,同時(shí)這個(gè)項(xiàng)目持續(xù)了大約 8 個(gè)月,在 8 個(gè)月中我們沒(méi)有發(fā)生過(guò)任何重大的故障。


(, 下載次數(shù): 17)
這個(gè)案例是對(duì)錯(cuò)誤率的分析和監(jiān)控,有一次發(fā)現(xiàn)我們的錯(cuò)誤碼是 HTTPS 的證書(shū)認(rèn)證過(guò)不去。
這種情況在某個(gè)省某個(gè)運(yùn)營(yíng)商大規(guī)模地發(fā)生,我們從分析的角度看這些節(jié)點(diǎn) IP 是不是我們自己的 IP,這樣我們就知道在這個(gè)地方發(fā)生了大規(guī)模的 DNS 劫持問(wèn)題,于是就去協(xié)調(diào)當(dāng)?shù)氐倪\(yùn)營(yíng)商把這個(gè)事情搞定。
數(shù)據(jù)分析也會(huì)發(fā)現(xiàn)一些代碼中的問(wèn)題,我們做 HTTPS 項(xiàng)目,可能要對(duì)代碼進(jìn)行一些修改,比如說(shuō)在整個(gè) HTML 里是不能存在 HTTP 協(xié)議的硬編碼。
但由于歷史原因,這種地方還是比較多的,開(kāi)發(fā)人員很難排查完,實(shí)際上需要分析人員通過(guò)數(shù)據(jù)分析手段去查,把這些沒(méi)有改過(guò)的代碼找出來(lái)。
還有一些圖片的問(wèn)題,我們發(fā)現(xiàn)一些圖片的拼接錯(cuò)誤,當(dāng)然是報(bào)了 404。
報(bào)了 404 之后,我們對(duì)這個(gè)錯(cuò)誤碼分析,發(fā)現(xiàn)突然多了,把報(bào)錯(cuò)的 URL 做一個(gè)排序后發(fā)現(xiàn)一些是拼接的錯(cuò)誤,還有一些是由于特殊字符引起而導(dǎo)致了無(wú)法生成正確的請(qǐng)求。
我們對(duì) TCP 的握手時(shí)長(zhǎng)也會(huì)進(jìn)行跟蹤,在做灰度選型階段,我們?cè)诓煌娜肟诓捎昧瞬煌募夹g(shù)類型,通過(guò)分析各個(gè)入口的握手時(shí)長(zhǎng)來(lái)輔助運(yùn)維人員進(jìn)行一個(gè)加速卡的選型,還有一些參數(shù)調(diào)整等工作。
績(jī)效分析-其他案例場(chǎng)景

這個(gè)項(xiàng)目進(jìn)行完成之后,我們總結(jié)了很多經(jīng)驗(yàn),慢慢地在其他的項(xiàng)目中也逐漸有意識(shí)地運(yùn)用數(shù)據(jù)分析技術(shù),把數(shù)據(jù)分析人員和技術(shù)人員有效地結(jié)合在一起。
這里面也有幾個(gè)案例:

(, 下載次數(shù): 17)

根因分析

在數(shù)據(jù)的基礎(chǔ)上,我們也可以做一些原因的查找,通過(guò)數(shù)據(jù)分析進(jìn)行的原因查找有時(shí)可以直接幫我們定位到問(wèn)題,在更多的時(shí)候可以有效地幫我們縮小問(wèn)題的范圍。
通過(guò)數(shù)據(jù)來(lái)查找原因,這其實(shí)是有一定局限性的,局限性就在于數(shù)據(jù)的維度,因?yàn)槲覀冎荒茉诜治龅木S度上來(lái)進(jìn)行查找,如果故障的原因沒(méi)有在我們已知維度上,實(shí)際上是找不出來(lái)的,但大部分時(shí)候還是能起到比較關(guān)鍵的作用。
對(duì)于直接利用多維數(shù)據(jù)進(jìn)行問(wèn)題的分析,我們大約有三個(gè)步驟


(, 下載次數(shù): 17)
主要的方法有兩種:
在這種情況下,我們認(rèn)為這個(gè)誤差值是符合正態(tài)分布的,就可以比較容易地做一個(gè)異常的檢測(cè)來(lái)看每個(gè)數(shù)據(jù)切片上是否有問(wèn)題,當(dāng)所有的數(shù)據(jù)被探索完之后,問(wèn)題的原因也基本能找到。
根因分析-案例

這是非實(shí)時(shí)根因分析的一些案例:


(, 下載次數(shù): 15)
我們有一次網(wǎng)絡(luò)連通率連續(xù)三個(gè)月下降,我們分析到最后,發(fā)現(xiàn)這個(gè) APP 的版本有些問(wèn)題,某天之后所有新發(fā)布的 APP 版本連通率下降都比較大,跟研發(fā)反饋之后,他們就在 SDK 做了一些調(diào)整。
實(shí)際上真正錯(cuò)在哪,我們并不知道,我們只能知道這個(gè)版本有問(wèn)題,更多地去幫助技術(shù)人員縮小這個(gè)范圍。
圖片錯(cuò)誤率上升,剛才已經(jīng)介紹過(guò)了,再就是實(shí)時(shí)的根因分析,剛才講的都是一些平時(shí)的案例,而實(shí)際上我們也做實(shí)時(shí)的系統(tǒng),這些實(shí)時(shí)的系統(tǒng)就是希望利用多維數(shù)據(jù),在系統(tǒng)告警后,能夠幫助大家更快定位一些問(wèn)題。


(, 下載次數(shù): 17)

這里也有兩個(gè)例子:
總體看,實(shí)時(shí)分析還是能夠比較快地幫助運(yùn)維人員定位問(wèn)題。
數(shù)據(jù)挖掘技術(shù)應(yīng)用

對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō),我們目前所應(yīng)用的場(chǎng)景,或者說(shuō)能幫我們解決的問(wèn)題主要有三類:
預(yù)測(cè)

我們現(xiàn)在的預(yù)測(cè),主要是做了一些業(yè)務(wù)指標(biāo)的預(yù)測(cè),比如像 PV、UV、訂單、購(gòu)物車這樣的一些業(yè)務(wù)指標(biāo),下面我講一下訂單的預(yù)測(cè)。


(, 下載次數(shù): 17)
如上圖,是我們的訂單預(yù)測(cè)圖。當(dāng)時(shí)做這個(gè)預(yù)測(cè),實(shí)際是有應(yīng)用的場(chǎng)景,當(dāng)故障發(fā)生時(shí),需要實(shí)時(shí)跟蹤預(yù)計(jì)的損失,以便于我們確定故障的等級(jí),還有就是調(diào)度解決故障需要的資源量。
大家可以看到,這種預(yù)估我們還是比較容易可以算出來(lái)的,在什么時(shí)候這個(gè)故障已經(jīng)好了,什么時(shí)候它的損失達(dá)到什么程度,我們的故障是不是需要升級(jí)。
這里面有一個(gè)技術(shù)點(diǎn)需要解決,就是說(shuō)我們?cè)诠收系臅r(shí)候,實(shí)際值已經(jīng)掉下去了。
而我們的預(yù)測(cè)算法需要前一分鐘和前幾分鐘的數(shù)據(jù),為了不把故障的數(shù)據(jù)引入到算法中,在故障的時(shí)候,是用預(yù)測(cè)值代替真實(shí)值。
具體來(lái)說(shuō),就是用上一周的數(shù)據(jù)做一些平均的加成來(lái)替換,然后再做下一次的預(yù)測(cè)。


(, 下載次數(shù): 14)
對(duì)于預(yù)測(cè)算法,我們開(kāi)始采用的是時(shí)間序列中的 holt-winters 算法,因?yàn)槲覀児镜臄?shù)據(jù)周期性比較明顯,我們?cè)跁r(shí)間序列上做擬合時(shí)還是比較準(zhǔn)確的,應(yīng)該來(lái)說(shuō)效果還比較好。
但這個(gè)算法到了一定時(shí)候,我們就碰到了一些問(wèn)題:
先看促銷,對(duì)訂單量來(lái)說(shuō),訂單達(dá)到高峰之前,我們的 PV、UV 包括收藏?cái)?shù)等業(yè)務(wù)指標(biāo)已經(jīng)開(kāi)始啟動(dòng)了,我們就會(huì)把這些業(yè)務(wù)指標(biāo)引入我們的分析模型。
也就是我們會(huì)把 PV、UV、收藏?cái)?shù),包括上周同期的這些數(shù)據(jù),和上周我們要預(yù)測(cè)那個(gè)時(shí)間點(diǎn)的訂單數(shù)全部都引進(jìn)來(lái),然后用一個(gè)機(jī)器學(xué)習(xí)的辦法,基本上就可以解決這個(gè)問(wèn)題。
在雙 11 促銷后觀察了一下預(yù)測(cè)的情況,現(xiàn)在促銷預(yù)測(cè)的數(shù)值還是比較準(zhǔn)的。
當(dāng)基于預(yù)測(cè)進(jìn)行告警時(shí),碰到主要問(wèn)題是夜晚低峰時(shí)數(shù)據(jù)波動(dòng)較大,如果按每個(gè)時(shí)間點(diǎn)的指標(biāo)直接進(jìn)行告警非常容易誤報(bào)。
我們采用的辦法是預(yù)估損失累計(jì)的報(bào)警方法,當(dāng)累計(jì)預(yù)估損失達(dá)到 100 單時(shí)就進(jìn)行告警,這樣調(diào)整后,我們從上線到現(xiàn)在基本已經(jīng)沒(méi)有了誤告。
這個(gè) 100 單的設(shè)置,跟我們公司的制度有關(guān),因?yàn)槲覀児具_(dá)到了 200 單、300 單,那就是重大故障了,我們?cè)?100 單的時(shí)候,就把這個(gè)警報(bào)給拉起來(lái),是可以防止重大故障發(fā)生的。
根因分析

最后在數(shù)據(jù)挖掘這部分的應(yīng)用,給大家介紹一下根因分析。


(, 下載次數(shù): 18)
我們這套算法經(jīng)過(guò)幾個(gè)案例的嘗試,基本上都能找出原因,首先就是它跟多維分析的“根因分析”不太一樣。
多維分析的“根因分析”是建立在已經(jīng)計(jì)算好的多維數(shù)據(jù)基礎(chǔ)上,而這個(gè)算法實(shí)際上是從原始數(shù)據(jù)來(lái)抽樣的。
比如說(shuō),像錯(cuò)誤率上升的一個(gè)根因分析,我們首先會(huì)抽一些數(shù)據(jù),把錯(cuò)的和正確的日志各抽 50%,對(duì)非數(shù)據(jù)列進(jìn)行預(yù)編碼。
預(yù)處理之后,我們會(huì)用 Spearman 和 Mutual  Information 這兩種算法來(lái)計(jì)算各個(gè)維度和結(jié)果之間的相關(guān)性程度。
如果這兩種方法結(jié)果一致,則直接按相關(guān)性值大小進(jìn)行排序,然后會(huì)用 One  hot  encoding 做一個(gè)轉(zhuǎn)碼,轉(zhuǎn)碼之后放入邏輯回歸模型中,選擇 L1 的懲罰項(xiàng);如果它的系數(shù)算出來(lái)是負(fù)值,這個(gè)負(fù)值所代表的維度就是原因所在。
如果上述方法兩個(gè)結(jié)果不一致,采用 Random Forest 和 Adaboost 的方法構(gòu)建樹(shù)模型,查看模型給出的維度重要性,這里我已經(jīng)畫(huà)得很清楚了。
如果兩個(gè)模型的重要性排序一致,就走上次那個(gè)步驟;如果不同,則用該模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),選擇預(yù)測(cè)結(jié)果較高的相關(guān)性排序。
應(yīng)用生態(tài)建設(shè)及規(guī)劃

最后跟大家一起討論一下,如何讓數(shù)據(jù)成為運(yùn)維的大腦,根據(jù)我們的經(jīng)驗(yàn),首先從組織結(jié)構(gòu)上來(lái)說(shuō),我們需要一個(gè)獨(dú)立的分析團(tuán)隊(duì)。
因?yàn)樵谶@個(gè)分析團(tuán)隊(duì)成立之前,公司的運(yùn)維體系實(shí)際上也在使用數(shù)據(jù),使用數(shù)據(jù)的方法和分析團(tuán)隊(duì)后來(lái)使用分析數(shù)據(jù)的方法也是大同小異,但因?yàn)樗旧硎且粋€(gè)自發(fā)的,沒(méi)有一些強(qiáng)制性的要求。
在把數(shù)據(jù)分析融入到工作流程之后,我們發(fā)現(xiàn)效率會(huì)得到一個(gè)比較大的提升,同時(shí)知識(shí)的傳承,包括統(tǒng)計(jì)口徑等這些比較令人困惑的問(wèn)題也都可以得到一個(gè)比較好的管理和解決。


(, 下載次數(shù): 15)
這樣的組織架構(gòu)在我們的實(shí)踐中,感覺(jué)可以更好地幫助運(yùn)維專家來(lái)解決問(wèn)題。
從平臺(tái)建設(shè)上來(lái)說(shuō),應(yīng)該是說(shuō)現(xiàn)在已經(jīng)開(kāi)始了,著力打造的是兩個(gè)平臺(tái):
目前我們會(huì)把發(fā)布平臺(tái)的一些發(fā)布信息,還有 ITIL 平臺(tái)的一些事件信息、變更信息,CMDB 的一些基礎(chǔ)架構(gòu)信息,再有就是各種各樣的監(jiān)控系統(tǒng)的值班表信息和告警信息(這種監(jiān)控系統(tǒng)我們有好幾十套),我們都會(huì)把它們放到信息庫(kù)里面。
在信息庫(kù)建設(shè)之后,我們算法雖然可以實(shí)際有效地解決點(diǎn)上的問(wèn)題,但還沒(méi)能很好地解決關(guān)聯(lián)性上的問(wèn)題,這塊還是挺困難的。
只能是說(shuō)當(dāng)前是一件事情一件事情去解決,那這種復(fù)雜的關(guān)聯(lián)性我們靠什么呢?
靠的是規(guī)則庫(kù),用業(yè)務(wù)知識(shí)補(bǔ)充當(dāng)前階段算法上的一些不足,也就是說(shuō)在整個(gè)系統(tǒng)建設(shè)中,實(shí)際上算法庫(kù)和規(guī)則庫(kù)都是一起建設(shè)的。
不會(huì)說(shuō),就用算法,不要規(guī)則了;或只有規(guī)則,算法也沒(méi)什么用,它是一體建設(shè)的。
而且它們能解決的問(wèn)題不一樣,算法我們是解決點(diǎn)上的問(wèn)題,規(guī)則我們是用來(lái)解決這種關(guān)聯(lián)性的問(wèn)題,尤其復(fù)雜業(yè)務(wù)關(guān)聯(lián)的問(wèn)題,都靠規(guī)則來(lái)配置的。
整個(gè)這套平臺(tái)的建設(shè),它主要有兩個(gè)目標(biāo):
目前是有一定的成效,但準(zhǔn)確率還沒(méi)有那么高,以后能做得好的時(shí)候,我們會(huì)通過(guò) ITIL 平臺(tái)來(lái)驅(qū)動(dòng)自動(dòng)化平臺(tái)對(duì)現(xiàn)網(wǎng)的故障進(jìn)行自動(dòng)化的處理。
比如說(shuō)像重啟、降級(jí),限流,磁盤(pán)空間管理,流量調(diào)度等工作,應(yīng)該是說(shuō)為了自動(dòng)化運(yùn)維、解決故障一起努力吧!
以上就是我們對(duì)數(shù)據(jù)應(yīng)用在未來(lái)一個(gè)時(shí)期內(nèi)的定義,也是想在未來(lái)大約半年到一年能夠看到更多成果的一個(gè)實(shí)踐。
微信后臺(tái)回復(fù)關(guān)鍵詞“數(shù)據(jù)”,即可下載完整版PPT資料
原創(chuàng)作者:吳曉光
編輯:陶家龍、孫淑娟
出處:轉(zhuǎn)載自DBAplus社群微信公眾號(hào),本文根據(jù)吳曉光老師在〖Gdevops 2017全球敏捷運(yùn)維峰會(huì)廣州站〗現(xiàn)場(chǎng)演講內(nèi)容整理而成。

(, 下載次數(shù): 18)
作者: 卡121    時(shí)間: 2021-12-16 07:30
01 搜索引擎

搜索引擎是我們信息資料搜集的最重要的渠道之一,用搜索引擎查找信息資料需要使用恰當(dāng)?shù)年P(guān)鍵詞和一些搜索技巧。目前國(guó)內(nèi)主要的搜集引擎有如下10個(gè),近期還有較多行業(yè)型搜索冒出來(lái),需找專業(yè)型行業(yè)資料可以使用行業(yè)型搜索引擎。

由于每個(gè)搜索引擎都有一定的局限性,可以把要搜索的關(guān)鍵詞在多個(gè)搜索引擎試一下,可能會(huì)搜出你意想不到的結(jié)果。

大家對(duì)國(guó)內(nèi)的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主題的資料,不同的人所搜出來(lái)的結(jié)果可能就天差地別了,主要原因在于如下兩點(diǎn):


1. 搜索關(guān)鍵字的選擇

舉例說(shuō)明,假如我們要搜索大數(shù)據(jù)行業(yè)發(fā)展相關(guān)資料,如果我們就在百度上搜索“大數(shù)據(jù)”,結(jié)果非常多,無(wú)法進(jìn)行篩選,可以對(duì)關(guān)鍵詞進(jìn)一步界定,如“大數(shù)據(jù)行業(yè)”“大數(shù)據(jù)市場(chǎng)規(guī)?!薄爸袊?guó)大數(shù)據(jù)產(chǎn)業(yè)”“大數(shù)據(jù)技術(shù)”“大數(shù)據(jù)企業(yè)”等等,需要不停地變換搜索關(guān)鍵詞,直到查到滿意的搜索結(jié)果。

在查找的過(guò)程中可以根據(jù)查找結(jié)果內(nèi)容再進(jìn)行對(duì)關(guān)鍵詞進(jìn)行修正,修正有些名稱專業(yè)表達(dá)方式,因?yàn)樽铋_(kāi)始搜索我們表達(dá)的不一定準(zhǔn)確。

2. 搜索技巧

主要是針對(duì)百度、google等搜索引擎一些高級(jí)搜索技巧。常用技巧主要有如下幾個(gè)方面:

1)文件類型搜索

使用filetype,如在百度或google中鍵入“filetype:pdf 大數(shù)據(jù)”搜索出有關(guān)大數(shù)據(jù)內(nèi)容pdf內(nèi)容,而且這些文檔基本都是可直接下載。還可以變換為其他的,如“filetype:doc”“filetype:ppt”“filetype:xls”等等,注意其中的冒號(hào)為英文的冒號(hào),一定要變換為英文冒號(hào)。

2)定位于哪個(gè)網(wǎng)站上搜索

使用site,如在百度或google中鍵入“大數(shù)據(jù)空格site:sina.com”,則在http://sina.com搜索有關(guān)大數(shù)據(jù)的一些資料信息,這個(gè)特別適用針對(duì)某些信息可能在哪些網(wǎng)站上出現(xiàn)的一個(gè)快速搜索方法,注意冒號(hào)也是英文的,網(wǎng)站名稱也不用加www。

3)精確匹配搜索

使用“”,如在百度中鍵入“大數(shù)據(jù)行業(yè)”,表示搜索“大數(shù)據(jù)行業(yè)”五個(gè)必須聯(lián)在一起的,如果不加“”,搜到的為大數(shù)據(jù)及行業(yè)兩個(gè)詞并列顯示結(jié)果,沒(méi)有這么精確匹配。

4)限制性的網(wǎng)頁(yè)搜索

使用intitle,如在百度鍵入“intitie:大數(shù)據(jù)”,限定于搜索標(biāo)題中含有“大數(shù)據(jù)”網(wǎng)頁(yè),如果輸入“intitie:大數(shù)據(jù)市場(chǎng)規(guī)?!毕薅ㄓ谒阉鳂?biāo)題中含有“大數(shù)據(jù)”和“市場(chǎng)規(guī)模”的網(wǎng)頁(yè)。

附:搜索引擎推薦













02 數(shù)據(jù)庫(kù)

數(shù)據(jù)庫(kù)是研究人員重要的數(shù)據(jù)來(lái)源之一,目前券商、基金研究研究機(jī)構(gòu)都購(gòu)買(mǎi)有商業(yè)數(shù)據(jù)庫(kù),目前研究用的數(shù)據(jù)庫(kù)主要分為兩大類,一是商業(yè)數(shù)據(jù)庫(kù),二是學(xué)術(shù)數(shù)據(jù)庫(kù)。


1. 商業(yè)數(shù)據(jù)庫(kù)

商業(yè)數(shù)據(jù)庫(kù)大多為金融投資所用,主要分為國(guó)內(nèi)與國(guó)外數(shù)據(jù)庫(kù)兩大類。

1)國(guó)內(nèi)商業(yè)數(shù)據(jù)庫(kù)

國(guó)內(nèi)數(shù)據(jù)庫(kù)主要有如萬(wàn)德、恒生聚源、銳思數(shù)據(jù)庫(kù)、CSMAR數(shù)據(jù)庫(kù)、巨潮數(shù)據(jù)庫(kù)等。


2)國(guó)外商業(yè)數(shù)據(jù)庫(kù)

國(guó)外數(shù)據(jù)庫(kù)主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等。

國(guó)外數(shù)據(jù)庫(kù)中彭博是比較全也大的,在國(guó)內(nèi)銷售也較好,但是售價(jià)奇貴。一般不做國(guó)際市場(chǎng)研究,大多用不到國(guó)外數(shù)據(jù)庫(kù),畢竟國(guó)外數(shù)據(jù)庫(kù)公司對(duì)國(guó)內(nèi)的行業(yè)數(shù)據(jù)及公司數(shù)據(jù)不如本土數(shù)據(jù)庫(kù)公司的做得好。

2. 學(xué)術(shù)數(shù)據(jù)庫(kù)

學(xué)術(shù)數(shù)據(jù)庫(kù)基本為高校、研究機(jī)構(gòu)所用,也分為國(guó)內(nèi)與國(guó)外兩大類,學(xué)術(shù)數(shù)據(jù)庫(kù)中一些學(xué)術(shù)論文、行業(yè)數(shù)據(jù)、統(tǒng)計(jì)年鑒還是有用的,缺點(diǎn)就是其中有些數(shù)據(jù)的相對(duì)較舊,無(wú)法做到實(shí)時(shí)更新。

1)國(guó)內(nèi)學(xué)術(shù)數(shù)據(jù)庫(kù)


2)國(guó)外學(xué)術(shù)數(shù)據(jù)庫(kù)


以上大致介紹了國(guó)內(nèi)的商業(yè)及學(xué)術(shù)數(shù)據(jù)庫(kù),但這些數(shù)據(jù)庫(kù)都是通過(guò)收費(fèi)或?qū)W校賬號(hào)才能使用,對(duì)于平時(shí)臨時(shí)研究用的一些人,沒(méi)有必要去購(gòu)買(mǎi),下面介紹一些免費(fèi)可用的數(shù)據(jù)庫(kù)。








03 共享文庫(kù)

首先也非常感謝共享文庫(kù)的出現(xiàn),使得大家搜集信息方便了許多,隨最早的豆丁、百度、愛(ài)問(wèn)等共享文庫(kù)的出現(xiàn),隨后到如今出現(xiàn)許多共享文庫(kù),不過(guò)很多文庫(kù)規(guī)模較小,文檔數(shù)量較少。


1. 國(guó)內(nèi)主要文庫(kù)


國(guó)內(nèi)文檔數(shù)據(jù)量最大的共享文庫(kù),綜合型的,好用。


其收費(fèi)的盈利模式導(dǎo)致用戶數(shù)量逐年減少,文檔質(zhì)量也不如百度文庫(kù)。


綜合型文庫(kù),里面也時(shí)常發(fā)現(xiàn)好的行業(yè)研究報(bào)告,電子書(shū)籍等。


綜合型文庫(kù),后起之秀,文檔數(shù)量和質(zhì)量較好。


以管理、行業(yè)文檔為主,質(zhì)量較好。


無(wú)需注冊(cè),通過(guò)點(diǎn)擊廣告模式盈利,文檔內(nèi)容多。


專業(yè)型文庫(kù),以計(jì)算機(jī)及IT技術(shù)相關(guān)的文檔為主。


全球最大的中文IT社區(qū)。


以創(chuàng)業(yè)投資、證券市場(chǎng)等文檔為主的專業(yè)型文庫(kù),剛起步狀態(tài)。


國(guó)內(nèi)最大房地產(chǎn)類文庫(kù),房地產(chǎn)相關(guān)策劃、數(shù)據(jù)較全。

2. 國(guó)外文庫(kù)


全球最大的文檔分享平臺(tái)。


在線文檔與圖片分享平臺(tái)。

針對(duì)以上國(guó)內(nèi)的共享文庫(kù),都可以通過(guò)注冊(cè)賬號(hào),上傳分享資料賺取積分,通過(guò)積分可以下載文庫(kù)資料。

如果有些文檔看過(guò)后不錯(cuò)想保存下來(lái)積分不夠,可以通過(guò)文庫(kù)下載器來(lái)免費(fèi)下載保存,文庫(kù)下載器有如“冰點(diǎn)文庫(kù)下載、易讀下載、老張文庫(kù)下載”等等,如果只看重其中一部分內(nèi)容,可以通過(guò)QQ拷屏方式保留下來(lái)(登陸QQ,ctrl+alt+a拷屏)。


04 專業(yè)網(wǎng)站

在共享文庫(kù)未出現(xiàn)以前,專業(yè)論壇一直擔(dān)任著查找資料的好去處,的確國(guó)內(nèi)的一些論壇經(jīng)過(guò)這么多年的運(yùn)營(yíng),已經(jīng)積累大量有用文檔。下面主要介紹我們常用的專業(yè)論壇。


1. 人大經(jīng)濟(jì)論壇

http://bbs.pinggu.org/

經(jīng)濟(jì)、學(xué)術(shù)型論壇,其中行業(yè)研究、統(tǒng)計(jì)年鑒數(shù)量多,更新速度快,我的最愛(ài),常用。

2. 經(jīng)濟(jì)學(xué)家

http://bbs.jjxj.org/

經(jīng)濟(jì)學(xué)專業(yè)論壇,其中統(tǒng)計(jì)年鑒、行業(yè)報(bào)告、國(guó)內(nèi)外數(shù)據(jù)等有特色。

3. 隨意網(wǎng)-經(jīng)濟(jì)論壇

http://economic.5d6d.net/

新建網(wǎng)站,有些內(nèi)容尚可。

4. 理想在線

http://www.55188.com

股票券商研究報(bào)告。

5. 邁博匯金

http://www.hibor.com.cn/

股票券商研究報(bào)告,目前已經(jīng)收費(fèi)了,只能查詢有哪些最新報(bào)告了,無(wú)法下載。

6. 博瑞金融

http://www.brjr.com.cn/forum.php;

金融行業(yè)專業(yè)型論壇。

7. 華爾街社區(qū)

http://forum.cnwallstreet.com/index.php

國(guó)內(nèi)專業(yè)的金融論壇。

8. 投行先鋒論壇

http://www.thxflt.com/

專業(yè)型為投行人士探討而設(shè)立的論壇。

9. 春暉投行在線

http://www.shenchunhui.com/

證券相關(guān)政策的匯編整合論壇。

10. 中華股權(quán)投資論壇

http://www.tzluntan.com/

pe投資專業(yè)型論壇。

11. 其他專業(yè)網(wǎng)站

投行網(wǎng)站:


各大咨詢公司報(bào)告:



05 政府部門(mén)

政府部門(mén)是國(guó)內(nèi)公開(kāi)數(shù)據(jù)的來(lái)源,查詢權(quán)威的數(shù)據(jù)可以到政府相關(guān)部門(mén)網(wǎng)站,以下介紹國(guó)內(nèi)的主要發(fā)布相關(guān)數(shù)據(jù)的政府部門(mén)。


1. 國(guó)家統(tǒng)計(jì)局

http://www.stats.gov.cn/

這個(gè)不用多說(shuō),大家很多人瀏覽過(guò)。

2. 工業(yè)和信息化部

http://www.miit.gov.cn

較多數(shù)據(jù)在此發(fā)布,尤其是有關(guān)工業(yè)運(yùn)行及信息化相關(guān)數(shù)據(jù)。

3. 中國(guó)人民銀行

http://www.pbc.gov.cn/

中國(guó)金融市場(chǎng)政策及運(yùn)行相關(guān)數(shù)據(jù)。

4. 銀監(jiān)會(huì)

http://www.cbrc.gov.cn

銀行金融相關(guān)數(shù)據(jù)。

5. 中國(guó)海關(guān)

http://www.customs.gov.cn

中國(guó)進(jìn)出口相關(guān)數(shù)據(jù)。

6. 國(guó)家知識(shí)產(chǎn)權(quán)局

http://www.sipo.gov.cn

專利相關(guān)查詢。

7. 中國(guó)證監(jiān)會(huì)

http://www.csrc.gov.cn

相關(guān)政策及招股書(shū)披露平臺(tái),以及擬上市公司排隊(duì)每周披露。

8. 巨潮信息網(wǎng)

http://www.cninfo.com.cn/

中國(guó)資本市場(chǎng)指定披露平臺(tái),上市公司相關(guān)年報(bào)、季報(bào)及公告披露信息。


06 證券交易所


1. 上海證券交易所

http://www.sse.com.cn/

其中研究出版欄目中有些研究報(bào)告。

2. 深圳證券交易所

http://www.szse.cn/

其中研究/刊物中有研究報(bào)告。

3. 全國(guó)中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)(新三板)

http://www.neeq.com.cn/

新三板掛牌公司的轉(zhuǎn)讓及信息披露。

4. 香港證券交易所

http://www.hkexnews.hk/index_c.htm

5. 臺(tái)灣證券交易所

http://www.tse.com.tw/ch/index.php

6. 新加坡證券交易所

http://www.sgx.com/

7. 紐約證券交易所

http://www.nyse.com

8. 納斯達(dá)克證券交易所

http://www.nasdaq.com


07 如何尋找國(guó)外數(shù)據(jù)

1. 搜集美國(guó)相關(guān)數(shù)據(jù)

由位于華盛頓的美國(guó)政府印刷辦公室出版、經(jīng)濟(jì)顧問(wèn)委員會(huì)撰寫(xiě)的《總統(tǒng)經(jīng)濟(jì)報(bào)告》(Economic Report of President),提供了有關(guān)美國(guó)當(dāng)前經(jīng)濟(jì)形勢(shì)的描述和主要宏觀經(jīng)濟(jì)變量數(shù)據(jù)。相當(dāng)多的數(shù)據(jù)都可以追溯到1959年,甚至個(gè)別的可追溯到1929年。

可能你已經(jīng)留意到了,好多有關(guān)美國(guó)的圖形,都是采用《總統(tǒng)經(jīng)濟(jì)報(bào)告》(2005)所附數(shù)據(jù)生成的。這些數(shù)據(jù)可以免費(fèi)下載,網(wǎng)址:

http://www.access.gpo.gov/eop/

如果想獲得最近數(shù)據(jù)的詳細(xì)資料,一個(gè)不錯(cuò)的選擇是,美國(guó)商務(wù)經(jīng)濟(jì)分析局每月出版的《當(dāng)代商業(yè)縱覽》(Survey of Current Business)。網(wǎng)址:

http://www.bea.doc.gov/


2. 如何搜集國(guó)外其他經(jīng)濟(jì)體數(shù)據(jù)

對(duì)富裕國(guó)家來(lái)說(shuō),最有用的資料來(lái)源于經(jīng)濟(jì)合作與發(fā)展組織(Organization of Economic Cooperation and Development,簡(jiǎn)稱OECD)。

經(jīng)濟(jì)合作與發(fā)展組織的成員包括:奧地利、澳大利亞、比利時(shí)、加拿大、捷克共和國(guó)、丹麥、芬蘭、法國(guó)、德國(guó)、希臘、匈牙利、冰島、意大利、日本、盧森堡、墨西哥、荷蘭、新西蘭、挪威、波蘭、葡萄牙、韓國(guó)、西班牙、瑞典、瑞士、土耳其、英國(guó)和美國(guó)??磥?lái),世界上的富裕國(guó)家大都屬于該組織,其產(chǎn)出占世界產(chǎn)出的70%左右。

OECD的網(wǎng)址:
http://www.oecd.org/

提供三種極為有用的數(shù)據(jù):


對(duì)于不是OECD成員的國(guó)家和地區(qū),可以從其它國(guó)際組織那里獲得相關(guān)數(shù)據(jù),比如國(guó)際貨幣基金組織(International Monetary Fund,簡(jiǎn)稱IMF),網(wǎng)址:

https://www.imf.org/

IMF提供《國(guó)際金融統(tǒng)計(jì)年鑒》(InternationalFinancial Statistics Yearbook),它主要提供成員國(guó)的金融數(shù)據(jù),但也包括一些總體數(shù)據(jù),比如GDP、失業(yè)和通貨膨脹等。

至于若干國(guó)家長(zhǎng)期的統(tǒng)計(jì)數(shù)據(jù),兩個(gè)不可多得的數(shù)據(jù)來(lái)源是,Heston-Summers數(shù)據(jù)庫(kù)和Madison數(shù)據(jù)庫(kù)。

Heston-Summers數(shù)據(jù)庫(kù)提供168經(jīng)濟(jì)體在1950-2000年間的跨國(guó)可比數(shù)據(jù),在賓夕法尼亞大學(xué)國(guó)際比較中心(Center for International Comparisons at the University ofPennsylvania)網(wǎng)站上可以下載:

http://pwt.econ.upenn.edu/

Madison數(shù)據(jù)庫(kù)提供了自1820年以來(lái)56個(gè)經(jīng)濟(jì)體的數(shù)據(jù)。

最后,如果還沒(méi)有找到你要的數(shù)據(jù),不妨登陸下面的兩個(gè)網(wǎng)站,也許是根稻草。哈佛商學(xué)院的宏觀經(jīng)濟(jì)學(xué)資源網(wǎng)站提供了大量連接:

https://www.hbs.edu/faculty/units/bgie/Pages/default.aspx

由密西西比大學(xué)BillGoffe維護(hù)的一個(gè)網(wǎng)站:

http://rfe.wustl.edu

不僅列出了數(shù)據(jù)來(lái)源,而且還列出了有關(guān)經(jīng)濟(jì)的其他信息來(lái)源。


08 分行業(yè)網(wǎng)站


1. 互聯(lián)網(wǎng)及傳媒

1)資訊類











2)數(shù)據(jù)類










2. 銀行業(yè)

1)新聞資訊








2)公告、數(shù)據(jù)查找








3. 有色金屬

1)日?qǐng)?bào)網(wǎng)站






2)其他常用站









09 其他

除以上介紹的幾種資料搜集渠道外,我們也結(jié)合近年it科技的發(fā)展,在博客、微博、空間等去搜索。

1. 行業(yè)協(xié)會(huì)網(wǎng)站

每個(gè)行業(yè)協(xié)會(huì)基本都會(huì)有網(wǎng)站,在該網(wǎng)站上能夠查找一些對(duì)本行業(yè)的描述、相關(guān)數(shù)據(jù)等。

2. 博客

國(guó)內(nèi)有網(wǎng)易、新浪、搜狐、百度空間、和訊等博客網(wǎng)站,有些數(shù)據(jù)也可以從搜索博客中找到。

3. 微博

新浪微博及騰訊微博,用數(shù)量極大,其中有些數(shù)據(jù)可以通過(guò)搜索查詢到。

4. 微信

微信用戶已經(jīng)超過(guò)4億,每個(gè)人都是新聞的發(fā)布者,其中數(shù)據(jù)資源豐富,但目前還未提供全文搜索功能,只能通過(guò)關(guān)注相關(guān)公共賬號(hào)或關(guān)注朋友圈獲取。

5. QQ空間

有些企業(yè)或機(jī)構(gòu)QQ空間會(huì)有些報(bào)告及數(shù)據(jù)發(fā)布。

6. 全景網(wǎng)

http://www.p5w.net/

注:本文中提到的部分網(wǎng)站需科學(xué)上網(wǎng)才能訪問(wèn),另由于信息更新不及時(shí)等原因,部分鏈接可能已失效。歡迎大家一起查bug。

作者:王術(shù),發(fā)表于知乎
來(lái)源:http://zhihu.com/question/22698541/answer/22367802
部分內(nèi)容來(lái)自網(wǎng)絡(luò)

作者: 妖而不媚    時(shí)間: 2021-12-16 08:23
想要分析的時(shí)候,沒(méi)有數(shù)據(jù),就是巧婦難為無(wú)米之炊。以前想找一個(gè)數(shù)據(jù)需要費(fèi)盡心思在網(wǎng)上去搜,最終還找不到自己想要的數(shù)據(jù)。通過(guò)編程爬蟲(chóng)數(shù)據(jù),學(xué)習(xí)成本又太高,畢竟你的目標(biāo)不是想要成為爬蟲(chóng)工程師,只是想要拿到數(shù)據(jù)來(lái)分析。那有沒(méi)有傻瓜式的獲取數(shù)據(jù)方法呢?
下面介紹4種獲取數(shù)據(jù)的方法,選擇一種適合你自己的方法就可以。


(, 下載次數(shù): 14)
1)如何選擇行業(yè)?
不知道如何選擇行業(yè)的,可以在下面網(wǎng)站里看到各個(gè)行業(yè)的分析報(bào)告:
如何選擇入職行業(yè) :https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞網(wǎng)(行業(yè)報(bào)告):http://report.iresearch.cn
Talkingdata報(bào)告(行業(yè)報(bào)告):http://mi.talkingdata.com
199IT互聯(lián)網(wǎng)數(shù)據(jù)中心(行業(yè)報(bào)告,內(nèi)容多,支持搜索):http://www.199it.com

2)10大行業(yè)免費(fèi)數(shù)據(jù)匯總
【優(yōu)點(diǎn)】直接拿來(lái)使用
【缺點(diǎn)】數(shù)據(jù)有限
根據(jù)你確定的行業(yè),選擇一個(gè)自己感興趣的數(shù)據(jù)。比如你確定了電商行業(yè),然后就找一個(gè)電商行業(yè)的數(shù)據(jù)。
在《數(shù)據(jù)分析思維》中匯聚了10多個(gè)行業(yè)的數(shù)據(jù)以及分析案例

(, 下載次數(shù): 18)

(, 下載次數(shù): 17)

《數(shù)據(jù)分析思維》12大行業(yè)案例數(shù)據(jù)

更多行業(yè)數(shù)據(jù):
<a href="http://zhuanlan.zhihu.com/p/48413088" class="internal">10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:電商零售行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:金融行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:游戲行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:教育行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:旅游行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:文化娛樂(lè)行業(yè)(電影,音樂(lè)等)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:醫(yī)療行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:汽車及出行
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:房產(chǎn)行業(yè)
10大行業(yè)公開(kāi)數(shù)據(jù)集免費(fèi)下載:自媒體等行業(yè)

1.國(guó)內(nèi)中文平臺(tái):
1)阿里云天池,官網(wǎng)網(wǎng)址:https://tianchi.aliyun.com/dataset/
數(shù)據(jù)下載辦法:

(, 下載次數(shù): 22)

(, 下載次數(shù): 18)

(, 下載次數(shù): 16)
2)DataFountain,官網(wǎng)地址:https://www.datafountain.cn/dataSets
有的文件下載后會(huì)顯示后綴是.zip, .zip是個(gè)壓縮包,下載后需要減壓后才能看到壓縮包里的excel文件

(, 下載次數(shù): 20)
2.國(guó)外英文平臺(tái)
Kaggle,官網(wǎng)地址和如何下載數(shù)據(jù):如何在Kaggle上查找數(shù)據(jù)

【優(yōu)點(diǎn)】在網(wǎng)站上爬取你感興趣領(lǐng)域網(wǎng)站的數(shù)據(jù),可以獲取到自己想要的領(lǐng)域數(shù)據(jù)
【缺點(diǎn)】需要看官網(wǎng)教程來(lái)學(xué)習(xí),有一定門(mén)檻

1)工具: 后羿,同時(shí)有mac,windows版本
網(wǎng)址:http://www.houyicaiji.com/
打開(kāi)官網(wǎng)后點(diǎn)擊下圖“教程”的地方有入門(mén)教程。

(, 下載次數(shù): 16)
2)工具:集搜客,只有windows版本
操作指南只需要看下面紅框中的內(nèi)容就可以,操作指南地址:
https://www.gooseeker.com/tuto/tutorial.html

(, 下載次數(shù): 19)
爬取多少數(shù)據(jù)?
數(shù)據(jù)量少一般說(shuō)明不了什么問(wèn)題,起碼的超過(guò)幾萬(wàn)條數(shù)據(jù)。
多嘗試、思維邏輯要清晰,一定要知道自己做什么,爬取什么樣的數(shù)據(jù),提前規(guī)劃好了,整個(gè)過(guò)程就不會(huì)走太多的彎路。

(, 下載次數(shù): 19)
案例:https://zhuanlan.zhihu.com/p/39733403

歡迎留言補(bǔ)充更多行業(yè)數(shù)據(jù)。

上面提到3種獲取數(shù)據(jù)的方法,選擇一種適合你自己方法。獲取數(shù)據(jù)后分析,可以使用這個(gè)里面的方法來(lái)分析:
如何分析數(shù)據(jù)?
作者: 齊吧    時(shí)間: 2021-12-16 10:18
不請(qǐng)自來(lái)。
二手研究:基于其它個(gè)人團(tuán)體或機(jī)構(gòu)以前進(jìn)行的研究的信息。
一手研究:為公司的具體需求直接參與信息收集。包括焦點(diǎn)小組、問(wèn)卷調(diào)查、個(gè)人訪談等。
欣旋咨詢:項(xiàng)目管理培訓(xùn)專家,欣然學(xué)習(xí),凱旋而歸!
作者: 張總    時(shí)間: 2021-12-16 12:31
是時(shí)候拿出之前總結(jié)的干貨了?。。?/strong>
真實(shí)可用的公開(kāi)數(shù)據(jù)集:
亞馬遜AWS開(kāi)放數(shù)據(jù)登記冊(cè)
Registry of Open Data on AWS阿帕奇數(shù)據(jù)集(得在linux操作系統(tǒng)上才能正常登陸)
http://archive.ics.uci.edu/ml/datasets.htmlkaggle比賽用數(shù)據(jù)集
Competitions | KaggleKDnugget之家數(shù)據(jù)集
Datasets for Data Mining and Data Science搜狗實(shí)驗(yàn)室
搜狗實(shí)驗(yàn)室(Sogou Labs)阿里云天池比賽數(shù)據(jù)集
天池?cái)?shù)據(jù)集DC競(jìng)賽數(shù)據(jù)集
DC競(jìng)賽-大數(shù)據(jù)競(jìng)賽平臺(tái)題主拿去,不謝。
歡迎訂閱微信公眾號(hào):IT知識(shí)庫(kù)小姐姐
獲取更多免費(fèi)學(xué)習(xí)資料、行業(yè)資訊,轉(zhuǎn)行疑惑解答。
另有轉(zhuǎn)行IT疑惑,或者不知道自己適合學(xué)什么的,可以評(píng)論區(qū)留言或者私信,我將一一回復(fù)解答。
覺(jué)得這個(gè)回答有幫助的,別光記得收藏,點(diǎn)個(gè)贊讓更多的小伙伴看到,謝謝(*°?°)=3




歡迎光臨 愛(ài)鋒貝 (http://m.7gfy2te7.cn/) Powered by Discuz! X3.4