★收藏本站

開啟輔助訪問

快捷導(dǎo)航

愛鋒貝»社區(qū) › 手機 › 教程庫 › 去哪找數(shù)據(jù)？怎么挖掘？

12 / 2 頁

發(fā)新帖

樓主: 數(shù)碼桃桃

上一主題

下一主題

收起左側(cè)

去哪找數(shù)據(jù)？怎么挖掘？

[復(fù)制鏈接]

未绑定微信

0 主題	47 帖子	1 積分

Rank: 1

發(fā)消息

11樓

發(fā)表于 2021-12-15 20:39:14 | 只看該作者

逐漸就可以直接上一些網(wǎng)上的數(shù)據(jù)交易市場找了，大數(shù)據(jù)帶動了一大批這類網(wǎng)站，但總體來說對于從業(yè)者是好事，目前沒有一家獨大的，列個表，需要的可以看看：
百度apistore、阿里云云市場、數(shù)據(jù)堂、聚合數(shù)據(jù)
數(shù)糧、極速數(shù)據(jù)、apix、通聯(lián)、大海洋、優(yōu)易數(shù)據(jù)
還有上面答案提到的幾個網(wǎng)站，總體來說這些網(wǎng)站的數(shù)據(jù)量在不斷增加
如果找統(tǒng)計數(shù)據(jù)可以直接去國家統(tǒng)計局網(wǎng)站，量大、正宗，并且可以外鏈到幾個全球范圍的統(tǒng)計網(wǎng)站，質(zhì)量很高

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	55 帖子	6 積分

Rank: 1

發(fā)消息

12樓

發(fā)表于 2021-12-15 22:46:33 | 只看該作者

現(xiàn)在找數(shù)據(jù)的渠道很多，基本上分為開放性的數(shù)據(jù)和爬蟲獲取的專業(yè)數(shù)據(jù)，另外現(xiàn)在逐漸也可以找到一些數(shù)據(jù)交易平臺了。無論是哪種渠道，主要應(yīng)該想好所找數(shù)據(jù)的方向，才能挖掘出更多數(shù)據(jù)。同時數(shù)據(jù)收集后要做好梳理分析，才能讓數(shù)據(jù)產(chǎn)生價值。
結(jié)合上面說的，列舉一些常見的數(shù)據(jù)渠道，希望帶來一些幫助：
1、開放性的數(shù)據(jù)渠道
一般這種數(shù)據(jù)比較好找，像國家統(tǒng)計局、中國信息統(tǒng)計網(wǎng)，以及北京、上海等地方政府類數(shù)據(jù)官網(wǎng)，里面包含了城市、交通、就業(yè)、基礎(chǔ)設(shè)施等數(shù)據(jù)。當然還包括行業(yè)類的一些數(shù)據(jù)平臺，比如新浪財經(jīng)、東方財富網(wǎng)。又或者智聯(lián)招聘、獵聘網(wǎng)等就業(yè)市場類的數(shù)據(jù)。不過很多開放的數(shù)據(jù)渠道可能數(shù)據(jù)會有些老，且比較散亂，通常需要多個渠道去找，這需要有鑒別能力，慢慢梳理，不要著急。

去哪找數(shù)據(jù)？怎么挖掘？-1.jpg

登錄/注冊后可看大圖

2、專業(yè)爬蟲數(shù)據(jù)渠道
不建議數(shù)據(jù)小白通過這種方式和渠道挖掘數(shù)據(jù)，因為前期需要學(xué)習(xí)爬蟲獲取技術(shù)，比較耗費時間和精力。有基礎(chǔ)知識和能力的小伙伴，可以從易觀智庫、阿里研究院、科賽網(wǎng)等，以及火車頭、八爪魚等采集軟件中獲取，但可能會出現(xiàn)采集速度慢，數(shù)據(jù)混亂等情況。另外關(guān)于國外的數(shù)據(jù)網(wǎng)站，檢索成本較高，比如部分需要VPN翻墻或者數(shù)據(jù)信息冗雜，需要加強鑒別梳理，因此不建議小白采用這個方式。

去哪找數(shù)據(jù)？怎么挖掘？-2.jpg

登錄/注冊后可看大圖

3、數(shù)據(jù)交易渠道
現(xiàn)在數(shù)據(jù)交易渠道也很多，通過付費方式得到想要的數(shù)據(jù)。雖然有一定的成本，但
數(shù)據(jù)獲取效率會比較高，像數(shù)據(jù)堂、萬得、數(shù)位觀察、優(yōu)易數(shù)據(jù)等。這些數(shù)據(jù)交易渠道的
數(shù)據(jù)覆蓋面很廣，比如數(shù)位觀察，可以直接查詢城市、客群、商圈、品牌、區(qū)域等，而且數(shù)據(jù)相對精準全面。此外，這些渠道的數(shù)據(jù)都比較有邏輯性，像在數(shù)位觀察上查，得到的數(shù)據(jù)都有熱力圖、模型的分析梳理，這樣就省去數(shù)據(jù)統(tǒng)計整合的過程，提高效率，省事省心。

去哪找數(shù)據(jù)？怎么挖掘？-3.jpg

登錄/注冊后可看大圖

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	51 帖子	3 積分

Rank: 1

發(fā)消息

13樓

發(fā)表于 2021-12-16 01:11:21 | 只看該作者

數(shù)據(jù)挖掘可以通過商業(yè)軟件來實現(xiàn)，例如：思邁特軟件Smartbi mining，SAS，SPSS clementine等；也可以通過自己編程或是下載已有的開源代碼來實現(xiàn)，例如：決策樹就有C4.5、ID3等很多種成熟的開源算法。

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	60 帖子	3 積分

Rank: 1

發(fā)消息

14樓

發(fā)表于 2021-12-16 03:21:40 | 只看該作者

下面分享精心整理的數(shù)據(jù)網(wǎng)站，涵蓋各種原始數(shù)據(jù)以及數(shù)據(jù)分析報告，看完麻煩點個贊哈

0. 搜數(shù)網(wǎng)

http://www.soshoo.com.cn/index.do

去哪找數(shù)據(jù)？怎么挖掘？-1.jpg

登錄/注冊后可看大圖

1.中華人民共和國統(tǒng)計局

國家統(tǒng)計局

去哪找數(shù)據(jù)？怎么挖掘？-2.jpg

登錄/注冊后可看大圖

2. 中國互聯(lián)網(wǎng)絡(luò)信息中心

中國互聯(lián)網(wǎng)絡(luò)信息中心

去哪找數(shù)據(jù)？怎么挖掘？-3.jpg

登錄/注冊后可看大圖

3. 中國信通院

中國信息通信研究院

去哪找數(shù)據(jù)？怎么挖掘？-4.jpg

登錄/注冊后可看大圖

4. 艾瑞網(wǎng)

報告_艾瑞網(wǎng)

去哪找數(shù)據(jù)？怎么挖掘？-5.jpg

登錄/注冊后可看大圖

（另外，我整理了學(xué)習(xí)數(shù)據(jù)分析完整的路線需要的書籍送給大家）

去哪找數(shù)據(jù)？怎么挖掘？-6.jpg

登錄/注冊后可看大圖

錯過了，需要再等一年的數(shù)據(jù)分析書籍5.前瞻網(wǎng)

經(jīng)濟學(xué)人 - 讓您成為更懂趨勢的人_細分產(chǎn)業(yè)市場分析_前瞻經(jīng)濟學(xué)人App - 前瞻網(wǎng)

去哪找數(shù)據(jù)？怎么挖掘？-7.jpg

登錄/注冊后可看大圖

6. 極光大數(shù)據(jù)

數(shù)據(jù)報告列表 - 極光

去哪找數(shù)據(jù)？怎么挖掘？-8.jpg

登錄/注冊后可看大圖

7.中國互聯(lián)網(wǎng)數(shù)據(jù)資訊中心

互聯(lián)網(wǎng)數(shù)據(jù)資訊網(wǎng)-199IT | 發(fā)現(xiàn)數(shù)據(jù)的價值-199IT | 中文互聯(lián)網(wǎng)數(shù)據(jù)研究資訊中心-199IT

去哪找數(shù)據(jù)？怎么挖掘？-9.jpg

登錄/注冊后可看大圖

8. 易觀智庫

分析報告-易觀分析

去哪找數(shù)據(jù)？怎么挖掘？-10.jpg

登錄/注冊后可看大圖

9. talking data

數(shù)據(jù)報告-移動觀象臺-TalkingData

去哪找數(shù)據(jù)？怎么挖掘？-11.jpg

登錄/注冊后可看大圖

（另外，我整理了學(xué)習(xí)數(shù)據(jù)分析完整的路線需要的書籍送給大家）

錯過了，需要再等一年的數(shù)據(jù)分析書籍5.前瞻網(wǎng)

10.艾媒網(wǎng)

艾媒網(wǎng)-全球領(lǐng)先的新經(jīng)濟行業(yè)數(shù)據(jù)分析報告發(fā)布平臺

去哪找數(shù)據(jù)？怎么挖掘？-13.jpg

登錄/注冊后可看大圖

11.七麥數(shù)據(jù)

七麥數(shù)據(jù)（原ASO100）-專業(yè)移動產(chǎn)品商業(yè)分析平臺-ASO-ASM優(yōu)化

去哪找數(shù)據(jù)？怎么挖掘？-14.jpg

登錄/注冊后可看大圖

12.企鵝智庫

企鵝智酷_騰訊網(wǎng)

去哪找數(shù)據(jù)？怎么挖掘？-15.jpg

登錄/注冊后可看大圖

13.騰訊大數(shù)據(jù)

騰訊大數(shù)據(jù)

去哪找數(shù)據(jù)？怎么挖掘？-16.jpg

登錄/注冊后可看大圖

14.IT桔子

IT桔子 | 泛互聯(lián)網(wǎng)創(chuàng)業(yè)投資項目信息數(shù)據(jù)庫及商業(yè)信息服務(wù)商

去哪找數(shù)據(jù)？怎么挖掘？-17.jpg

登錄/注冊后可看大圖

15. 百度指數(shù)

https://index.baidu.com/v2/index.html#/

去哪找數(shù)據(jù)？怎么挖掘？-18.jpg

登錄/注冊后可看大圖

--------------------
碼字不易，麻煩給我點個贊，更多干貨不要錯過關(guān)注我

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	50 帖子	3 積分

Rank: 1

發(fā)消息

15樓

發(fā)表于 2021-12-16 04:18:24 | 只看該作者

分享一下我平時常用的幾個經(jīng)典的數(shù)據(jù)源吧。
1，世界銀行公開數(shù)據(jù)：World Bank Open Data
免費并公開獲取世界各國的發(fā)展數(shù)據(jù)，數(shù)據(jù)全面、權(quán)威且比較規(guī)范。

去哪找數(shù)據(jù)？怎么挖掘？-1.jpg

登錄/注冊后可看大圖

2，聯(lián)合國人口司數(shù)據(jù)集：United Nations Population Division

去哪找數(shù)據(jù)？怎么挖掘？-2.jpg

登錄/注冊后可看大圖

網(wǎng)頁中有個數(shù)據(jù)專區(qū)，含有各種人口相關(guān)的數(shù)據(jù)集，比如人口老齡化數(shù)據(jù)、全球移民數(shù)據(jù)、世界人口婚姻狀況數(shù)據(jù)、人口增長趨勢數(shù)據(jù)等等，想挖掘人口相關(guān)的問題，是一個不可多得的數(shù)據(jù)源。

3，Kaggle數(shù)據(jù)集：Datasets | Kaggle，總有你感興趣的數(shù)據(jù)

去哪找數(shù)據(jù)？怎么挖掘？-3.jpg

登錄/注冊后可看大圖

Kaggle主要是為數(shù)據(jù)科學(xué)家提供機器學(xué)習(xí)競賽、編寫和分享代碼的平臺,里面的各種數(shù)據(jù)集十分豐富。

4，如果上面的幾個不能滿足你的需要，那就給你來個集大成的數(shù)據(jù)網(wǎng)站
大數(shù)據(jù)導(dǎo)航：大數(shù)據(jù)導(dǎo)航-大數(shù)據(jù)工具導(dǎo)航-199IT大數(shù)據(jù)導(dǎo)航-199IT大數(shù)據(jù)工具導(dǎo)航-Hao.199it.com

去哪找數(shù)據(jù)？怎么挖掘？-4.jpg

登錄/注冊后可看大圖

數(shù)據(jù)包羅萬象，各行業(yè)、各領(lǐng)域分門別類，總有你需要的。

5，授人以魚不如授人以漁，沒有數(shù)據(jù)就沒法玩做可視化嗎，NO！
沒有數(shù)據(jù)還可以自己模擬數(shù)據(jù)，分享一個數(shù)據(jù)模擬神器：WebPlotDigitizer，

去哪找數(shù)據(jù)？怎么挖掘？-5.jpg

登錄/注冊后可看大圖

不用到處找數(shù)據(jù)，如果你想做圖，沒問題，把你想要的圖表導(dǎo)進去，這個神器可以幫你模擬出一套數(shù)據(jù)哦（工具獲取及用法詳見：采悟：PowerBI完美制作魔力象限圖，內(nèi)含可視化神器?。?br />
最后，如果你下載數(shù)據(jù)不方便，我平時自己整理使用的一些數(shù)據(jù)，近百個、Excel格式，簡單易用，在微信公眾號「PowerBI星球」，回復(fù)關(guān)鍵字&#34;數(shù)據(jù)&#34;即可獲取下載鏈接。
學(xué)習(xí)愉快！
.

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	50 帖子	-6 積分

發(fā)消息

16樓

發(fā)表于 2021-12-16 05:23:37 | 只看該作者

原創(chuàng)作者：吳曉光
出自公眾號：51CTO技術(shù)棧
“時下數(shù)據(jù)科學(xué)是一個熱點話題，各個行業(yè)里面也有一些比較成熟的應(yīng)用，在這個大的背景下，我們在大約一年前就開始有意識地把數(shù)據(jù)技術(shù)、數(shù)據(jù)分析、數(shù)據(jù)挖掘這些技術(shù)融合到運維領(lǐng)域的應(yīng)用?！?br /> 在這個過程中，我們做的時間其實不長，比較短，目前只是做了一些相對來說較為簡單的一些事情，但取得的成果在公司內(nèi)部感覺還是比較好的。

CDP白皮書：2020營銷技術(shù)新風(fēng)向 - Linkflow聯(lián)否官網(wǎng)今天跟大家分享一下我們在應(yīng)用開發(fā)過程中的一些案例，即如何讓數(shù)據(jù)技術(shù)在運維實踐中得到充分的應(yīng)用，希望對大家的工作有一些參考價值。
分為四個部分進行分享：

數(shù)據(jù)處理技術(shù)應(yīng)用
數(shù)據(jù)分析技術(shù)應(yīng)用
數(shù)據(jù)挖掘技術(shù)應(yīng)用
應(yīng)用生態(tài)建設(shè)及規(guī)劃在運維中我們會碰到各種各樣的問題，如下圖：

去哪找數(shù)據(jù)？怎么挖掘？-1.jpg

登錄/注冊后可看大圖

但有些問題我們經(jīng)常重復(fù)遇到，并且形成了一些提問范式，如：

“有問題或故障發(fā)生嗎？”，這個提問轉(zhuǎn)換成數(shù)學(xué)問題就是建立“異常檢測”模型。
當我們確認有問題時，我們本能地會問“哪里出了問題”，這便是一個“根因分析”問題。
對于一家電商公司來說，促銷前總是要對線上系統(tǒng)進行容量評估和擴容，這里便有一個“預(yù)測”模型需要被建立。
當我們每做完一個項目，需要對項目需要達成的目標進行定量的評估，這便是一個“績效分析”的問題。

目前各類數(shù)學(xué)模型的輸出在我們的具體工作中主要被用作輔助決策，有兩個原因使我們還不能直接把結(jié)果自動地用于決策：

我們對數(shù)據(jù)的使用能力還不能做到面面俱到，很多業(yè)務(wù)知識還無法用算法描述。
算法的輸出結(jié)果一般都是有概率的，在很多需要“絕對正確”的場合只能作為參考。

在實際工作中，算法和業(yè)務(wù)規(guī)則庫都會進行建設(shè)，用來幫助運維人員更容易和正確地做出決定。
今天給大家重點介紹“數(shù)據(jù)處理技術(shù)”、“數(shù)據(jù)分析技術(shù)”、“數(shù)據(jù)挖掘技術(shù)”這三個方面在唯品會的應(yīng)用實踐，主要會講到一些應(yīng)用場景，最后談下“數(shù)據(jù)技術(shù)”在運維的生態(tài)建設(shè)和一些規(guī)劃。
數(shù)據(jù)處理技術(shù)應(yīng)用

對于數(shù)據(jù)處理技術(shù)來說，我們主要解決以下五個方面的問題：

數(shù)據(jù)的準確性、及時性
海量數(shù)據(jù)的實時計算
多維數(shù)據(jù)的實時監(jiān)控
多維數(shù)據(jù)的展示
A/B 測試實現(xiàn)方法

這里有些問題在行業(yè)里已有比較成熟的解決方案，有些可能不是每個公司都會碰到。
數(shù)據(jù)采集

去哪找數(shù)據(jù)？怎么挖掘？-2.jpg

登錄/注冊后可看大圖

首先我們看數(shù)據(jù)采集，對唯品會來說，我們主要是兩類數(shù)據(jù)：

日志數(shù)據(jù)
數(shù)據(jù)庫數(shù)據(jù)

對于日志數(shù)據(jù)來說，我們有兩類采集：

客戶端的日志采集
服務(wù)器端的日志采集

對于服務(wù)器端的日志采集，實際上是比較簡單的，一般來說就是落到本地盤之后，通過 Flume 傳送到公司的 Kafka 集群，然后大家在上面消費。
對于客戶端行為的采集，分成兩種：

Web 端的采集，一般來說就是通過異步請求在 Nginx 上落日志。
APP 端的采集，一般是通過一個接口調(diào)用的方式，把這些數(shù)據(jù)落到服務(wù)端，再由服務(wù)端把這個數(shù)據(jù)收集起來。

對于數(shù)據(jù)庫的采集，實際上我們也是有兩種方法：

直接在從庫上來做這種指標的計算。
對于復(fù)雜的應(yīng)用，我們會把 DB 的 Binlog 做一些解析，解析完了之后放到一個消息總線上，實際上就放到 Kafka 上，然后讓大家來進行一個消費，每個應(yīng)用都是根據(jù)自己的特點，重構(gòu)自己的數(shù)據(jù)結(jié)構(gòu)。

有些會還原數(shù)據(jù)庫，有些就直接用消息來計算指標，具體要根據(jù)情況進行分析。
上圖主要描述了唯品會用到的一些主要開源產(chǎn)品，基本上是這樣。
數(shù)據(jù)計算

去哪找數(shù)據(jù)？怎么挖掘？-3.jpg

登錄/注冊后可看大圖

數(shù)據(jù)計算是比較重要的一環(huán)，實際上要兼顧性能和靈活性兩個方面。
對日志的處理，會有一個日志解析程序來消費 Kafka 的消息，“日志解析”實現(xiàn)一個實時 ETL 的過程，我們會根據(jù)配置（基本配置也跟 ETL 差不多）去生成預(yù)定義的標準格式，后續(xù)就交給 Spark 做聚合。
“日志解析”由于日志之間沒有相關(guān)性，可以 Map 之后并行計算，吞吐量和資源的投入是成正比的，這樣效率就沒有什么太多的問題。
對于 Spark 的聚合配置，一般來說我們會把日志解析完的數(shù)據(jù)進行定義，定義各個字段是維度或是指標，然后會做一個全維度的聚合。
這里面實際上也是有個要求的，我們要求所有的指標在各個維度上都具有累加性。
如果不具備累加性（比如百分比這種指標），我們在 Spark 里是不做聚合的，只是在展現(xiàn)的時候重新計算，計算好的數(shù)據(jù)會放到一個 OLAP 和 MOLAP 的數(shù)據(jù)庫里。
還有一種情況，是通過腳本在數(shù)據(jù)庫從庫上直接進行指標的計算，一般用于只有時間維度的指標計算，配置好的計算腳本，我們會用公司開源的一個產(chǎn)品 Saturn 來進行一個分布式調(diào)度。
Saturn 這個東西還是不錯的，推薦大家去嘗試一下。對于日志的詳細查詢，我們還是放到 ES 里，通過全文檢索的方式來查詢。
數(shù)據(jù)展現(xiàn)

去哪找數(shù)據(jù)？怎么挖掘？-4.jpg

登錄/注冊后可看大圖

數(shù)據(jù)展現(xiàn)是最終的結(jié)果輸出，實際工作中，我們對結(jié)果數(shù)據(jù)的查詢效率要求比較嚴苛，因為這些結(jié)果數(shù)據(jù)不僅用于前端，還用于告警輸出等各個方面。
對于告警的數(shù)據(jù)我們需要做到毫秒級響應(yīng)，前端界面一般要求是在 3 秒內(nèi)渲染完成。
為了完成這個要求，我們構(gòu)建了一個 ROLAP 數(shù)據(jù)庫，還有一個 MOLAP 的數(shù)據(jù)庫，在 ROLAP 的數(shù)據(jù)庫里，一般只存當天的多維數(shù)據(jù)，而在 MOLAP 的數(shù)據(jù)庫里，會存歷史數(shù)據(jù)。
對于 MOLAP 數(shù)據(jù)庫的檢索，由于應(yīng)用主要是切片方面的需求，基本上都是 K-value 模式的一個檢索，所以它比較快。
MySQL 里一般是存放單維度指標，應(yīng)該這么講，它不是多維數(shù)據(jù)。Redis 緩沖里，一般會存放我們的秒級數(shù)據(jù)，還有一些配置信息。
這個架構(gòu)中，最后通過 Application Server 進行一個數(shù)據(jù)的整合，來滿足前端數(shù)據(jù)的一個展示要求。
多維分析界面案例

去哪找數(shù)據(jù)？怎么挖掘？-5.jpg

登錄/注冊后可看大圖

這是一個多維分析案例的界面，左邊是我們的分析平臺，右邊是我們的實時監(jiān)控平臺。
從這上面大家能看到，我們實際提供的功能主要是對數(shù)據(jù)切片的能力，這個能力基本可以滿足我們目前所有的需求。
A/B 測試實現(xiàn)

對于數(shù)據(jù)分析來說，基于 A/B 測試的對比分析是一種重要的方法，因為 A/B 測試對比的結(jié)果容易被業(yè)務(wù)理解，如果沒有 A/B 測試，你說我做了一件事情，這件事情帶來了一個好的效果，還是很難經(jīng)得起挑戰(zhàn)的。
在 A/B 測試中，它需要一些技術(shù)來支撐的，因為我們在線上同時會有很多 A/B 測試的案例同時在跑，你自己的 A/B 測試不應(yīng)該被別人干擾。
在這種情況下實際上是要求各個 A/B 測試之間的用戶分布得具有正交性，也就是說別人的 A/B 測試集用戶應(yīng)該平均分布在你的 A/B 測試集上。
這種實現(xiàn)我們大約有兩種方法，一種是會在 APP 端設(shè)置開關(guān)，每個開關(guān)管理一個 A/B 測試的實驗。
更多的 A/B 測試，是統(tǒng)一請求后端的 A/B 測試分組服務(wù)，這個服務(wù)通過算法來保證各個試驗之間相互獨立。
一般來說，當客戶端發(fā)起 A/B 測試場景的時候，就會向 A/B 測試分組服務(wù)發(fā)個請求，然后 A/B 分組服務(wù)會返回這個用戶是屬于 A 組還是 B 組，一般是這樣的。

去哪找數(shù)據(jù)？怎么挖掘？-6.jpg

登錄/注冊后可看大圖

數(shù)據(jù)分析技術(shù)應(yīng)用

這部分會簡單介紹具體的分析方法，并主要說下應(yīng)用場景和案例。我們的運維數(shù)據(jù)分析技術(shù)主要是用于解決兩方面的問題：

績效分析
根因分析

績效分析

以前我們做了挺多的項目，這些項目一般來說 WBS 分解之后，我們會對項目的結(jié)果做一個簡單的跟蹤，只是說做完了，還是沒做完，一般也不會對它做一些定量的分析或者說對這個質(zhì)量有一個看法。
這種情況在我們的項目中非常常見，這種項目一般來說比較小，都是靠個人技術(shù)能力就能控制住。

去哪找數(shù)據(jù)？怎么挖掘？-7.jpg

登錄/注冊后可看大圖

但在大型項目中這種做法就很困難，它會面臨更多的一個挑戰(zhàn)，尤其是跨部門合作等情況，因為大家的溝通手法不僅僅是技術(shù)的，可能還有一些管理上的，這時就需要大家用數(shù)據(jù)在各個部門之間作為一個溝通的橋梁。
績效分析-全站 HTTPS 項目案例

于是數(shù)據(jù)分析人員開始介入來進行分析體系的設(shè)計，主要包括：分析指標的設(shè)計和分析維度的設(shè)計，同時和研發(fā)確認數(shù)據(jù)采集方案、A/B測試方案、統(tǒng)計口徑等。
指標主要是根據(jù)項目中各項工作都關(guān)注什么問題來設(shè)計，而維度的設(shè)計是從當指標不滿意時，可以在哪些方面著手改進來進行。
在這個項目中可預(yù)見的是，由于證書握手的原因，TCP 連接時間會變長，可能會影響用戶體驗，同時也會減少劫持從總體上提高用戶體驗，所以項目的目標設(shè)置為轉(zhuǎn)化率至少不下降，最好能有上升。
我們實際上是做了一個 HTTPS 的全站項目，在項目開始之初，我們就有意識地把數(shù)據(jù)分析團隊和技術(shù)人員整合到一起跟進項目，取得了不錯的結(jié)果。
數(shù)據(jù)分析人員在項目的初期就已經(jīng)開始介入，來進行分析體系的設(shè)計，主要包括：分析指標的設(shè)計和分析維度的設(shè)計，同時和研發(fā)確認數(shù)據(jù)采集方案，A/B 測試方案，統(tǒng)計口徑等。
分析人員會把這些工作做好，可他們怎么來設(shè)計這個項目的一些指標呢？一般來說，在 WBS 分解之后，我們關(guān)注什么問題，就會把這個問題變換成一個主要的監(jiān)控指標。那如何去設(shè)定這些維度呢？

去哪找數(shù)據(jù)？怎么挖掘？-8.jpg

登錄/注冊后可看大圖

實際上這些維度都是我們能解決問題的一些角度，也就是說實際上所有的維度都是我們能控制、能改善的地方。
首先 HTTPS 項目，不知道大家有沒有了解，如果了解可能知道 HTTPS 項目，因為 TCP 握手時間會延長，這一點上可能會損失一部分的用戶體驗，但在防劫持等方面，又會加強整體的用戶體驗。
在這種情況下，我們項目設(shè)立了一個最終的主要目標，也就是保證轉(zhuǎn)化率，這個轉(zhuǎn)化率不能下降，最好還有一點點提升。
在這個主要目標上，我們就控制這個主要目標，不停地灰度放量，不停地調(diào)整，這個效果是比較好的。
因為在這個過程中我們發(fā)現(xiàn)了很多的問題，同時這個項目持續(xù)了大約 8 個月，在 8 個月中我們沒有發(fā)生過任何重大的故障。

去哪找數(shù)據(jù)？怎么挖掘？-9.jpg

登錄/注冊后可看大圖

這個案例是對錯誤率的分析和監(jiān)控，有一次發(fā)現(xiàn)我們的錯誤碼是 HTTPS 的證書認證過不去。
這種情況在某個省某個運營商大規(guī)模地發(fā)生，我們從分析的角度看這些節(jié)點 IP 是不是我們自己的 IP，這樣我們就知道在這個地方發(fā)生了大規(guī)模的 DNS 劫持問題，于是就去協(xié)調(diào)當?shù)氐倪\營商把這個事情搞定。
數(shù)據(jù)分析也會發(fā)現(xiàn)一些代碼中的問題，我們做 HTTPS 項目，可能要對代碼進行一些修改，比如說在整個 HTML 里是不能存在 HTTP 協(xié)議的硬編碼。
但由于歷史原因，這種地方還是比較多的，開發(fā)人員很難排查完，實際上需要分析人員通過數(shù)據(jù)分析手段去查，把這些沒有改過的代碼找出來。
還有一些圖片的問題，我們發(fā)現(xiàn)一些圖片的拼接錯誤，當然是報了 404。
報了 404 之后，我們對這個錯誤碼分析，發(fā)現(xiàn)突然多了，把報錯的 URL 做一個排序后發(fā)現(xiàn)一些是拼接的錯誤，還有一些是由于特殊字符引起而導(dǎo)致了無法生成正確的請求。
我們對 TCP 的握手時長也會進行跟蹤，在做灰度選型階段，我們在不同的入口采用了不同的技術(shù)類型，通過分析各個入口的握手時長來輔助運維人員進行一個加速卡的選型，還有一些參數(shù)調(diào)整等工作。
績效分析-其他案例場景

這個項目進行完成之后，我們總結(jié)了很多經(jīng)驗，慢慢地在其他的項目中也逐漸有意識地運用數(shù)據(jù)分析技術(shù)，把數(shù)據(jù)分析人員和技術(shù)人員有效地結(jié)合在一起。
這里面也有幾個案例：

比如說 CDN 廠商切換時，我們要跟蹤錯誤率、響應(yīng)時間這樣的一些指標，來決定切換是否需要回滾。
促銷前的一些流量調(diào)度，我們也要分析調(diào)度策略的預(yù)期結(jié)果，比如說各個入口的流量是不是按我們的計劃把這個流量調(diào)度到位了。
每次 APP 版本的更新，我們也需要不停地來跟蹤它的訪問連通率、網(wǎng)絡(luò)連通率等一些關(guān)鍵指標。

去哪找數(shù)據(jù)？怎么挖掘？-10.jpg

登錄/注冊后可看大圖

根因分析

在數(shù)據(jù)的基礎(chǔ)上，我們也可以做一些原因的查找，通過數(shù)據(jù)分析進行的原因查找有時可以直接幫我們定位到問題，在更多的時候可以有效地幫我們縮小問題的范圍。
通過數(shù)據(jù)來查找原因，這其實是有一定局限性的，局限性就在于數(shù)據(jù)的維度，因為我們只能在分析的維度上來進行查找，如果故障的原因沒有在我們已知維度上，實際上是找不出來的，但大部分時候還是能起到比較關(guān)鍵的作用。
對于直接利用多維數(shù)據(jù)進行問題的分析，我們大約有三個步驟：

確定問題，確定問題之后，就確定了是哪個指標有問題。
做一些數(shù)據(jù)上的分析。
找到問題之后，我們要做數(shù)據(jù)和業(yè)務(wù)上的一些驗證。

去哪找數(shù)據(jù)？怎么挖掘？-11.jpg

登錄/注冊后可看大圖

主要的方法有兩種：

排序表，這個最簡單了，就是人眼看，通過排序我們可以解決70-80%的問題。
數(shù)據(jù)探索，有點自動化的意思，它有一個原理，實際上并不是所有的數(shù)據(jù)都能進行探索，我們目前就是假設(shè)這個數(shù)據(jù)在任意切片上，在時間維度上它是屬于均勻分布的。

在這種情況下，我們認為這個誤差值是符合正態(tài)分布的，就可以比較容易地做一個異常的檢測來看每個數(shù)據(jù)切片上是否有問題，當所有的數(shù)據(jù)被探索完之后，問題的原因也基本能找到。
根因分析-案例

這是非實時根因分析的一些案例：

去哪找數(shù)據(jù)？怎么挖掘？-12.jpg

登錄/注冊后可看大圖

我們有一次網(wǎng)絡(luò)連通率連續(xù)三個月下降，我們分析到最后，發(fā)現(xiàn)這個 APP 的版本有些問題，某天之后所有新發(fā)布的 APP 版本連通率下降都比較大，跟研發(fā)反饋之后，他們就在 SDK 做了一些調(diào)整。
實際上真正錯在哪，我們并不知道，我們只能知道這個版本有問題，更多地去幫助技術(shù)人員縮小這個范圍。
圖片錯誤率上升，剛才已經(jīng)介紹過了，再就是實時的根因分析，剛才講的都是一些平時的案例，而實際上我們也做實時的系統(tǒng)，這些實時的系統(tǒng)就是希望利用多維數(shù)據(jù)，在系統(tǒng)告警后，能夠幫助大家更快定位一些問題。

登錄/注冊后可看大圖

去哪找數(shù)據(jù)？怎么挖掘？-13.jpg (34.93 KB, 下載次數(shù): 17)

下載附件

2021-12-15 20:37 上傳

這里也有兩個例子：

連通率下降之后，我們會發(fā)現(xiàn)某類錯誤碼是影響的一個主要因素，有針對性地解決問題后，發(fā)現(xiàn)連通率恢復(fù)了，這樣基本上可以定位故障。
某一個應(yīng)用的錯誤率有上升，我們會看到有些省份影響比較大，具體看是一些 CDN 節(jié)點的故障，切換后，故障得到恢復(fù)。

總體看，實時分析還是能夠比較快地幫助運維人員定位問題。
數(shù)據(jù)挖掘技術(shù)應(yīng)用

對于數(shù)據(jù)挖掘來說，我們目前所應(yīng)用的場景，或者說能幫我們解決的問題主要有三類：

預(yù)測。
異常檢測，主要是用來做告警閾值自動的設(shè)置。
做一些根因的分析，它的目的和剛才講的基于數(shù)據(jù)分析的根因分析是一樣的，但在實現(xiàn)上算法有些不同。

預(yù)測

我們現(xiàn)在的預(yù)測，主要是做了一些業(yè)務(wù)指標的預(yù)測，比如像 PV、UV、訂單、購物車這樣的一些業(yè)務(wù)指標，下面我講一下訂單的預(yù)測。

去哪找數(shù)據(jù)？怎么挖掘？-14.jpg

登錄/注冊后可看大圖

如上圖，是我們的訂單預(yù)測圖。當時做這個預(yù)測，實際是有應(yīng)用的場景，當故障發(fā)生時，需要實時跟蹤預(yù)計的損失，以便于我們確定故障的等級，還有就是調(diào)度解決故障需要的資源量。
大家可以看到，這種預(yù)估我們還是比較容易可以算出來的，在什么時候這個故障已經(jīng)好了，什么時候它的損失達到什么程度，我們的故障是不是需要升級。
這里面有一個技術(shù)點需要解決，就是說我們在故障的時候，實際值已經(jīng)掉下去了。
而我們的預(yù)測算法需要前一分鐘和前幾分鐘的數(shù)據(jù)，為了不把故障的數(shù)據(jù)引入到算法中，在故障的時候，是用預(yù)測值代替真實值。
具體來說，就是用上一周的數(shù)據(jù)做一些平均的加成來替換，然后再做下一次的預(yù)測。

去哪找數(shù)據(jù)？怎么挖掘？-15.jpg

登錄/注冊后可看大圖

對于預(yù)測算法，我們開始采用的是時間序列中的 holt-winters 算法，因為我們公司的數(shù)據(jù)周期性比較明顯，我們在時間序列上做擬合時還是比較準確的，應(yīng)該來說效果還比較好。
但這個算法到了一定時候，我們就碰到了一些問題：

促銷和平時不太一樣，也就是說促銷的數(shù)據(jù)，我們是擬合不上的。
在告警和一些夜晚流量低峰時，這個數(shù)據(jù)波動還是比較大的，告警的準確率也不是很高，我們怎么來解決這個問題呢？

先看促銷，對訂單量來說，訂單達到高峰之前，我們的 PV、UV 包括收藏數(shù)等業(yè)務(wù)指標已經(jīng)開始啟動了，我們就會把這些業(yè)務(wù)指標引入我們的分析模型。
也就是我們會把 PV、UV、收藏數(shù)，包括上周同期的這些數(shù)據(jù)，和上周我們要預(yù)測那個時間點的訂單數(shù)全部都引進來，然后用一個機器學(xué)習(xí)的辦法，基本上就可以解決這個問題。
在雙 11 促銷后觀察了一下預(yù)測的情況，現(xiàn)在促銷預(yù)測的數(shù)值還是比較準的。
當基于預(yù)測進行告警時，碰到主要問題是夜晚低峰時數(shù)據(jù)波動較大，如果按每個時間點的指標直接進行告警非常容易誤報。
我們采用的辦法是預(yù)估損失累計的報警方法，當累計預(yù)估損失達到 100 單時就進行告警，這樣調(diào)整后，我們從上線到現(xiàn)在基本已經(jīng)沒有了誤告。
這個 100 單的設(shè)置，跟我們公司的制度有關(guān)，因為我們公司達到了 200 單、300 單，那就是重大故障了，我們在 100 單的時候，就把這個警報給拉起來，是可以防止重大故障發(fā)生的。
根因分析

最后在數(shù)據(jù)挖掘這部分的應(yīng)用，給大家介紹一下根因分析。

去哪找數(shù)據(jù)？怎么挖掘？-16.jpg

登錄/注冊后可看大圖

我們這套算法經(jīng)過幾個案例的嘗試，基本上都能找出原因，首先就是它跟多維分析的“根因分析”不太一樣。
多維分析的“根因分析”是建立在已經(jīng)計算好的多維數(shù)據(jù)基礎(chǔ)上，而這個算法實際上是從原始數(shù)據(jù)來抽樣的。
比如說，像錯誤率上升的一個根因分析，我們首先會抽一些數(shù)據(jù)，把錯的和正確的日志各抽 50%，對非數(shù)據(jù)列進行預(yù)編碼。
預(yù)處理之后，我們會用 Spearman 和 Mutual Information 這兩種算法來計算各個維度和結(jié)果之間的相關(guān)性程度。
如果這兩種方法結(jié)果一致，則直接按相關(guān)性值大小進行排序，然后會用 One hot encoding 做一個轉(zhuǎn)碼，轉(zhuǎn)碼之后放入邏輯回歸模型中，選擇 L1 的懲罰項；如果它的系數(shù)算出來是負值，這個負值所代表的維度就是原因所在。
如果上述方法兩個結(jié)果不一致，采用 Random Forest 和 Adaboost 的方法構(gòu)建樹模型，查看模型給出的維度重要性，這里我已經(jīng)畫得很清楚了。
如果兩個模型的重要性排序一致，就走上次那個步驟；如果不同，則用該模型對數(shù)據(jù)進行預(yù)測，選擇預(yù)測結(jié)果較高的相關(guān)性排序。
應(yīng)用生態(tài)建設(shè)及規(guī)劃

最后跟大家一起討論一下，如何讓數(shù)據(jù)成為運維的大腦，根據(jù)我們的經(jīng)驗，首先從組織結(jié)構(gòu)上來說，我們需要一個獨立的分析團隊。
因為在這個分析團隊成立之前，公司的運維體系實際上也在使用數(shù)據(jù)，使用數(shù)據(jù)的方法和分析團隊后來使用分析數(shù)據(jù)的方法也是大同小異，但因為它本身是一個自發(fā)的，沒有一些強制性的要求。
在把數(shù)據(jù)分析融入到工作流程之后，我們發(fā)現(xiàn)效率會得到一個比較大的提升，同時知識的傳承，包括統(tǒng)計口徑等這些比較令人困惑的問題也都可以得到一個比較好的管理和解決。

去哪找數(shù)據(jù)？怎么挖掘？-17.jpg

登錄/注冊后可看大圖

這樣的組織架構(gòu)在我們的實踐中，感覺可以更好地幫助運維專家來解決問題。
從平臺建設(shè)上來說，應(yīng)該是說現(xiàn)在已經(jīng)開始了，著力打造的是兩個平臺：

數(shù)據(jù)分析平臺，數(shù)據(jù)分析平臺說到底就是運維的數(shù)據(jù)倉庫，它使用現(xiàn)在大數(shù)據(jù)的一些傳統(tǒng)技術(shù)來做這件事情。
統(tǒng)一信息平臺，“統(tǒng)一信息平臺”主要考慮到在互聯(lián)網(wǎng)公司，不管是不是在野蠻成長階段，系統(tǒng)都特別多，信息也是特別分散，我們還是想把這些分散的關(guān)鍵信息看怎么收集起來，然后看能不能做一些事情。

目前我們會把發(fā)布平臺的一些發(fā)布信息，還有 ITIL 平臺的一些事件信息、變更信息，CMDB 的一些基礎(chǔ)架構(gòu)信息，再有就是各種各樣的監(jiān)控系統(tǒng)的值班表信息和告警信息（這種監(jiān)控系統(tǒng)我們有好幾十套），我們都會把它們放到信息庫里面。
在信息庫建設(shè)之后，我們算法雖然可以實際有效地解決點上的問題，但還沒能很好地解決關(guān)聯(lián)性上的問題，這塊還是挺困難的。
只能是說當前是一件事情一件事情去解決，那這種復(fù)雜的關(guān)聯(lián)性我們靠什么呢？
靠的是規(guī)則庫，用業(yè)務(wù)知識補充當前階段算法上的一些不足，也就是說在整個系統(tǒng)建設(shè)中，實際上算法庫和規(guī)則庫都是一起建設(shè)的。
不會說，就用算法，不要規(guī)則了；或只有規(guī)則，算法也沒什么用，它是一體建設(shè)的。
而且它們能解決的問題不一樣，算法我們是解決點上的問題，規(guī)則我們是用來解決這種關(guān)聯(lián)性的問題，尤其復(fù)雜業(yè)務(wù)關(guān)聯(lián)的問題，都靠規(guī)則來配置的。
整個這套平臺的建設(shè)，它主要有兩個目標：

對告警進行有效的一個壓制、管理、合并。
想能夠解決自動故障定位的問題。

目前是有一定的成效，但準確率還沒有那么高，以后能做得好的時候，我們會通過 ITIL 平臺來驅(qū)動自動化平臺對現(xiàn)網(wǎng)的故障進行自動化的處理。
比如說像重啟、降級，限流，磁盤空間管理，流量調(diào)度等工作，應(yīng)該是說為了自動化運維、解決故障一起努力吧！
以上就是我們對數(shù)據(jù)應(yīng)用在未來一個時期內(nèi)的定義，也是想在未來大約半年到一年能夠看到更多成果的一個實踐。
微信后臺回復(fù)關(guān)鍵詞“數(shù)據(jù)”，即可下載完整版PPT資料
原創(chuàng)作者：吳曉光
編輯：陶家龍、孫淑娟
出處：轉(zhuǎn)載自DBAplus社群微信公眾號，本文根據(jù)吳曉光老師在〖Gdevops 2017全球敏捷運維峰會廣州站〗現(xiàn)場演講內(nèi)容整理而成。

去哪找數(shù)據(jù)？怎么挖掘？-18.jpg

登錄/注冊后可看大圖

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	48 帖子	3 積分

Rank: 1

發(fā)消息

17樓

發(fā)表于 2021-12-16 07:30:00 | 只看該作者

01 搜索引擎

搜索引擎是我們信息資料搜集的最重要的渠道之一，用搜索引擎查找信息資料需要使用恰當?shù)年P(guān)鍵詞和一些搜索技巧。目前國內(nèi)主要的搜集引擎有如下10個，近期還有較多行業(yè)型搜索冒出來，需找專業(yè)型行業(yè)資料可以使用行業(yè)型搜索引擎。

由于每個搜索引擎都有一定的局限性，可以把要搜索的關(guān)鍵詞在多個搜索引擎試一下，可能會搜出你意想不到的結(jié)果。

大家對國內(nèi)的引擎基本都很熟悉，尤其是百度和google，需要搜索同一主題的資料，不同的人所搜出來的結(jié)果可能就天差地別了，主要原因在于如下兩點：

1. 搜索關(guān)鍵字的選擇

舉例說明，假如我們要搜索大數(shù)據(jù)行業(yè)發(fā)展相關(guān)資料，如果我們就在百度上搜索“大數(shù)據(jù)”，結(jié)果非常多，無法進行篩選，可以對關(guān)鍵詞進一步界定，如“大數(shù)據(jù)行業(yè)”“大數(shù)據(jù)市場規(guī)?！薄爸袊髷?shù)據(jù)產(chǎn)業(yè)”“大數(shù)據(jù)技術(shù)”“大數(shù)據(jù)企業(yè)”等等，需要不停地變換搜索關(guān)鍵詞，直到查到滿意的搜索結(jié)果。

在查找的過程中可以根據(jù)查找結(jié)果內(nèi)容再進行對關(guān)鍵詞進行修正，修正有些名稱專業(yè)表達方式，因為最開始搜索我們表達的不一定準確。

2. 搜索技巧

主要是針對百度、google等搜索引擎一些高級搜索技巧。常用技巧主要有如下幾個方面：

1）文件類型搜索

使用filetype，如在百度或google中鍵入“filetype:pdf 大數(shù)據(jù)”搜索出有關(guān)大數(shù)據(jù)內(nèi)容pdf內(nèi)容，而且這些文檔基本都是可直接下載。還可以變換為其他的，如“filetype:doc”“filetype:ppt”“filetype:xls”等等，注意其中的冒號為英文的冒號，一定要變換為英文冒號。

2）定位于哪個網(wǎng)站上搜索

使用site，如在百度或google中鍵入“大數(shù)據(jù)空格site:sina.com”,則在http://sina.com搜索有關(guān)大數(shù)據(jù)的一些資料信息，這個特別適用針對某些信息可能在哪些網(wǎng)站上出現(xiàn)的一個快速搜索方法，注意冒號也是英文的，網(wǎng)站名稱也不用加www。

3）精確匹配搜索

使用“”，如在百度中鍵入“大數(shù)據(jù)行業(yè)”，表示搜索“大數(shù)據(jù)行業(yè)”五個必須聯(lián)在一起的，如果不加“”，搜到的為大數(shù)據(jù)及行業(yè)兩個詞并列顯示結(jié)果，沒有這么精確匹配。

4）限制性的網(wǎng)頁搜索

使用intitle,如在百度鍵入“intitie:大數(shù)據(jù)”，限定于搜索標題中含有“大數(shù)據(jù)”網(wǎng)頁，如果輸入“intitie:大數(shù)據(jù)市場規(guī)?！毕薅ㄓ谒阉鳂祟}中含有“大數(shù)據(jù)”和“市場規(guī)模”的網(wǎng)頁。

附：搜索引擎推薦

http://scholar.google.com/
Google學(xué)術(shù)搜索濾掉了普通搜索結(jié)果中大量的垃圾信息，排列出文章的不同版本以及被其它文章的引用次數(shù)。略顯不足的是，它搜索出來的結(jié)果沒有按照權(quán)威度（譬如影響因子、引用次數(shù)）依次排列，在中國搜索出來的，前幾頁可能大部分為中文的一些期刊的文章。

http://www.scirus.com
Scirus 是目前互聯(lián)網(wǎng)上最全面、綜合性最強的科技文獻搜索引擎之一，由Elsevier科學(xué)出版社開發(fā)，用于搜索期刊和專利，效果很不錯！
Scirus覆蓋的學(xué)科范圍包括：農(nóng)業(yè)與生物學(xué)，天文學(xué)，生物科學(xué)，化學(xué)與化工，計算機科學(xué)，地球與行星科學(xué)，經(jīng)濟、金融與管理科學(xué)，工程、能源與技術(shù)，環(huán)境科學(xué)，語言學(xué)，法學(xué)，生命科學(xué)，材料科學(xué)，數(shù)學(xué)，醫(yī)學(xué)，神經(jīng)系統(tǒng)科學(xué)，藥理學(xué)，物理學(xué)，心理學(xué)，社會與行為科學(xué)，社會學(xué)等。

http://www.base-search.net/
BASE是德國比勒費爾德(Bielefeld)大學(xué)圖書館開發(fā)的一個多學(xué)科的學(xué)術(shù)搜索引擎，提供對全球異構(gòu)學(xué)術(shù)資源的集成檢索服務(wù)。它整合了德國比勒費爾德大學(xué)圖書館的圖書館目錄和大約160個開放資源（超過200 萬個文檔）的數(shù)據(jù)。

http://www.vascoda.de/
Vascoda是一個交叉學(xué)科門戶網(wǎng)站的原型，它注重特定主題的聚合，集成了圖書館的收藏、文獻數(shù)據(jù)庫和附加的學(xué)術(shù)內(nèi)容。

http://www.goole.com/
與google比較了一下發(fā)現(xiàn)，能搜索到一些google搜索不到的好東東。它界面簡潔，功能強大，速度快，YAHOO、網(wǎng)易都采用了它的搜索技術(shù)。各位可以一試。

http://www.a9.com
Google在同一水平的搜索引擎。是http://Amazon.com推出的，Webresult部分是基于Google的，所以保證和Google在同一水平，另外增加了Amazon的在書本內(nèi)搜索的功能和個性化功能：主要是可以記錄你的搜索歷史。

http://www.findarticles.com/
一個檢索免費paper的好工具。進入網(wǎng)頁以后，可以看到他有三個功能，driectory web article，其中article對我們很有幫助，你可以嘗試輸入你要找的文章，會有很多發(fā)現(xiàn)的！

http://www.emolecules.com
在此搜索引擎里可以搜索到超過千萬種化學(xué)品信息或相應(yīng)的供應(yīng)商，與Chemblink有點相似，但提供的化學(xué)品理化信息沒有Chemblink詳細，與其不同的是該搜索引擎可提供化學(xué)品結(jié)構(gòu)式搜索（主頁上有在線繪制化學(xué)結(jié)構(gòu)式的搜索框）。

http://www.ojose.com/
OJOSE (Online JournalSearch Engine，在線期刊搜索引擎)是一個強大的免費科學(xué)搜索引擎，通過OJOSE，你能查找、下載或購買到近60個數(shù)據(jù)庫的資源。但是感覺操作比較復(fù)雜。

http://citeseer.ist.psu.edu/
一個關(guān)于計算機和信息科學(xué)的搜索引擎。

http://hpsearch.uni-trier.de/
專家個人主頁搜索引擎。

02 數(shù)據(jù)庫

數(shù)據(jù)庫是研究人員重要的數(shù)據(jù)來源之一，目前券商、基金研究研究機構(gòu)都購買有商業(yè)數(shù)據(jù)庫，目前研究用的數(shù)據(jù)庫主要分為兩大類，一是商業(yè)數(shù)據(jù)庫，二是學(xué)術(shù)數(shù)據(jù)庫。

1. 商業(yè)數(shù)據(jù)庫

商業(yè)數(shù)據(jù)庫大多為金融投資所用，主要分為國內(nèi)與國外數(shù)據(jù)庫兩大類。

1）國內(nèi)商業(yè)數(shù)據(jù)庫

國內(nèi)數(shù)據(jù)庫主要有如萬德、恒生聚源、銳思數(shù)據(jù)庫、CSMAR數(shù)據(jù)庫、巨潮數(shù)據(jù)庫等。

目前萬德數(shù)據(jù)庫主要定位于國內(nèi)高端客戶，市場占有率較高，80%左右，當然其售價較高。
恒生聚源也定位為機構(gòu)客戶，性價比較高，售價要比萬德便宜的多。
CSMAR數(shù)據(jù)庫定位于學(xué)術(shù)與高校，其中金融數(shù)據(jù)比較全，強大。
銳思數(shù)據(jù)庫定位于學(xué)術(shù)，質(zhì)量一般。
巨潮數(shù)據(jù)庫為深交所旗下數(shù)據(jù)庫，有一定的特殊優(yōu)勢。

2）國外商業(yè)數(shù)據(jù)庫

國外數(shù)據(jù)庫主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等。

國外數(shù)據(jù)庫中彭博是比較全也大的，在國內(nèi)銷售也較好，但是售價奇貴。一般不做國際市場研究，大多用不到國外數(shù)據(jù)庫，畢竟國外數(shù)據(jù)庫公司對國內(nèi)的行業(yè)數(shù)據(jù)及公司數(shù)據(jù)不如本土數(shù)據(jù)庫公司的做得好。

2. 學(xué)術(shù)數(shù)據(jù)庫

學(xué)術(shù)數(shù)據(jù)庫基本為高校、研究機構(gòu)所用，也分為國內(nèi)與國外兩大類，學(xué)術(shù)數(shù)據(jù)庫中一些學(xué)術(shù)論文、行業(yè)數(shù)據(jù)、統(tǒng)計年鑒還是有用的，缺點就是其中有些數(shù)據(jù)的相對較舊，無法做到實時更新。

1）國內(nèi)學(xué)術(shù)數(shù)據(jù)庫

中國知網(wǎng)：國內(nèi)最大學(xué)術(shù)數(shù)據(jù)庫，包括期刊、學(xué)位論文、統(tǒng)計年鑒等
萬方數(shù)據(jù)：僅次于中國知網(wǎng)，包括期刊、學(xué)位論文等
人大復(fù)印資料：期刊、論文等
維普：期刊、論文等
中經(jīng)網(wǎng)：有較多行業(yè)研究報告，宏觀數(shù)據(jù)較全
國研網(wǎng)：數(shù)據(jù)較為權(quán)威，有些報告可以一看
上海公共研發(fā)平臺：可以注冊，人工審核，內(nèi)包含較多數(shù)據(jù)庫

2）國外學(xué)術(shù)數(shù)據(jù)庫

EBSCO：較全的一個數(shù)據(jù)庫，內(nèi)包含較多的商業(yè)數(shù)據(jù)，好用
Elsevier：學(xué)術(shù)文章全，更新速度快

以上大致介紹了國內(nèi)的商業(yè)及學(xué)術(shù)數(shù)據(jù)庫，但這些數(shù)據(jù)庫都是通過收費或?qū)W校賬號才能使用，對于平時臨時研究用的一些人，沒有必要去購買，下面介紹一些免費可用的數(shù)據(jù)庫。

數(shù)據(jù)匯：國內(nèi)的宏觀數(shù)據(jù)，國外的也有一部分，可以導(dǎo)出來，免費好用。
http://www.shujuhui.com/database/

數(shù)據(jù)圈：免費共享平臺，行業(yè)研究報告，統(tǒng)計年鑒等
http://www.shujuquan.com.cn/

FRED
http://research.stlouisfed.org/fred2/

OECD圖書館
http://www.oecd-ilibrary.org/economics

臺灣學(xué)術(shù)數(shù)據(jù)庫：部分文章提供免費全文下載
http://fedetd.mis.nsysu.edu.tw/

臺灣大學(xué)電子書
http://ebooks.lib.ntu.edu.tw/Home/ListBooks

03 共享文庫

首先也非常感謝共享文庫的出現(xiàn)，使得大家搜集信息方便了許多，隨最早的豆丁、百度、愛問等共享文庫的出現(xiàn)，隨后到如今出現(xiàn)許多共享文庫，不過很多文庫規(guī)模較小，文檔數(shù)量較少。

1. 國內(nèi)主要文庫

百度文庫
http://wenku.baidu.com/

國內(nèi)文檔數(shù)據(jù)量最大的共享文庫，綜合型的，好用。

豆丁文庫
http://www.docin.com/

其收費的盈利模式導(dǎo)致用戶數(shù)量逐年減少，文檔質(zhì)量也不如百度文庫。

愛問共享
http://ishare.iask.sina.com.cn/

綜合型文庫，里面也時常發(fā)現(xiàn)好的行業(yè)研究報告，電子書籍等。

道客巴巴
http://www.doc88.com/

綜合型文庫，后起之秀，文檔數(shù)量和質(zhì)量較好。

智庫文檔
http://doc.mbalib.com/

以管理、行業(yè)文檔為主，質(zhì)量較好。

文庫大全
http://www.wenkudaquan.com/

無需注冊，通過點擊廣告模式盈利，文檔內(nèi)容多。

IT168文庫
http://wenku.it168.com/

專業(yè)型文庫，以計算機及IT技術(shù)相關(guān)的文檔為主。

CSDN
http://www.csdn.net/

全球最大的中文IT社區(qū)。

呱仕網(wǎng)
http://www.guasee.com/

以創(chuàng)業(yè)投資、證券市場等文檔為主的專業(yè)型文庫，剛起步狀態(tài)。

新浪地產(chǎn)
http://dichan.sina.com.cn/

國內(nèi)最大房地產(chǎn)類文庫，房地產(chǎn)相關(guān)策劃、數(shù)據(jù)較全。

2. 國外文庫

Scribd
http://www.scribd.com

全球最大的文檔分享平臺。

Docstoc
http://www.docstoc.com

在線文檔與圖片分享平臺。

針對以上國內(nèi)的共享文庫，都可以通過注冊賬號，上傳分享資料賺取積分，通過積分可以下載文庫資料。

如果有些文檔看過后不錯想保存下來積分不夠，可以通過文庫下載器來免費下載保存，文庫下載器有如“冰點文庫下載、易讀下載、老張文庫下載”等等，如果只看重其中一部分內(nèi)容，可以通過QQ拷屏方式保留下來（登陸QQ，ctrl+alt+a拷屏）。

04 專業(yè)網(wǎng)站

在共享文庫未出現(xiàn)以前，專業(yè)論壇一直擔(dān)任著查找資料的好去處，的確國內(nèi)的一些論壇經(jīng)過這么多年的運營，已經(jīng)積累大量有用文檔。下面主要介紹我們常用的專業(yè)論壇。

1. 人大經(jīng)濟論壇

http://bbs.pinggu.org/

經(jīng)濟、學(xué)術(shù)型論壇，其中行業(yè)研究、統(tǒng)計年鑒數(shù)量多，更新速度快，我的最愛，常用。

2. 經(jīng)濟學(xué)家

http://bbs.jjxj.org/

經(jīng)濟學(xué)專業(yè)論壇，其中統(tǒng)計年鑒、行業(yè)報告、國內(nèi)外數(shù)據(jù)等有特色。

3. 隨意網(wǎng)-經(jīng)濟論壇

http://economic.5d6d.net/

新建網(wǎng)站，有些內(nèi)容尚可。

4. 理想在線

http://www.55188.com

股票券商研究報告。

5. 邁博匯金

http://www.hibor.com.cn/

股票券商研究報告，目前已經(jīng)收費了，只能查詢有哪些最新報告了，無法下載。

6. 博瑞金融

http://www.brjr.com.cn/forum.php；

金融行業(yè)專業(yè)型論壇。

7. 華爾街社區(qū)

http://forum.cnwallstreet.com/index.php

國內(nèi)專業(yè)的金融論壇。

8. 投行先鋒論壇

http://www.thxflt.com/

專業(yè)型為投行人士探討而設(shè)立的論壇。

9. 春暉投行在線

http://www.shenchunhui.com/

證券相關(guān)政策的匯編整合論壇。

10. 中華股權(quán)投資論壇

http://www.tzluntan.com/

pe投資專業(yè)型論壇。

11. 其他專業(yè)網(wǎng)站

投行網(wǎng)站：

http://macabacus.com/
http://www.wallstreetoasis.com/
http://www.ibankingfaq.com/
http://stocks.etnet.com.cn/www/sc/stocks/ci_ipo.php
http://www.aastocks.com/sc/ipo/sponsor.aspx
http://terminal.chinaef.com/index.action
http://www.mergermarket.com/info/

各大咨詢公司報告：

http://www.deloitte.com/view/zh_CN/cn/services/
http://www.deloitte.com/view/en_GX/global/insights/index.htm
http://www.kpmg.com/CN/en/IssuesAndInsights/Pages/default.aspx
http://www.mckinsey.com/locations/chinasimplified/
http://www-31.ibm.com/cn/services/bcs/
http://www.bcg.com.cn/cn/newsandpublications/newsandpublictions_publications.html
http://www.ebusinessreview.cn/
http://www.ey.com/CN/ZH/home/library
http://www.bain.cn/news.php
https://china.mckinseyquarterly.com/home.aspx
http://www.pwccn.com/home/eng/libraryindex.html
http://www2.hewittassociates.com/Intl/AP/zh-CHT/Default.aspx
http://www.booz.com/global/home/what_we_think/cds_home/m_and_a/cds_our-leading-research-on-ma

05 政府部門

政府部門是國內(nèi)公開數(shù)據(jù)的來源，查詢權(quán)威的數(shù)據(jù)可以到政府相關(guān)部門網(wǎng)站，以下介紹國內(nèi)的主要發(fā)布相關(guān)數(shù)據(jù)的政府部門。

1. 國家統(tǒng)計局

http://www.stats.gov.cn/

這個不用多說，大家很多人瀏覽過。

2. 工業(yè)和信息化部

http://www.miit.gov.cn

較多數(shù)據(jù)在此發(fā)布，尤其是有關(guān)工業(yè)運行及信息化相關(guān)數(shù)據(jù)。

3. 中國人民銀行

http://www.pbc.gov.cn/

中國金融市場政策及運行相關(guān)數(shù)據(jù)。

4. 銀監(jiān)會

http://www.cbrc.gov.cn

銀行金融相關(guān)數(shù)據(jù)。

5. 中國海關(guān)

http://www.customs.gov.cn

中國進出口相關(guān)數(shù)據(jù)。

6. 國家知識產(chǎn)權(quán)局

http://www.sipo.gov.cn

專利相關(guān)查詢。

7. 中國證監(jiān)會

http://www.csrc.gov.cn

相關(guān)政策及招股書披露平臺，以及擬上市公司排隊每周披露。

8. 巨潮信息網(wǎng)

http://www.cninfo.com.cn/

中國資本市場指定披露平臺，上市公司相關(guān)年報、季報及公告披露信息。

06 證券交易所

1. 上海證券交易所

http://www.sse.com.cn/

其中研究出版欄目中有些研究報告。

2. 深圳證券交易所

http://www.szse.cn/

其中研究/刊物中有研究報告。

3. 全國中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)（新三板）

http://www.neeq.com.cn/

新三板掛牌公司的轉(zhuǎn)讓及信息披露。

4. 香港證券交易所

http://www.hkexnews.hk/index_c.htm

5. 臺灣證券交易所

http://www.tse.com.tw/ch/index.php

6. 新加坡證券交易所

http://www.sgx.com/

7. 紐約證券交易所

http://www.nyse.com

8. 納斯達克證券交易所

http://www.nasdaq.com

07 如何尋找國外數(shù)據(jù)

1. 搜集美國相關(guān)數(shù)據(jù)

由位于華盛頓的美國政府印刷辦公室出版、經(jīng)濟顧問委員會撰寫的《總統(tǒng)經(jīng)濟報告》（Economic Report of President），提供了有關(guān)美國當前經(jīng)濟形勢的描述和主要宏觀經(jīng)濟變量數(shù)據(jù)。相當多的數(shù)據(jù)都可以追溯到1959年，甚至個別的可追溯到1929年。

可能你已經(jīng)留意到了，好多有關(guān)美國的圖形，都是采用《總統(tǒng)經(jīng)濟報告》（2005）所附數(shù)據(jù)生成的。這些數(shù)據(jù)可以免費下載，網(wǎng)址：

http://www.access.gpo.gov/eop/

如果想獲得最近數(shù)據(jù)的詳細資料，一個不錯的選擇是，美國商務(wù)經(jīng)濟分析局每月出版的《當代商業(yè)縱覽》（Survey of Current Business）。網(wǎng)址：

http://www.bea.doc.gov/

2. 如何搜集國外其他經(jīng)濟體數(shù)據(jù)

對富裕國家來說，最有用的資料來源于經(jīng)濟合作與發(fā)展組織（Organization of Economic Cooperation and Development，簡稱OECD）。

經(jīng)濟合作與發(fā)展組織的成員包括：奧地利、澳大利亞、比利時、加拿大、捷克共和國、丹麥、芬蘭、法國、德國、希臘、匈牙利、冰島、意大利、日本、盧森堡、墨西哥、荷蘭、新西蘭、挪威、波蘭、葡萄牙、韓國、西班牙、瑞典、瑞士、土耳其、英國和美國?？磥?，世界上的富裕國家大都屬于該組織，其產(chǎn)出占世界產(chǎn)出的70%左右。

OECD的網(wǎng)址：
http://www.oecd.org/

提供三種極為有用的數(shù)據(jù)：

《OECD經(jīng)濟展望》（OECD Economic Outlook），每年出版兩次，提供許多跨國宏觀經(jīng)濟數(shù)據(jù)。這些數(shù)據(jù)一般都上溯到20世紀70年代，而且具有很好的一致性。
《OECD就業(yè)展望》（OECD Employment Outlook），每年出版一次，專門提供勞動力市場的數(shù)據(jù)。
《OECD歷史統(tǒng)計》（OECD Historical Statistics），不定期出版，將當期數(shù)據(jù)和過去數(shù)據(jù)放在一起。

對于不是OECD成員的國家和地區(qū)，可以從其它國際組織那里獲得相關(guān)數(shù)據(jù)，比如國際貨幣基金組織（International Monetary Fund，簡稱IMF），網(wǎng)址：

https://www.imf.org/

IMF提供《國際金融統(tǒng)計年鑒》（InternationalFinancial Statistics Yearbook），它主要提供成員國的金融數(shù)據(jù)，但也包括一些總體數(shù)據(jù)，比如GDP、失業(yè)和通貨膨脹等。

至于若干國家長期的統(tǒng)計數(shù)據(jù)，兩個不可多得的數(shù)據(jù)來源是，Heston-Summers數(shù)據(jù)庫和Madison數(shù)據(jù)庫。

Heston-Summers數(shù)據(jù)庫提供168經(jīng)濟體在1950-2000年間的跨國可比數(shù)據(jù)，在賓夕法尼亞大學(xué)國際比較中心（Center for International Comparisons at the University ofPennsylvania）網(wǎng)站上可以下載：

http://pwt.econ.upenn.edu/

Madison數(shù)據(jù)庫提供了自1820年以來56個經(jīng)濟體的數(shù)據(jù)。

最后，如果還沒有找到你要的數(shù)據(jù)，不妨登陸下面的兩個網(wǎng)站，也許是根稻草。哈佛商學(xué)院的宏觀經(jīng)濟學(xué)資源網(wǎng)站提供了大量連接：

https://www.hbs.edu/faculty/units/bgie/Pages/default.aspx

由密西西比大學(xué)BillGoffe維護的一個網(wǎng)站：

http://rfe.wustl.edu

不僅列出了數(shù)據(jù)來源，而且還列出了有關(guān)經(jīng)濟的其他信息來源。

08 分行業(yè)網(wǎng)站

1. 互聯(lián)網(wǎng)及傳媒

1）資訊類

新浪科技
http://tech.sina.com.cn/

騰訊科技
http://tech.qq.com/

艾瑞網(wǎng)
http://www.iresearch.cn/

藝恩網(wǎng)
http://www.entgroup.cn/

虎嗅網(wǎng)
http://wwww.huxiu.com/

36kr
http://36kr.com/

鈦媒體
http://www.tmtpost.com/

游戲大觀
http://www.gamelook.com.cn/

億歐網(wǎng)
http://www.iyiou.com/

媒介36
http://www.chinamedia360.com/main

2）數(shù)據(jù)類

中國票房
http://www.cbooo.cn/

中國互聯(lián)網(wǎng)絡(luò)信息中心
http://www.cnnic.net.cn/

艾瑞網(wǎng)
http://www.iresearch.com.cn/report/viewlist.aspx

易觀智庫
http://www.analysys.cn/

游戲產(chǎn)業(yè)網(wǎng)
http://www.cgigc.com.cn/list/79644663134.html

百度指數(shù)
http://index.baidu.com/

大數(shù)據(jù)導(dǎo)航
http://hao.199it.com/

CSM（電視收視率）
http://www.csm.com.cn/

微排片
http://www.weipaipian.com

2. 銀行業(yè)

1）新聞資訊

中證網(wǎng)
http://www.cs.com.cn/xwzx/hg/

一財網(wǎng)
http://www.yicai.com/economy/

財新網(wǎng)
http://finance.caixin.com/bank/

華爾街見聞
http://wallstreetcn.com/news?cid=19

新浪財經(jīng)
http://finance.sina.com.cn/

證券時報網(wǎng)
http://www.stcn.com/

中國金融新聞網(wǎng)
http://www.financialnews.com.cn/yh/xw/

2）公告、數(shù)據(jù)查找

中國貨幣網(wǎng)
http://www.chinamoney.com.cn/index.html

巨潮網(wǎng)
http://www.cninfo.com.cn/

統(tǒng)計局
http://www.stats.gov.cn/

中國人民銀行
http://www.pbc.gov.cn/

銀監(jiān)會
http://www.cbrc.gov.cn/index.html

上海證券交易所
http://www.sse.com.cn/

深圳證券交易所
http://www.szse.cn/

3. 有色金屬

1）日報網(wǎng)站

宏觀新聞：央行快訊
http://t.news.fx168.com/bank/

行業(yè)新聞：中國金屬網(wǎng)
http://www.metalchina.com

上海有色網(wǎng)
http://www.smm.cn/index_2015.html

百川咨詢
http://www.baiinfo.com

公司公告：巨潮
http://www.cninfo.com.cn

2）其他常用站

高工鋰電
http://www.gg-lb.com/default_index_new.php

真鋰研究
http://www.realli.net

深交所互動易（查看投資者互動資料）
http://irm.cninfo.com.cn/szse/

中金網(wǎng)（有色金屬）
http://www.metalsinfo.com/news/

銀
https://www.silverinstitute.org/site/publications/

新三板咨訊
http://www.sanban18.com

格隆匯港股
http://www.gelonghui.com/portal.php

09 其他

除以上介紹的幾種資料搜集渠道外，我們也結(jié)合近年it科技的發(fā)展，在博客、微博、空間等去搜索。

1. 行業(yè)協(xié)會網(wǎng)站

每個行業(yè)協(xié)會基本都會有網(wǎng)站，在該網(wǎng)站上能夠查找一些對本行業(yè)的描述、相關(guān)數(shù)據(jù)等。

2. 博客

國內(nèi)有網(wǎng)易、新浪、搜狐、百度空間、和訊等博客網(wǎng)站，有些數(shù)據(jù)也可以從搜索博客中找到。

3. 微博

新浪微博及騰訊微博，用數(shù)量極大，其中有些數(shù)據(jù)可以通過搜索查詢到。

4. 微信

微信用戶已經(jīng)超過4億，每個人都是新聞的發(fā)布者，其中數(shù)據(jù)資源豐富，但目前還未提供全文搜索功能，只能通過關(guān)注相關(guān)公共賬號或關(guān)注朋友圈獲取。

5. QQ空間

有些企業(yè)或機構(gòu)QQ空間會有些報告及數(shù)據(jù)發(fā)布。

6. 全景網(wǎng)

http://www.p5w.net/

注：本文中提到的部分網(wǎng)站需科學(xué)上網(wǎng)才能訪問，另由于信息更新不及時等原因，部分鏈接可能已失效。歡迎大家一起查bug。

作者：王術(shù)，發(fā)表于知乎
來源：http://zhihu.com/question/22698541/answer/22367802
部分內(nèi)容來自網(wǎng)絡(luò)

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	50 帖子	448 積分

Rank: 2

發(fā)消息

18樓

發(fā)表于 2021-12-16 08:23:26 | 只看該作者

想要分析的時候，沒有數(shù)據(jù)，就是巧婦難為無米之炊。以前想找一個數(shù)據(jù)需要費盡心思在網(wǎng)上去搜，最終還找不到自己想要的數(shù)據(jù)。通過編程爬蟲數(shù)據(jù)，學(xué)習(xí)成本又太高，畢竟你的目標不是想要成為爬蟲工程師，只是想要拿到數(shù)據(jù)來分析。那有沒有傻瓜式的獲取數(shù)據(jù)方法呢？
下面介紹4種獲取數(shù)據(jù)的方法，選擇一種適合你自己的方法就可以。

方法一：直接獲取10大行業(yè)免費數(shù)據(jù)

去哪找數(shù)據(jù)？怎么挖掘？-1.jpg

登錄/注冊后可看大圖

1）如何選擇行業(yè)？
不知道如何選擇行業(yè)的，可以在下面網(wǎng)站里看到各個行業(yè)的分析報告：
如何選擇入職行業(yè) ：https://www.zhihu.com/question/24995484/answer/516813008
艾瑞研究-艾瑞網(wǎng)（行業(yè)報告）：http://report.iresearch.cn
Talkingdata報告（行業(yè)報告）：http://mi.talkingdata.com
199IT互聯(lián)網(wǎng)數(shù)據(jù)中心（行業(yè)報告，內(nèi)容多，支持搜索）：http://www.199it.com

2）10大行業(yè)免費數(shù)據(jù)匯總
【優(yōu)點】直接拿來使用
【缺點】數(shù)據(jù)有限
根據(jù)你確定的行業(yè)，選擇一個自己感興趣的數(shù)據(jù)。比如你確定了電商行業(yè)，然后就找一個電商行業(yè)的數(shù)據(jù)。
在《數(shù)據(jù)分析思維》中匯聚了10多個行業(yè)的數(shù)據(jù)以及分析案例

去哪找數(shù)據(jù)？怎么挖掘？-2.jpg

登錄/注冊后可看大圖

去哪找數(shù)據(jù)？怎么挖掘？-3.jpg

登錄/注冊后可看大圖

《數(shù)據(jù)分析思維》12大行業(yè)案例數(shù)據(jù)

更多行業(yè)數(shù)據(jù)：
<a href="http://zhuanlan.zhihu.com/p/48413088" class="internal">10大行業(yè)公開數(shù)據(jù)集免費下載：電商零售行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載：金融行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載：游戲行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載：教育行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載：旅游行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載：文化娛樂行業(yè)（電影，音樂等）
10大行業(yè)公開數(shù)據(jù)集免費下載：醫(yī)療行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載：汽車及出行
10大行業(yè)公開數(shù)據(jù)集免費下載：房產(chǎn)行業(yè)
10大行業(yè)公開數(shù)據(jù)集免費下載：自媒體等行業(yè)

方法二：從數(shù)據(jù)平臺獲取

1.國內(nèi)中文平臺：
1）阿里云天池，官網(wǎng)網(wǎng)址：https://tianchi.aliyun.com/dataset/
數(shù)據(jù)下載辦法：

去哪找數(shù)據(jù)？怎么挖掘？-4.jpg

登錄/注冊后可看大圖

去哪找數(shù)據(jù)？怎么挖掘？-5.jpg

登錄/注冊后可看大圖

去哪找數(shù)據(jù)？怎么挖掘？-6.jpg

登錄/注冊后可看大圖

2）DataFountain，官網(wǎng)地址：https://www.datafountain.cn/dataSets
有的文件下載后會顯示后綴是.zip, .zip是個壓縮包，下載后需要減壓后才能看到壓縮包里的excel文件

去哪找數(shù)據(jù)？怎么挖掘？-7.jpg

登錄/注冊后可看大圖

2.國外英文平臺
Kaggle，官網(wǎng)地址和如何下載數(shù)據(jù)：如何在Kaggle上查找數(shù)據(jù)

方法三：傻瓜式爬蟲工具（不需要編程）

【優(yōu)點】在網(wǎng)站上爬取你感興趣領(lǐng)域網(wǎng)站的數(shù)據(jù)，可以獲取到自己想要的領(lǐng)域數(shù)據(jù)
【缺點】需要看官網(wǎng)教程來學(xué)習(xí)，有一定門檻

1）工具：后羿，同時有mac，windows版本
網(wǎng)址：http://www.houyicaiji.com/
打開官網(wǎng)后點擊下圖“教程”的地方有入門教程。

去哪找數(shù)據(jù)？怎么挖掘？-8.jpg

登錄/注冊后可看大圖

2）工具：集搜客，只有windows版本
操作指南只需要看下面紅框中的內(nèi)容就可以，操作指南地址：
https://www.gooseeker.com/tuto/tutorial.html

去哪找數(shù)據(jù)？怎么挖掘？-9.jpg

登錄/注冊后可看大圖

爬取多少數(shù)據(jù)？
數(shù)據(jù)量少一般說明不了什么問題，起碼的超過幾萬條數(shù)據(jù)。
多嘗試、思維邏輯要清晰，一定要知道自己做什么，爬取什么樣的數(shù)據(jù)，提前規(guī)劃好了，整個過程就不會走太多的彎路。

去哪找數(shù)據(jù)？怎么挖掘？-10.jpg

登錄/注冊后可看大圖

案例：https://zhuanlan.zhihu.com/p/39733403

歡迎留言補充更多行業(yè)數(shù)據(jù)。

上面提到3種獲取數(shù)據(jù)的方法，選擇一種適合你自己方法。獲取數(shù)據(jù)后分析，可以使用這個里面的方法來分析：
如何分析數(shù)據(jù)？

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	51 帖子	3 積分

Rank: 1

發(fā)消息

19樓

發(fā)表于 2021-12-16 10:18:06 | 只看該作者

不請自來。
二手研究：基于其它個人團體或機構(gòu)以前進行的研究的信息。
一手研究：為公司的具體需求直接參與信息收集。包括焦點小組、問卷調(diào)查、個人訪談等。
欣旋咨詢：項目管理培訓(xùn)專家，欣然學(xué)習(xí)，凱旋而歸！

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

未绑定微信

0 主題	44 帖子	5 積分

Rank: 1

發(fā)消息

20樓

發(fā)表于 2021-12-16 12:31:10 | 只看該作者

是時候拿出之前總結(jié)的干貨了！??！
真實可用的公開數(shù)據(jù)集：
亞馬遜AWS開放數(shù)據(jù)登記冊
Registry of Open Data on AWS阿帕奇數(shù)據(jù)集（得在linux操作系統(tǒng)上才能正常登陸）
http://archive.ics.uci.edu/ml/datasets.htmlkaggle比賽用數(shù)據(jù)集
Competitions | KaggleKDnugget之家數(shù)據(jù)集
Datasets for Data Mining and Data Science搜狗實驗室
搜狗實驗室（Sogou Labs）阿里云天池比賽數(shù)據(jù)集
天池數(shù)據(jù)集DC競賽數(shù)據(jù)集
DC競賽-大數(shù)據(jù)競賽平臺題主拿去，不謝。
歡迎訂閱微信公眾號：IT知識庫小姐姐
獲取更多免費學(xué)習(xí)資料、行業(yè)資訊，轉(zhuǎn)行疑惑解答。
另有轉(zhuǎn)行IT疑惑，或者不知道自己適合學(xué)什么的，可以評論區(qū)留言或者私信，我將一一回復(fù)解答。
覺得這個回答有幫助的，別光記得收藏，點個贊讓更多的小伙伴看到，謝謝(*°?°)=3

精選高品質(zhì)二手iPhone，上愛鋒貝APP

回復(fù) 支持反對

使用道具舉報

12 / 2 頁

發(fā)新帖

|Archiver|手機版|小黑屋|愛鋒貝 ( 粵ICP備16041312號-5 )

GMT+8, 2025-2-5 09:09

Powered by Discuz! X3.4

© 2001-2013 Discuz Team. 技術(shù)支持 by 巔峰設(shè)計.

快速回復(fù) 返回頂部 返回列表