愛鋒貝

標題: 使用后羿采集器采集旅游景點評價數(shù)據(jù)(攜程、馬蜂窩、美團 ... [打印本頁]

作者: 妖貝聊科技    時間: 2022-1-1 13:03
標題: 使用后羿采集器采集旅游景點評價數(shù)據(jù)(攜程、馬蜂窩、美團 ...
原文地址:使用后羿采集器采集旅游景點評價數(shù)據(jù)

由于目前寫論文需要爬些旅游景點的數(shù)據(jù)做數(shù)據(jù)分析,因此探索了一番評價數(shù)據(jù)的采集,此處打算把整個過程記錄下來。過去我爬取數(shù)據(jù)的思路都是各種F12然后找http請求,解析數(shù)據(jù)各種操作,不過發(fā)現(xiàn)這個方法用在這里并不太適用,單個平臺的反爬就已經很麻煩了,何況是攜程、馬蜂窩、美團、大眾點評整整四個平臺,估計等我搞定了,黃花菜也涼了。不過由于之前聽過一些自動采集的軟件,好像挺強大,于是隨便下載了個后羿采集器來準備試試,沒想到,這玩意確實好用,沒過多久,就把四個平臺的數(shù)據(jù)都爬取下來了。由于我用得不深,不過爬取的數(shù)據(jù)效果還可以,話不多說,先上效果圖吧:

攜程采集結果:

(, 下載次數(shù): 10)
馬蜂窩采集結果:

(, 下載次數(shù): 10)

當然,有些平臺的數(shù)據(jù)也不夠完整,或存在些問題,我會在最后面注明。

先來介紹下后羿采集器吧:(先注明下,并不是說這個采集器就一定是最好的,其他的比如火車頭采集器等估計也可以實現(xiàn),只是我用了這個,覺得用起來比較簡單,也能完成采集任務)

后羿采集器

后羿采集器是由前谷歌搜索技術團隊基于人工智能技術研發(fā)的新一代網頁采集軟件。具有以下特點;


官網下載地址:后羿采集器_真免費!導出無限制網絡爬蟲軟件_人工智能數(shù)據(jù)采集軟件

文檔中心:數(shù)據(jù)采集教程_新手入門_新手入門必看_后羿采集器

具體下載安裝步驟參考文檔即可。

下面就一一介紹各個平臺的旅游評價數(shù)據(jù)采集過程。

攜程

以`清江畫廊` 這個景點為例,在攜程官網首頁搜索后便出現(xiàn)了關于該景點的詳細介紹,往下拉后可看到最后一個面板為`用戶點評`,就出現(xiàn)了我們需要的評價數(shù)據(jù),以分頁的列表展示,每頁10條,有238頁,總的數(shù)據(jù)條數(shù)是2373。

復制該頁面的地址:
```
德天瀑布門票,德天瀑布門票價格,德天瀑布門票團購【攜程門票】
```

(, 下載次數(shù): 8)

2. 配置規(guī)則
打開后羿采集器,首頁輸入上一步中找到的頁面地址,點擊`智能采集`,智能采集的意思是采集器會識別你輸入的網頁結構,并找到列表數(shù)據(jù),并自動進行翻頁,直到采集到最后一頁數(shù)據(jù)為止。

(, 下載次數(shù): 9)

然后進入采集界面,采集器會自動在軟件中打開你輸入的網頁,并識別網頁結構,找到數(shù)據(jù)列表。這需要一些時間,耐心等待即可。

不過一開始識別出來后可能是這樣的:

(, 下載次數(shù): 9)

似乎不是我們需要的評價數(shù)據(jù)啊, 證明自動識別的列表并不是我們想要的,那怎么辦呢?
可以這樣解決:

(, 下載次數(shù): 10)

3. 開始采集任務
到此,我們配置好了需要采集的頁面以及數(shù)據(jù)列表,并且可以在頁面下方預覽前10條數(shù)據(jù),確認無誤后,點擊`開始采集即可`啟動采集任務。此處可以配置各種選項,比如定時采集,加速、防屏蔽、啟用代理等功能,自己按需配置,攜程這個不需要任何配置也能采集到數(shù)據(jù)的。點擊開始后,就進入了采集頁面

(, 下載次數(shù): 11)
最后面自動采集完成后,會提示采集完成,將數(shù)據(jù)導出到本地即可。

由于后續(xù)其他平臺操作類似,故只會說明下需要注意的地方。

馬蜂窩

馬蜂窩頁面顯示的數(shù)據(jù)其實是不完整的,如下圖所示:

(, 下載次數(shù): 9)
每頁是15條,總的只能看到5頁,總的75條,但其實總的是333條,因此,不管顯示多少評論,采集的結果最終只是75條。

美團

和攜程差不多,頁面列表可以自動識別。

大眾點評

大眾點評稍微有點特殊,查看評價時候可以看到,需要登錄后才能看到所有的評價。

(, 下載次數(shù): 7)

因此,在后羿采集器中需要解決的一個問題就是登錄后才能拿到數(shù)據(jù),那具體應該怎么操作呢?

在采集頁面上面,有個預登陸功能

(, 下載次數(shù): 10)

在彈出的頁面上,進行登錄后,點擊`登錄完成`,即可。
不過需要注意的是每頁數(shù)據(jù)的url都是不同的,比如:首頁`http://www.dianping.com/shop/3328354/review_all`,第二頁:        `http://www.dianping.com/shop/3328354/review_all/p2`,那這種url怎么辦呢?

可以看到,各個頁面的前綴都是一樣的,只是最后p2,p3數(shù)字不同而已,采集器提供了一種針對這種有規(guī)律的url生成器,詳見下圖,在參數(shù)那里填入開始的頁面和結束的頁面數(shù)字即可生成,復制網址預覽中的url到`手動輸入`欄中,并進行一定的修改即可。

(, 下載次數(shù): 10)

總結

其實從過程來說,還是挺簡單的,只是可能一些配置規(guī)則、預登陸這種得多弄幾次才會熟悉。大多數(shù)只要能在網頁上看到的數(shù)據(jù),都是可以通過采集器采集到的,當然,還有很多高級復雜的東西此處并沒有涉及到,后續(xù)遇到的話再去研究研究。

存在問題

由于采集器以及各個平臺的差異性,采集到的數(shù)據(jù)難免存在些問題,這里僅記錄我觀察到的比較明顯的問題:



我的網站提供了一系列POI數(shù)據(jù)爬取、人流量爬取、數(shù)據(jù)可視化、以及地圖在線工具等功能,歡迎使用哦,地址:[BLT-LEAD 一個專注于分享與地圖數(shù)據(jù)相關的爬取、可視化、應用工具與知識的網站_](BLT-LEAD 一個專注于分享與地圖數(shù)據(jù)相關的爬取、可視化、應用工具與知識的網站_)

-----------------------------
作者: 落葉84    時間: 2022-1-1 14:29
我有更好的采集軟件
作者: 霞兒    時間: 2022-1-1 16:17
你好可以分享一下嗎,
作者: 愛你如初    時間: 2022-1-1 17:50
私聊
作者: 幸福雨露    時間: 2022-1-1 18:56
什么軟件呢,分享下啊
作者: 余溫    時間: 2022-1-1 20:09
分享下啊
作者: 余孤    時間: 2022-1-1 21:52
想請教一下 后羿采集器怎么采集到美團上的評論分數(shù)
作者: 翔勻    時間: 2022-1-1 23:35
先謝謝!被八爪魚折磨了兩天的小白去試試后羿。希望能得到我想要的數(shù)據(jù)嗚嗚嗚
作者: 熊貓    時間: 2022-1-2 01:24
哈哈,我寫的是親測可用的
作者: 能力有限    時間: 2022-1-2 02:25
請問“展開評論”怎么處理呢?謝謝!怎么感覺這個采集器好慢呀~這是正常現(xiàn)象嗎
作者: Wjjyb4    時間: 2022-1-2 04:05
不慢吧。展開評論這個需要自己設置另一種模式
作者: 帥哥哥    時間: 2022-1-2 05:22
還有嗎
作者: 采夢    時間: 2022-1-2 06:45
你好我想請問馬蜂窩具體哪個時間前的評論可以采集到嗎[捂臉]
作者: 下一站    時間: 2022-1-2 08:29
請問這個軟件可以采集游記嗎?大篇文章那種[捂臉]
作者: 一個人的世界    時間: 2022-1-2 09:58
你好,為什么我采集攜程的景點評論的時候只有300條,遠遠少于網站上的評論
作者: 飛翔4    時間: 2022-1-2 11:07
想問一下展開評論怎么弄[捂臉]
作者: 育73    時間: 2022-1-2 12:21
可以分享嗎
作者: 雪兒寶寶    時間: 2022-1-2 13:54
請教一下后羿采集器可以采集app上的評價嗎?
作者: 傳晟原單名品    時間: 2022-1-2 14:54
你好,可以私聊下咋做的嘛[笑哭],我還是不太會
作者: 黑蝙蝠,    時間: 2022-1-2 16:53
想問樓主我采的攜程,每頁只有8條,漏了很多,這是為什么?
作者: 天使    時間: 2022-1-2 18:27
可以分享嗎




歡迎光臨 愛鋒貝 (http://m.7gfy2te7.cn/) Powered by Discuz! X3.4