網絡爬蟲程序分為幾類,常見的爬蟲種類
日期:2024-03-01????作者:攻硬營銷
網絡爬蟲就是為搜索引擎平臺提供信息來源的程序,網絡爬蟲又被稱為網頁蜘蛛,網絡機器人,是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本,已被廣泛應用于互聯網領域。互聯網上的爬蟲程序非常多,有好有壞,不常見的不做太多列舉。常見的爬蟲種類有:

一,Google爬蟲。算法優秀,反應速度迅速,對內容質量把握優秀,中等強度爬蟲程序,對服務器負擔不大,推廣效果好。
對應user-agent: 爬蟲名稱
Googlebot:google 網頁爬蟲程序
Googlebot-news:google 新聞爬蟲程序
Googlebot-image:google 圖片爬蟲程序
Googlebot-video:google 視頻爬蟲程序
Googlebot-mobile:google 移動爬蟲程序
Mediapartners-google 廣告爬蟲程序
Mediapartners(googlebot):google廣告爬蟲程序
Adsbot-google:google 著陸頁質量檢測爬蟲程序
二:百度爬蟲程序。算法良好,反應速度遲鈍,對內容質量把握一般,高強度爬蟲程序,隱私保護性差,在百度面前無隱私可言,推廣效果好。
對應user-agent: 爬蟲名稱
Baiduspider: 百度網頁爬蟲兼移動爬蟲程序
Baiduspider-image: 百度圖片爬蟲程序
Baiduspider-video: 百度視頻爬蟲程序
Baiduspider-news: 百度新聞爬蟲程序
Baiduspider-favo: 百度搜藏爬蟲程序
Baiduspider-cpro: 百度聯盟爬蟲程序
Baiduspider-ads: 百度商務爬蟲程序
三:好搜(即360)爬蟲程序。類似百度早期算法,反應速度遲鈍,對內容質量把握不足,高強度爬蟲程序,隱私保護性差,需要翻墻的小伙伴千萬要避開。推廣效果好。
對應user-agent: 爬蟲名稱
360spider或haosouspider: 好搜網頁爬蟲兼移動爬蟲程序
360spider-image: 好搜圖片爬蟲程序
360spider-video: 好搜視頻爬蟲程序
四:搜狗爬蟲程序程序。算法一般,反應速度遲鈍,不能良好的把握內容質量,高強度爬蟲程序,由于算法奇差,會對頁面進行大量反復而又無實際意義的掃描,對服務器負擔很大,推廣效果差!嚴重的內部點擊,非常討厭。搜狗本身流量很少,收錄慢,抓取壓力大,綜合性價比非常低。
對應user-agent: 爬蟲名稱
Sogou spider: 搜狗綜合爬蟲程序
五:新浪愛問爬蟲程序。基本可以當作搜狗爬蟲,各項性能惡劣,推廣效果差。
對應user-agent: 爬蟲名稱
Iaskspider: 新浪愛問爬蟲程序
六:有道爬蟲程序。基本可以當作搜狗爬蟲,各項性能惡劣,對服務器負擔較搜狗略低,推廣效果差。
對應user-agent: 爬蟲名稱
YodaoBot: 網易有道爬蟲程序
七:Alexa爬蟲程序。Alexa爬蟲,用于檢測網站是否做了Alexa排名作弊,如果不關心Alexa排名的可以遮蔽。一般企業站看這個沒意思很難有排名的。
對應user-agent: 爬蟲名稱
ia_archiver: Alexa爬蟲程序
八:雅虎爬蟲程序。算法優良,反應速度還可以,高強度爬蟲程序,有時候會從多個ip地址啟動捉取,算是比較規范的爬蟲,推廣效果還可以。不過自從雅虎離開大陸,而且在11年11月左右雅虎關閉了站長服務并把數據轉移到必應。
對應user-agent: 爬蟲名稱
Yahoo! Slurp: 雅虎爬蟲程序
九:必應爬蟲程序。整體性能還不能判斷,不過根據最近世界搜索引擎市場份額占比判斷,性能應該接近百度甚至比百度要好,國內本土化不足。來自必應的流量不少于好搜。
對應user-agent: 爬蟲名稱
Bingbot: 必應爬蟲程序
大概常見的爬蟲種類就有這些,別的基本可以直接遮蔽了。注:只要不給鏈接入口搜索引擎是不好抓取的。網絡爬蟲是一個自動提取網頁的程序,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。