Spiders是什么意思?搜索引擎Spider是什么意思?
日期:2024-03-01????作者:攻硬營銷
Spiders英文釋義:互聯網上的蜘蛛;蜘蛛;網頁爬蟲;搜索引擎Spider也就是大家常說的爬蟲、蜘蛛或者機器人。是指自動抓取網頁內容的機器人,是處于整個搜索引擎最上游的一模塊,是搜索引擎用來訪問Internet上網頁的自動程序。spiders根據html的語法和格式,對讀取的頁面進行代碼過濾,收入相關的文字內容。搜索引擎無法象人那樣去讀相應的圖片、Flash、影片里面的內容。圖片中的文字對Spider來說毫無意義。對于javascript里面的文字內容,會開始收錄。

世界各大常見的搜索引擎Spiders名字,方便大家查看網站日志時查找:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler/
inktomi蜘蛛: slurp
搜狗蜘蛛:Sogou spider
新浪愛問蜘蛛:Iaskspider
在大型搜索引擎spider的抓取過程中會有很多策略,有時也可能是多種策略綜合使用,這里簡單介紹一下比較簡單的spider抓取策略,以輔助大家對spider工作流程的理解,spider抓取網頁,在爭取抓取盡可能多網頁的前提下,首先要注意的就是避免重復抓取,為此spider程序一般建立已抓取URL列表和持抓取URL列表。實際中是由哈希表來記錄URL的兩個狀態;在抓取到一個新頁面時,提取該頁面上的鏈接,并把提取到的鏈接和已經抓取URL列表中的鏈接進行逐一對比,如果發現該鏈接已經抓取過,就會直接丟棄,如果發現該鏈接還未抓取,就會把該鏈接放到待抓取URL隊列的末尾等待抓取。只有被spider抓回的頁面或URL才會被索引和有機會參考排名。需要注意的是:主要是spider抓到的URL都可能會參考排名,但參考網頁并不一定就被spider抓取到了內容,比如有些網站屏弊搜索引擎spider后,雖然spider不能抓取網頁內容,但是也會有一些域名級別高的URL在搜索引擎中參考了排名,所以高權重的域名和網站關鍵詞的排名密切相關。