Spiders是什么意思？搜索引擎Spider是什么意思?

日期：2024-03-01????作者：攻硬營銷

Spiders英文釋義：互聯網上的蜘蛛；蜘蛛；網頁爬蟲；搜索引擎Spider也就是大家常說的爬蟲、蜘蛛或者機器人。是指自動抓取網頁內容的機器人，是處于整個搜索引擎最上游的一模塊，是搜索引擎用來訪問Internet上網頁的自動程序。spiders根據html的語法和格式，對讀取的頁面進行代碼過濾，收入相關的文字內容。搜索引擎無法象人那樣去讀相應的圖片、Flash、影片里面的內容。圖片中的文字對Spider來說毫無意義。對于javascript里面的文字內容，會開始收錄。

世界各大常見的搜索引擎Spiders名字，方便大家查看網站日志時查找：

google蜘蛛： googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛： lycos_spider_(t-rex)

alltheweb蜘蛛： fast-webcrawler/

inktomi蜘蛛： slurp

搜狗蜘蛛：Sogou spider

新浪愛問蜘蛛：Iaskspider

在大型搜索引擎spider的抓取過程中會有很多策略，有時也可能是多種策略綜合使用，這里簡單介紹一下比較簡單的spider抓取策略，以輔助大家對spider工作流程的理解，spider抓取網頁，在爭取抓取盡可能多網頁的前提下，首先要注意的就是避免重復抓取，為此spider程序一般建立已抓取URL列表和持抓取URL列表。實際中是由哈希表來記錄URL的兩個狀態；在抓取到一個新頁面時，提取該頁面上的鏈接，并把提取到的鏈接和已經抓取URL列表中的鏈接進行逐一對比，如果發現該鏈接已經抓取過，就會直接丟棄，如果發現該鏈接還未抓取，就會把該鏈接放到待抓取URL隊列的末尾等待抓取。只有被spider抓回的頁面或URL才會被索引和有機會參考排名。需要注意的是：主要是spider抓到的URL都可能會參考排名，但參考網頁并不一定就被spider抓取到了內容，比如有些網站屏弊搜索引擎spider后，雖然spider不能抓取網頁內容，但是也會有一些域名級別高的URL在搜索引擎中參考了排名，所以高權重的域名和網站關鍵詞的排名密切相關。

上一篇：網站爬蟲程序是什么意思,網絡爬蟲程序的作用？

下一篇：百度快照是什么意思?百度快照干什么用的?

Spiders是什么意思？搜索引擎Spider是什么意思?

相關推薦