搜索引擎的蜘蛛抓取網(wǎng)站頁(yè)面的一般過(guò)程是這樣的。
首先,收集待索引網(wǎng)站網(wǎng)頁(yè)的url。
搜索引擎的蜘蛛一般分為兩類(lèi),這第一類(lèi)的主要工作就是收集網(wǎng)頁(yè)的中有效的URL。它們的任務(wù)是一刻不停地掃描Internet資源,以隨時(shí)更新其搜索引擎龐大的url列表以供它的第二類(lèi)蜘蛛使用。也就是說(shuō),當這一類(lèi)蜘蛛訪(fǎng)問(wèn)我們網(wǎng)頁(yè)的時(shí)候,并不在于索引我們的網(wǎng)頁(yè),而是在尋找網(wǎng)頁(yè)中的所有有效鏈接。
關(guān)于有的站長(cháng)在自己的訪(fǎng)問(wèn)日志中發(fā)現多個(gè)蜘蛛IP爬自己站的情況。
我們常用的搜索引擎每天要處理數以?xún)|計的信息,沒(méi)有一個(gè)大型的搜索引擎公司(GOOGLE或百度之類(lèi))不配備上萬(wàn)臺服務(wù)器來(lái)共同執行這個(gè)工作,因此搜索引擎都擁有不同的數據中心,也就是說(shuō)有多個(gè)robots來(lái)檢索你的站是很正常的事情。
不過(guò)這也僅限于第一類(lèi)蜘蛛,在索引頁(yè)面的時(shí)候,搜索引擎會(huì )限制某個(gè)特定的數據中心來(lái)讓專(zhuān)門(mén)索引頁(yè)面的蜘蛛檢索你的站。
因此朋友們從服務(wù)器訪(fǎng)問(wèn)日志中時(shí)??梢钥吹皆醋圆煌琁P的蜘蛛,在很短的時(shí)間內頻繁訪(fǎng)問(wèn)網(wǎng)站。不過(guò)千萬(wàn)不要高興得太早,也許其根本不是在索引你的網(wǎng)頁(yè)而只是在掃描url。
補充一下,第一類(lèi)蜘蛛索引時(shí)記錄的信息主要包括網(wǎng)頁(yè)的url、最終修改時(shí)間等
至于網(wǎng)頁(yè)的Head信息是第一類(lèi)蜘蛛來(lái)獲取還是第二類(lèi)來(lái)獲取,很多人都有不同的看法,但我還是比較贊成第一類(lèi)蜘蛛訪(fǎng)問(wèn)時(shí)就能索取這個(gè)信息。
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話(huà):0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明