仟億科技SEO優(yōu)化今天主要是跟大家分享一下搜索引擎的工作第一個(gè)環(huán)節的知識:互聯(lián)網(wǎng)之爬蟲(chóng)。我們先來(lái)看一下它的定義:網(wǎng)絡(luò )爬蟲(chóng)(又被稱(chēng)為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò )機器人,在FOAF社區中間,更經(jīng)常的稱(chēng)為網(wǎng)頁(yè)追逐者),是一種按照一定的規則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。
從以上的定義來(lái)看,百度蜘蛛,谷歌機器人都屬于爬蟲(chóng)的一種,而爬蟲(chóng)主要是按照一定的規則,自動(dòng)抓取信息的腳本或者程序,這個(gè)不難理解,有經(jīng)驗的程序員都能夠獨立的編寫(xiě)出來(lái)一套比較完整的蜘蛛程序,用來(lái)收集網(wǎng)絡(luò )信息,充實(shí)自己的網(wǎng)站。其實(shí)很多的信息采集軟件也是采用了這種技術(shù)。
那么我們在來(lái)看一下蜘蛛到底進(jìn)行的什么工作:
每一種類(lèi)型的資源,都有相應的蜘蛛爬蟲(chóng)來(lái)搜集,當然解析的方式也各不相同。我們經(jīng)常能夠在網(wǎng)站的日志中看到百度的spider和image-spider,不同的爬蟲(chóng)利用其自身的規則來(lái)對其頁(yè)面進(jìn)行解析。即使是這樣, 我們也能夠看到爬蟲(chóng)在爬去頁(yè)面的時(shí)候還是有一定的規律性的,這種規律性則是來(lái)自于搜索引擎效率最大化的取舍
寬度優(yōu)先遍歷原則:這個(gè)原則是從網(wǎng)站自身做起的,根據網(wǎng)站的層級來(lái)抓取。因為我們在做網(wǎng)站的時(shí)候都有一個(gè)優(yōu)先的考慮,比如我第一個(gè)想讓搜索引擎看到的就是首頁(yè),其次的各個(gè)目錄頁(yè)面,再其次就是內容頁(yè)面,蜘蛛也是利用這一點(diǎn)來(lái)抓取。
非完全pagerank排序:這個(gè)原則就是利用谷歌的pr值來(lái)計算的。因為每一個(gè)網(wǎng)頁(yè)在谷歌中都會(huì )有一個(gè)評分,根絕這些評分高低來(lái)抓取。如果完全計算就比較耗費計算資源,所以它就采用高pr值的網(wǎng)頁(yè)傳遞出來(lái)的鏈接肯定都是可靠的。
OPIC(online page importance computation在線(xiàn)頁(yè)面重要性計算):這一個(gè)原則跟pr值計算相差無(wú)幾,在采集的網(wǎng)頁(yè)中來(lái)計算每一個(gè)網(wǎng)頁(yè)的重要性,然后在進(jìn)行優(yōu)先抓取。
大站優(yōu)先策略:這個(gè)毋庸置疑了。因為大戰比較符合信賴(lài)的原則。
其實(shí)我們可以看到,這種原則其實(shí)是對抓取的有限性和網(wǎng)頁(yè)的無(wú)限性的一個(gè)折中,即在有限的時(shí)間內抓取網(wǎng)絡(luò )中更為重要的頁(yè)面和資源。當然我們也需要去了解網(wǎng)絡(luò )爬蟲(chóng)工作的原理,這樣的話(huà)更有利于我們去做SEO優(yōu)化、
通過(guò)傳統百度Spider檢查死鏈的方法不僅會(huì )浪費大量的服務(wù)器資源,同時(shí)已經(jīng)被百度索引的網(wǎng)頁(yè)被管理員刪除后,百度得不到及時(shí)的反饋,這樣百度服務(wù)器就會(huì )存儲大量互聯(lián)網(wǎng)上已經(jīng)不存在的網(wǎng)頁(yè),也會(huì )造成百度浪費大量服務(wù)器資源及搜索用戶(hù)體驗下降的情況。
既然死鏈對網(wǎng)站有如此多的影響,我們應該針對這些問(wèn)題做哪些處理呢?百度站長(cháng)平臺推出了死鏈工具,可以達到既提升網(wǎng)站用戶(hù)體驗,減少資源浪費,又幫百度及時(shí)清理無(wú)效的網(wǎng)頁(yè)作用。同時(shí),當站長(cháng)希望快速刪除某些隱私或者重要頁(yè)面的百度快照時(shí),也可以將其HTTP狀態(tài)碼設置為404,然后通過(guò)死鏈工具推送給百度,以實(shí)現快速處理死鏈。
細心的朋友可能會(huì )有些疑問(wèn),如果提交的死鏈和網(wǎng)站地圖中的URL有沖突會(huì )不會(huì )對網(wǎng)站有什么影響?
正常的網(wǎng)站運營(yíng)過(guò)程中,一般都會(huì )及時(shí)的把網(wǎng)站新增的URL寫(xiě)入到Sitemap中,但有時(shí)會(huì )因特殊情況不得不刪除一些網(wǎng)頁(yè),根據百度的建議大家也會(huì )把這些刪除的URL制作成死鏈文件提交給百度。由于單獨把一部分URL從大量的Sitemap中刪除是比較困難的也比較繁瑣,此時(shí)就有了一個(gè)問(wèn)題,有部分已經(jīng)刪除頁(yè)面的URL同時(shí)存在于Sitemap和死鏈文件中??赡軙?huì )有一些朋友和筆者一樣擔心這種情況會(huì )不會(huì )對網(wǎng)站有不良影響。根據百度相關(guān)說(shuō)明是死鏈文件的優(yōu)先級要高于Sitemap,只要URL存在死鏈文件中,百度在Sitemap中發(fā)現該URL也不會(huì )再抓取了,因此這種情況并不會(huì )對網(wǎng)站造成不良影響。雖然如此,不過(guò)為了有效利用百度站長(cháng)平臺給出的Sitemap提交數量的空間,在不太過(guò)多好肥資源和精力的情況下,應該及時(shí)的清理掉Sitemap中已經(jīng)刪除頁(yè)面的URL。