內鏈:顧名思意就是在自己網(wǎng)站的內容中的相關(guān)文字加入鏈接,并且鏈接到網(wǎng)站內部的相關(guān)頁(yè)面。合理的網(wǎng)站內空鏈接構造,能提高搜索引擎的收錄與網(wǎng)站權重。相對外部鏈接,內部鏈接也很重要。
傳統方式
以前我們做文章系統或新聞發(fā)布系統的時(shí)候,做文章內鏈(標簽)的時(shí)候,通常是通過(guò)以下方式來(lái)實(shí)現的:
數據庫:article(文章表)字段(id, title, body, adddate, userid),keyword(內鏈表)字段(id, name, link)
在發(fā)布文章的時(shí)候,循環(huán)內鏈表內的所有,來(lái)替換文章的body。
這樣確實(shí)是實(shí)現了想要的功能,但是如果我們的內鏈表的數據達到很大的數目,比如2W、5W或更多的時(shí)候。每發(fā)布和修改一片文章的效率是可想而知的。那么網(wǎng)易的新聞、百度的百科等這樣打大型網(wǎng)站是如何實(shí)現的呢?如果按照以上的做法,那系統在幾個(gè)月后就直接崩潰了。
分析比較
一篇正常的文章會(huì )有多少字(不計HTML代碼)?1W?我想1W的文章已經(jīng)算是很長(cháng)的了,而且想在如果直接在一個(gè)頁(yè)面顯示1W的文章相信沒(méi)有幾個(gè)人有耐心能看完的。為了頁(yè)面美觀(guān)和用戶(hù)體驗,編輯通常都是將內容過(guò)多、篇幅超長(cháng)內容的文章分段處理(分為幾篇文章,或分章節)。如果我們能事先將可能出現內鏈的字從文章中提取出來(lái),再從數據庫里檢索,這樣效率是不是就可以得到很大的提高?答案是肯定的。我們就拿1W字的文章來(lái)說(shuō),假設文章的所有文字都需要內鏈,循環(huán)的次數是1W次。比上面的例子假設要強得多吧?
在傳統方式中,不管你要不要,把內鏈表的東西全查一邊。而下面這種思路是事先將有可能出現內鏈的字詞全部整理出來(lái),再用這些詞分別去檢索內鏈表。這樣一比較問(wèn)題就出來(lái)了。
新思路就是:從文章中取出需要內鏈的字詞,然后去查詢(xún)內鏈表。
可行操作
我們暫且把傳統方式稱(chēng)為被動(dòng)方式,把新思路的方法稱(chēng)為主動(dòng)方式。
主動(dòng)方式的實(shí)現方法如下。
利用中文分詞技術(shù),我們可以對一篇文章進(jìn)行分詞。然后根據分詞后的詞表,過(guò)濾掉常用的物主代詞、副詞、感嘆詞等。把名詞、品牌、地名、商標等留下,或者根據自己的詞庫表來(lái)分詞。然后把剩余的字詞去檢索內鏈表,如果有存在,我們就坐上鏈接,不存在就PASS。
以上只是思路的一個(gè)初步構思,在實(shí)際實(shí)現過(guò)程中需要考慮的因素很多。我覺(jué)得重點(diǎn)就在分詞這個(gè)環(huán)節。
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話(huà):0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明