石家莊網(wǎng)站建設(shè)方案報(bào)價(jià)

搜索引擎對(duì)相似網(wǎng)頁的去重算法探究

時(shí)間:2013-08-19 9:19:40 瀏覽:2296次

  從《百度搜索引擎優(yōu)化指南2.0》一文中可以了解到,百度和所有搜索引擎都是喜歡獨(dú)特并且有價(jià)值的文章。而在復(fù)制粘貼技術(shù)如此方便的今天,網(wǎng)絡(luò)上很難有唯一的內(nèi)容,隨著時(shí)間的延續(xù),相同或相近的版本會(huì)越來越多,其目的只有一個(gè):一切為了流量。所以他們不顧版權(quán)、不顧用戶是否已經(jīng)在某些官方網(wǎng)站或門戶網(wǎng)站看過,就偷偷轉(zhuǎn)載過來,以新穎的標(biāo)題吸引讀者從來獲取流量。于是,網(wǎng)絡(luò)上充斥著大量相似網(wǎng)頁,據(jù)統(tǒng)計(jì)表明,近似重復(fù)網(wǎng)頁的數(shù)量占總網(wǎng)頁數(shù)量的比例高達(dá)全部頁面的29%,而完全相同的頁面大約占全部頁面的22%,即互聯(lián)網(wǎng)頁面中有相當(dāng)大的比例的內(nèi)容是完全相同或者大體相近的重復(fù)網(wǎng)頁,這些重復(fù)網(wǎng)頁有的是沒有一點(diǎn)兒改動(dòng)的副本,有的在內(nèi)容上稍做修改,比如同一文章的不同版本。

  網(wǎng)頁重復(fù)可以分為以下四種類型:

  1、如果兩篇文檔內(nèi)容和布局格式上毫無差別,則這種重復(fù)可以叫做完全重復(fù)頁面。

  2、如果兩篇文檔內(nèi)容相同,但是布局格式不同,則叫做內(nèi)容重復(fù)頁面。

  3、如果兩篇文檔有部分重要的內(nèi)容相同,并且布局格式相同,則稱為布局重復(fù)頁面。

  4、如果兩篇文檔有部分重要的內(nèi)容相同,但是布局格式不同,則稱為部分重復(fù)頁面。

  搜索引擎對(duì)近似重復(fù)網(wǎng)頁發(fā)現(xiàn),就是通過技術(shù)手段(如百度spider)快速全面發(fā)現(xiàn)這些重復(fù)信息的手段,如何快速準(zhǔn)確地發(fā)現(xiàn)這些內(nèi)容上相似的網(wǎng)頁已經(jīng)成為提高搜索引擎服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一。

  發(fā)現(xiàn)相似網(wǎng)頁對(duì)搜索引擎來說有以下好處:

  1、相同網(wǎng)頁表明的實(shí)際內(nèi)容相同,所以百度可以刪除這些重復(fù)網(wǎng)頁來節(jié)約百度數(shù)據(jù)庫的空間,進(jìn)而節(jié)約資源的消耗并提高用戶體驗(yàn)度、減少用戶查看有價(jià)值網(wǎng)頁的時(shí)間。

  2、通過對(duì)相同網(wǎng)頁來源網(wǎng)站進(jìn)行歸納整理,對(duì)于無原創(chuàng)內(nèi)容的網(wǎng)站采用降權(quán)或減少索引的懲罰措施,保護(hù)原創(chuàng)作者的版權(quán)及搜索引擎數(shù)據(jù)庫的獨(dú)特內(nèi)容。

  3、如果我們能夠通過對(duì)以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,在今后的網(wǎng)頁收集過程中就可以避開這些網(wǎng)頁,從而提高網(wǎng)頁的收集速度。有研究表明重復(fù)網(wǎng)頁隨著時(shí)間不發(fā)生太大變化,所以這種從重復(fù)頁面集合中選擇部分頁面進(jìn)行索引是有效的。

  4、如果某個(gè)網(wǎng)站與其他站點(diǎn)內(nèi)容相似度較高,根據(jù)文章引用的思路,可以判定被抄襲的網(wǎng)站顯得比其他網(wǎng)站更有價(jià)值,搜索引擎可以適應(yīng)賦予該網(wǎng)站更高權(quán)重。

  實(shí)際工作的搜索引擎往往是在爬蟲階段進(jìn)行近似重復(fù)檢測(cè)的,下圖給出了近似重復(fù)檢測(cè)任務(wù)在搜索引擎中所處流程的說明。當(dāng)爬蟲新抓取到網(wǎng)頁時(shí),需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁,則直接將其拋棄,如果發(fā)現(xiàn)是全新的內(nèi)容,則將其加入網(wǎng)頁索引中。

  回顧上一講我們提到的《網(wǎng)站相似度和網(wǎng)頁相似度探究》可以看出,百度星火計(jì)劃已經(jīng)初步體現(xiàn)了搜索引擎去重算法的優(yōu)勢(shì)和必然趨勢(shì)。在以后的網(wǎng)站建設(shè)和優(yōu)化過程中,不要一味的擴(kuò)充網(wǎng)站內(nèi)容量,而要從質(zhì)量入手,慢慢贏得搜索引擎的信任。

上一篇:漫談網(wǎng)站內(nèi)鏈nofollow屬性的利弊

下一篇:百度指數(shù)選擇合適的網(wǎng)站關(guān)鍵詞

返回列表

網(wǎng)站建設(shè)知識(shí)

石家莊網(wǎng)站建設(shè) 石家莊網(wǎng)站優(yōu)化 石家莊網(wǎng)站建設(shè)報(bào)價(jià) 石家莊網(wǎng)站推廣
石家莊網(wǎng)站建設(shè)方案 石家莊網(wǎng)站建設(shè)推廣 石家莊網(wǎng)站制作維護(hù)

更多 +聯(lián)系我們

24小時(shí)服務(wù)熱線:400-1180-360

業(yè)務(wù) QQ:  444961110電話: 0311-80740308

渠道合作:  444961110@qq.com

更多 +關(guān)于我們

河北供求互聯(lián)信息技術(shù)有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團(tuán)旗下子公司,也是河北省首批從事網(wǎng)站建設(shè)、電子商務(wù)開發(fā),并獲得國(guó)家工業(yè)和信息化部資質(zhì)認(rèn)證的企業(yè)。公司自成立以來,以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點(diǎn),以網(wǎng)絡(luò)營(yíng)銷研究與應(yīng)用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡(luò)域名注冊(cè)、虛擬主機(jī)租用、網(wǎng)站制作與維護(hù)、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動(dòng)互聯(lián)網(wǎng)營(yíng)銷平臺(tái)開發(fā)與運(yùn)營(yíng)、企業(yè)郵局、網(wǎng)絡(luò)支付、系統(tǒng)集成、軟件開發(fā)、電子商務(wù)解決方案等優(yōu)質(zhì)的信息技術(shù)服務(wù),與中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國(guó)數(shù)據(jù)、萬網(wǎng)、中資源、陽光互聯(lián)、點(diǎn)點(diǎn)客、北龍中網(wǎng)、電信通等達(dá)成戰(zhàn)略合作伙伴關(guān)系。

版權(quán)所有 ? 河北供求互聯(lián)信息技術(shù)有限公司-優(yōu)秀的石家莊網(wǎng)站建設(shè)公司,為您提供石家莊網(wǎng)站建設(shè)、網(wǎng)站推廣等優(yōu)質(zhì)服務(wù).   
服務(wù)熱線:400-1180-360 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:冀B2-20105159 冀ICP備09010972號(hào)

在線留言
免費(fèi)試用
掃一掃

掃一掃
贈(zèng)送神秘大禮

全國(guó)免費(fèi)服務(wù)熱線
400-1180-360

返回頂部