石家莊網(wǎng)站建設方案報價

搜索引擎的工作原理之索引

來源:www.theclubhubb.com 作者:筆者小丹 時間:2020-05-20 11:18:35 瀏覽:1931次

    搜索引擎的三大功能:爬取、索引和排名。而在我們確定了網(wǎng)站已經(jīng)被爬行以后,下一步來進行操作的就是確保網(wǎng)站的內容路徑能夠被索引。我們要明確的知道,即便是網(wǎng)站被搜索引擎發(fā)現(xiàn)和爬行了,但是并不意味著網(wǎng)站就可以被搜索引擎所索引儲存在索引庫中。在對搜索引擎爬行進行分析的時候,我們明白了網(wǎng)站是如何被搜索引擎發(fā)現(xiàn)和爬行的,而索引就是用來發(fā)現(xiàn)我們的頁面對其進行儲存的。搜索引擎找打對應的網(wǎng)頁后,會像照相機一樣來記錄它,同時在這個過程中會對該頁面進行數(shù)據(jù)分析和篩選,然后再判斷是否將該頁面儲存到索引庫中。

    下面我們來分析的內容就搜索引擎索引的工作原理以及如來讓我們的網(wǎng)站被搜索引擎收錄到數(shù)據(jù)庫中。我們是否可以看到Googlebot搜索引擎如何快照到我們的頁面?答案是肯定的,要知道網(wǎng)站頁面的緩存版本將反映Googlebot上次對其進行爬網(wǎng)的快照。Google以不同的頻率抓取和緩存網(wǎng)頁。我們可以通過單擊搜索引擎結果頁中URL旁邊的下拉箭頭并選擇“快照”來查看頁面的已緩存版本的外觀:我們還可以查看網(wǎng)站的純文本形式以確定是否有效地檢索和緩存了我們的重要內容。

    那么收錄的頁面是否還有可能從索引中刪除呢?這個答案也是肯定,造成已經(jīng)被收錄的頁面被再次“放棄”刪除的原因有很多,我們常見的原因有:

    1、URL返回“找不到”錯誤(4XX)或服務器錯誤(5XX),這可能是偶然的頁面已移動并且未設置301重定向或故意的頁面被刪除并進行了404處理以便將其從索引中刪除。

    2、網(wǎng)址中添加了noindex元標記,網(wǎng)站所有者可以添加此標記,以指示搜索引擎從其索引中省略該頁面。

    3、該網(wǎng)址已因違反搜索引擎的網(wǎng)站站長指南而受到了人工懲罰,因此已從索引中刪除。

    4、網(wǎng)站阻止了URL的爬網(wǎng)并添加了訪問者訪問該頁面之前需要使用密碼。

    如果我們認為不再顯示以前在Google索引中的網(wǎng)站頁面,則可以使用URL Inspection工具來了解該頁面的狀態(tài),或者使用具有“更新索引”功能的Google抓取方式來向索引提交各個URL。 那么,搜索引擎又是如何為我們的網(wǎng)站建立索引的呢?

    1、機器人元指令

    元指令是我們可以向搜索引擎提供的有關如何處理網(wǎng)頁的說明。我們可以告訴搜索引擎抓取工具,如不要在搜索結果中將此頁面編入索引或不要將任何鏈接資產(chǎn)傳遞給任何頁面上的鏈接。這些指令是通過HTML頁面<head>中的Robots Meta標簽或HTTP標頭中的X-Robots-Tag執(zhí)行的。

    2、元指令影響索引編制,而不是爬網(wǎng)

    Googlebot需要抓取我們的頁面才能查看其meta指令,因此,如果我們試圖阻止抓取工具訪問某些頁面,那么meta指令就無法做到這一點。 必須抓取搜索引擎標簽以使其受到尊重。

    3、機器人元標記

    可以在網(wǎng)頁HTML的<head>中使用robots元標記。它可以排除所有或特定的搜索引擎。以下是最常見的meta指令,以及我們可能在哪些情況下應用它們。

    (1)index/noindex告訴引擎是否應該對頁面進行爬網(wǎng)并將其保留在搜索引擎的索引中以進行檢索。如果我們選擇使用“noindex”,則表示正在與搜索引擎進行通訊,以使該網(wǎng)頁不包含在搜索結果中。默認情況下,搜索引擎假定它們可以索引所有頁面,因此不需要使用“index”值??赡苁褂玫臅r間:如果我們嘗試從Google網(wǎng)站索引中剪裁薄頁,但仍希望訪問者可以訪問它們,則可以將頁面標記為“noindex”。

    (2)follow/nofollow告訴搜索引擎頁面上的鏈接是應該跟隨還是不被跟隨。 關注會導致搜索引擎跟蹤我們頁面上的鏈接,并將鏈接所有權傳遞給這些URL?;蛘呶覀冞x擇使用“nofollow”,則搜索引擎將不會跟蹤或將任何鏈接資產(chǎn)傳遞給頁面上的鏈接。默認情況下,假定所有頁面都具有“跟隨”屬性??赡艿氖褂脮r間:嘗試防止頁面被索引以及爬蟲程序不跟蹤頁面上的鏈接時,nofollow通常與noindex一起使用。

    (3)noarchive用于限制搜索引擎保存頁面的緩存副本。默認情況下,引擎將維護已索引的所有頁面的可見副本,用戶可以通過搜索結果中的緩存鏈接來訪問它們??赡苁褂玫臅r間:如果我們經(jīng)營一個電子商務網(wǎng)站并且價格定期變化,則可以考慮使用noarchive標簽,以防止用戶看到過時的價格。

    說了很多理論的知識,我們舉個一個元機器人noindex,nofollow標簽的例子:<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>…</body></html>該代碼是排除所有搜索引擎將頁面編入索引或跟蹤任何頁面上的鏈接。如果我們要排除多個抓取工具則可以使用多個機器人排除代碼。

    4、元指令影響索引編制,而不是爬網(wǎng)

    Googlebot需要抓取我們的頁面才能查看其meta指令,因此,如果我們試圖阻止抓取工具訪問某些頁面,那么meta指令就無法做到這一點。必須抓取搜索引擎標簽,以使其受到尊重。

    5、X機器人標簽

    x-robots標記用于URL的HTTP標頭中,如果我們想大規(guī)模阻止搜索引擎,則比meta標記提供更多的靈活性和功能,因為我們可以使用正則表達式,阻止非HTML文件以及應用站點范圍內的noindex標記。機器人元標記中使用的派生詞也可以在X-Robots-Tag中使用。

    只要我們了解影響爬網(wǎng)和索引的不同方法將幫助我們避免可能導致無法找到重要頁面的常見陷阱。

    (轉載請注明轉自:www.theclubhubb.com,謝謝!珍惜別人的勞動成果,就是在尊重自己!)


上一篇:搜索引擎的工作原理之排名

下一篇:搜索引擎的工作原理之抓取

返回列表

網(wǎng)站建設知識

石家莊網(wǎng)站建設 石家莊網(wǎng)站優(yōu)化 石家莊網(wǎng)站建設報價 石家莊網(wǎng)站推廣
石家莊網(wǎng)站建設方案 石家莊網(wǎng)站建設推廣 石家莊網(wǎng)站制作維護

更多 +聯(lián)系我們

24小時服務熱線:400-1180-360

業(yè)務 QQ:  444961110電話: 0311-80740308

渠道合作:  444961110@qq.com

更多 +關于我們

河北供求互聯(lián)信息技術有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團旗下子公司,也是河北省首批從事網(wǎng)站建設、電子商務開發(fā),并獲得國家工業(yè)和信息化部資質認證的企業(yè)。公司自成立以來,以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點,以網(wǎng)絡營銷研究與應用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡域名注冊、虛擬主機租用、網(wǎng)站制作與維護、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動互聯(lián)網(wǎng)營銷平臺開發(fā)與運營、企業(yè)郵局、網(wǎng)絡支付、系統(tǒng)集成、軟件開發(fā)、電子商務解決方案等優(yōu)質的信息技術服務,與中國科學院計算機網(wǎng)絡信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國數(shù)據(jù)、萬網(wǎng)、中資源、陽光互聯(lián)、點點客、北龍中網(wǎng)、電信通等達成戰(zhàn)略合作伙伴關系。

版權所有 ? 河北供求互聯(lián)信息技術有限公司-優(yōu)秀的石家莊網(wǎng)站建設公司,為您提供石家莊網(wǎng)站建設、網(wǎng)站推廣等優(yōu)質服務.   
服務熱線:400-1180-360 增值電信業(yè)務經(jīng)營許可證:冀B2-20105159 冀ICP備09010972號

在線留言
免費試用
掃一掃

掃一掃
贈送神秘大禮

全國免費服務熱線
400-1180-360

返回頂部