加入收藏RSS訂閱SEO教程 SEO優化 SEO自學 網站優化
你的位置:首頁 ? SEO教程 ? 正文

搜索引擎工作原理之頁面收錄,搜索引擎對頁面的收錄

選擇字號: 超大 標準 發布時間:2014-8-14 10:37:42 | 作者:Searcheo | 0個評論 | 人瀏覽

本文地址:http://www.umpuhz.live/post/189.html 轉載請注明出處!

    搜索引擎收錄頁面實際上就是在互聯網上進行數據采集,這是搜索引擎最基礎的工作。搜索引擎的數據采集能力直接決定搜索引擎可提供的信息量及對互聯網覆蓋的范圍,從而決定搜索引擎的質量。因此,搜索引擎總是想方設法地提高其數據采集能力。

    我們先介紹搜索引擎收錄頁面的流程及方式,再介紹搜索引擎對已收錄頁面的存儲及維護方式。

1、頁面收錄流程

    在互聯網中,URL是每個頁面的入口地址,搜索引擎蜘蛛程序就是通過URL抓取得頁面的。搜索引擎蜘蛛程序從URL列表出發,通過URL抓取并存儲原始頁面;同時,提取原始頁面中的URL資源并加入到URL列表中。如此不斷地循環,就可以從互聯網中獲取足夠多的頁面,如下圖所示。

    URL是頁面的入口,而域名則是網站的入口。搜索引擎蜘蛛程度通過域名進入網站,從而展開對網站頁面的抓取。換而言之,搜索引擎要在互聯網上抓取到頁面的首要任務就是建立一個足夠大的域名列表,再通過域名進入相應的網站,從而抓取網站中的頁面。

    而對于網站來說,如果想要被搜索引擎收錄,首要的條件就是加入搜索引擎的域名列表。下面向大家介紹兩種常用的加入搜索引擎域名列表的方法。

    第一,利用搜索引擎提供的網站登錄入口,向搜索引擎提交網站域名。對于提交的域名列表,搜索引擎只會定期進行更新。因此,這種做法比較被動,從域名提交到網站被收錄的時間也比較長。

    第二,通過與外部網站建立鏈接關系,使搜索引擎可以通過外部網站發現我們的網站,從而實現對網站的收錄。這種做法的主動權掌握在我們自己的手里(只要我們擁有足夠多高質量的鏈接即可),且收錄速度也比向搜索引擎主動提交要快得多。根據外部鏈接的數量、質量及相關性,一般情況下,2-7天左右就會被搜索引擎收錄。

2、頁面收錄原理

    通過上面的介紹,相信大家已經掌握了加快網站被搜索引擎收錄的方法。然而,怎么樣才能提高網站中頁面被收錄的數量呢?要回答這個問題,就要先了解搜索引擎收錄頁面的工作原理。

    如果把網站頁面繪成的集合看作是一個有向圖,從指定的頁面出發,沿著頁面中的鏈接,按照某種特定的策略對網站中的頁面進行遍歷。不停地從URL列表中移出已經訪問過的URL,并存儲原始頁面。同時提取原始頁面中的URL信息;再將URL分為域名及內部URL兩大類,同時判斷URL是被訪問過,將未訪問的URL加入URL列表中。遞歸地掃描URL列表,直到耗盡所有URL資源為止。經過這些工作,搜索引擎就可以建立龐大的域名列表、頁面URL列表存儲足夠多的原始頁面,如下圖所示

3、頁面收錄方式

    上面已經介紹了搜索引擎收錄頁面的流程及原理。然而,在互聯網數以億計的頁面中,搜索引擎怎么樣才能從中抓取得到相對重要的頁面呢?這就設計搜索引擎的頁面的收錄方式。

    頁面收錄方式是指搜索引擎抓取頁面時所使用的策略,目的是為了能在互聯網中篩選出相對重要的信息。頁面收錄方式的制定取決于搜索引擎對網站結構的理解。如果使用相同的抓取策略搜索引擎在同樣的時間內可以在某一網站中抓取到更多的頁面資源,則會在該網站上停留更長的時間,收錄的頁面數自然也就更多。因此,加深對搜索引擎頁面收錄方式的認識,有利于為網站建立友好的結構,提高頁面被收錄的數量。

    搜索引擎收錄頁面的方式主要有廣度優先、深度優先及用戶提交三種,下面來介紹這三種頁面收錄方式及各自的優缺點。

    ■廣度優先

    如果把整個網站看作是一棵樹,首頁就是根,每個頁面就是葉子。廣度優先是一種橫向的頁面抓取方式,先從樹的較淺層開始抓取頁面,直到抓取完同層次的所有頁面后才進入下一層。因此,在對網站進行優化時,我們應該把網站中相對重要的信息展示在層次較淺的頁面上(例如:在首頁上推薦一些熱門產品或者內容)。反過來,通過廣度優先的抓取方式,搜索引擎就可以優先抓取到網站中相對重要的頁面。

    首先,搜索引擎多網站首頁出發,抓取首頁上所有的鏈接指向的頁面,形成頁面集合A,并解析出集合A中所有頁面的鏈接;再跟蹤這些鏈接抓取下一層的頁面,形成頁面集合B;就這樣遞歸地從淺層頁面中解析出鏈接,從而抓取深層頁面,直到滿足了某個設定的條件才停止抓取進程。

    ■深度優先

    與廣度優先的抓取方式相反,深度優先首先跟蹤淺層頁面中的某一鏈接逐步抓取深層頁面,直到抓取完最深層的頁面后才返回淺層頁面再跟蹤其另一鏈接,繼續向深層頁面抓取,這是一種縱向的頁面抓取方式。使用深度優先的抓取方式,殷墟引擎可以抓取到網站中較為隱蔽、冷門的頁面,這樣就能滿足更多用戶的需求。

    ■用戶提交

    為了抓取更多的網頁,搜索引擎還允許網站管理員主動提交頁面。網站管理員只需要把網站中頁面的URL按照指定的格式制作成文件,提交給搜索引擎,搜索引擎即可通過該文件對網站中的頁面進行抓取及更新。

    這種由網站管理員主動提交頁面的方式大大提高了搜索引擎抓取頁面的效率及技師 而對于網站本身來說,這也大大提高了網站頁面被收錄的數量。

    為了提高 抓取頁面的效率及質量,搜索引擎會結合多種方式去抓取頁面。例如,先使用廣度優先的方式,把抓取范圍鋪得盡量寬,獲取盡可能多的重要頁面;再使用深度優先的方式,抓取更多隱蔽的頁面;再后,結合用戶提交的信息,抓取那些被遺漏的頁面。

4、怎么樣避免重復性收錄

    在互聯網中,信息的重復是在再難免的。然而,搜索引擎怎么樣識別重復信息呢?怎么樣判斷哪些網頁的信息是原創的,哪些是“復制”的?又會認為哪些重復的信息是有價值的,哪些又是可以舍棄的?下面我們來詳細講解。

    在網站中,重復信息主要包括轉載內容及鏡像內容兩大類。搜索引擎在對頁面進行分析時,必須具備識別重復信息的能力。因為,大量的重復信息不但占用巨大的服務器硬盤空間,而且還會增加用戶找信息的時間,影響用戶體驗。但這并不意味著所有重復信息都是沒有價值的,搜索引擎認為轉載內容不如原創內容重要,賦予原創性內容頁面更高的權重,而鏡像內容則幾乎完全被忽略。

    ■轉載頁面

    轉載頁面是指那些與原創頁面正文內容相同或者相近的頁面。然而,搜索引擎如何識別轉載頁面呢?首先,把網頁正文內容分成N個區域,如果有M個區域是相同或者相似的,則搜索引擎認為這些頁面互為轉載頁面。

    在確定頁面的互為轉載關系后,接下來,搜索引擎再結合頁面的最后修改時間、頁面權重等因素判斷是原創頁面還是轉載頁面。

    ■鏡像頁面

    內容完全相同的頁面互為鏡像頁面。要判斷頁面是否互為鏡像頁面,搜索引擎首先把這些頁面分成N個區域進行比較,如果這N個區域的內容都完全一樣,則認為這些頁面互為鏡像頁面。然后再綜合多項因素,如頁面權重值、頁面最后修改時間等識別哪個是源頁面,哪個是鏡像頁面。

    ■鏡像網站

    狹義的鏡像網站是指內容完全相同的網站,形成鏡像網站的主要有兩種情況:每一種是多個域名或者IP指向同一服務器的同一個物理目錄另一種是整個網站內容被復制到使用不同域名或者IP的服務器上。

    為了識別站點是否互為鏡像網站,搜索引擎首先判斷這些網站的首頁以及與首頁直接鏈接的頁面是否互為鏡像頁面。如果是,則互為鏡像網站。然后再綜合多項因素如網站權重值、建立時間等識別哪個是源網站,哪個是鏡像網站。這些,以后抓取頁面就集中在源網站中進行,這也是為什么搜索引擎對于鏡像網站只收錄極少頁面,甚至不收錄頁面的原因。

5、頁面維護方式

    由于搜索引擎不可能一次性抓取到網站中所有的頁面,而且網站中頁面的數量也會不斷地變化,內容也在不斷地更新。因些,搜索引擎還需要對已抓取的頁面進行維護,以便能及時獲取頁面中最新的信息及抓取更多的新頁面。常見頁面維護方式包括:定期抓取、增量抓取及分類定位抓取。

    ■定期抓取

    定期抓取也稱為周期性抓取,即搜索引擎周期性地對網站中已收錄的頁面進行全面全新。更新時,用抓取到的新頁面替換原有的舊頁面,刪除不存在的頁面,并存儲新發現的頁面。周期性更新針對的是全部已收錄的頁面。因此更新周期會比較長。

    定期抓取算法的實現相對簡單。由于每次更新涉及網站中所有的已收錄的頁面,因此頁面權重的再分配也是同步進行的。這種方式適用于維護頁面較少、內容更新緩慢的網站。但是,由于更新周期十分漫長,這就導致不能及時向用戶反映更新期間頁面的變化情況。例如,某個頁面內容更新后,需要在1到2兩個月才能在搜索引擎上面有所體現。

    ■增量抓取

    增量抓取是通過對已抓取的頁面進行定時監控,實現對頁面的更新及維護。但是,對網站中的每個頁面都進行定時監控的做法是不現實的?;谥匾撁鏀y帶重要內容的思想以及80/20法則,搜索引擎只需要對網站中部分重要頁面進行定時監控,即可獲取網站中相對重要的信息。因些,增量抓取只針對某些重要頁面,而非所有已收錄的頁面,這也是為什么搜索引擎對重要頁面的更新周期會理智的原因。例如,內容經常更新的頁面,搜索引擎也會經常對其進行更新,從而可以及時發現新內容、新鏈接,并刪除不存在的信息。

    由于增量抓取是在原有頁面的基礎上進行的,因此會大大的縮減搜索引擎的抓取時間,而且還可以及時向用戶展示頁面中最新的內容。

    ■分類定位抓取

    與增量抓取由頁面重要性決定不同,分類定位抓取是指根據頁面的類別或者性質頁制定相應更新周期的頁面監控方式。例如,對于“新聞資訊”與“資源下載”這兩類頁面,新聞資訊類頁面更新周期可以精確到每分鐘,而下載類頁面的更新周期就可以定為一天或者更長。

    分類定位抓取對不同類別的頁面進行分開處理,這樣就可以節省大量的抓取時間,并大大提高了頁面內容的實時性,也增強了頁面抓取的靈活性。但是,按照類別而制定頁面更新周期的方式比較籠統,很難跟蹤頁面的更新情況。因為即使是相同類別的頁面,在不同網站上內容的更新時間也會存在很大的差別。例如新聞類頁面,在大型門戶網站中內容的更新速度就會比其他小型網站快得多。所以,還需要結合其他的方式如增量抓取等對頁面進行監控、更新。

    實際上,搜索引擎對網站中頁面的維護也是結合多種方式進行,相當于間接為每一個頁面選擇最合適的維護方式。這樣,既可以減少搜索引擎的負責,又可以為用戶提供及時的信息。

    例如在一個網站中,會存在多種不同性質的頁面,常見的包括首頁、論壇頁面、內容頁面等。對于更新比較頻繁的頁面(如首頁),可以使用增量抓取方式對其進行監控,這樣就可以對網站中相對重要的頁面進行及時更新;而對于實時性非常高的論壇頁面,則可以采用分類定位的抓取方式;為了防止遺漏網站中的某些頁面,還需要采用定期抓取的方式。

6、頁面存儲

    在之前的內容里,我們已經知道了搜索引擎對頁面的抓取及維護方式。接著,我們還要了解一下搜索引擎在抓取頁面后,需要存儲哪些信息才能滿足接下來的工作對數據的需求。

    頁面是搜索引擎對網站進行信息處理的基礎,搜索引擎大部分工作都是在頁面上開展的。但是,僅僅依靠頁面中的內容并不能滿足搜索引擎對數據處理的需求。搜索引擎能否在抓取頁面的過程中獲得更多有價值的信息會直接影響搜索引擎的工作效率及排序結果的質量。所以,搜索引擎在抓取頁面蝗,除了存儲原始頁面之外,還會附加一系列的信息,比如文件類型、文件大小、最后修改時間、URL、IP、地址、抓取時間等,再把這些信息作為開展某項工作的依據。例如,如果某個文件過大,就可能會被搜索引擎放棄索引;而最后修改時間則暗示了頁面更新的日期等。


標簽:  

SEO教程網

猜你喜歡

發表評論

必填

選填

選填

必填,不填不讓過哦,嘻嘻。

記住我,下次回復時不用重新輸入個人信息

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

站長推薦的文章
瀏覽最多的文章
無覓相關文章插件,快速提升流量 体彩app官方网站