加入收藏RSS訂閱SEO教程 SEO優化 SEO自學 網站優化
你的位置:首頁 ? SEO教程 ? 正文

搜索引擎工作原理之網頁分析,搜索引擎對網頁的分析

選擇字號: 超大 標準 發布時間:2014-8-14 10:48:51 | 作者:Searcheo | 0個評論 | 人瀏覽

本文地址:http://www.umpuhz.live/post/190.html 轉載請注明出處!

頁面抓取只是搜索引擎工作的一個基礎環節,頁面抓取回來后并不代表搜索引擎馬上就能向終端用戶提供查詢服務。因為,用戶在使用搜索引擎進行井底時,使用的是一個詞或者短語,而到目前為止,搜索引擎僅能提供整個個原始頁面,還不能返回與用戶查詢條件相匹配的信息。因此,搜索引擎需要對原始頁面進行一系列的分析、處理,以迎合用戶信息查詢的習慣如下面圖示,搜索引擎首先對存儲的原始頁面建立索引,再過濾原始網頁的標簽信息,從中提取出網頁中的正文內容;然后,對正文內容進行切詞,并建立關鍵詞索引,得到了頁面與關鍵詞間的對應關系;最后對所有的關鍵詞進行重組,從而建立關鍵詞與頁面間的對應關系。



1、網頁索引

為了提高頁面檢索的效率,搜索引擎需要對抓取回來的原始頁面建立索引,由于URL就是頁面入口地址,為原始頁面建立索引實際上就是為頁面的URL建立索引,這樣就可以實現根據URL快速定位到對應頁面。

2、網頁分析

網頁分析是整個網頁處理中最重要的環節,包括了網頁正文信息的提取、切詞、建立關鍵詞索引列表及關鍵詞重組幾個重要的步驟。結果形成了一個關鍵詞對應多個原始頁面的關系,即形成了與用戶查詢習慣相符合的信息雛形。

■正文信息提取

網頁正文信息的提取實際上就是對網頁中非正文信息的過濾。其中,最為重要的就是對網頁中標簽信息,如html標簽、js標簽,php標簽的過濾。經過標簽過濾后,搜索引擎就可以得到網頁的正文信息。

■分詞/切詞

經過對原始頁面提取正文信息后,搜索引擎就可以得到頁面的實質內容。而為了得到與用戶查詢相關的數據,搜索引擎還需要對頁面中的內容進行切分,也就是我們常說的“分詞”或者“切詞”,從而形成與用戶查詢條件相匹配的以關鍵詞為單位的信息列表。

每個搜索引擎的切詞系統都會存在或多或少的差別,分詞系統的優劣主要取決于開發者對語言的理解能力。在中文語言環境里,切詞算法直接影響網頁經過分詞處理后會產生什么樣的關鍵詞,而這些關鍵詞是否與用戶的搜索習慣一致。因而,切詞的結果直接決定搜索引擎能否提供與用戶查詢條件相匹配的信息。

在中文環境里,常見的分詞方法包括字符串匹配分詞及統計分詞兩種,下面簡單介紹這兩種中文分詞算法。

(1)字符串匹配分詞。字符串匹配分詞是基于一個足夠大、足夠權威的“詞典”進行的。如果頁面上的詞與“詞典”中的詞匹配,則為命中,這樣就可以得到一個詞或者短語。

(2)統計分詞。統計分詞是根據相鄰兩個(或者多個)字出現的概率判斷這兩個(或者多個)字組合后是否會形成一個詞。統計分詞常常會結合“詞典”一起使用,識別一些新詞匯。例如,像“博客”等一些在傳統中文語言中是不存在的詞匯。

(3)關鍵詞索引。網頁正文信息在經過切詞系統處理后,形成了關鍵詞列表。關鍵詞列表中的每條記錄都包括了譔關鍵詞所在的網頁的編號、關鍵詞編號、關鍵詞出現次數以及關鍵詞在文檔中的位置等信息。

為了提高對關鍵詞的檢索效率,搜索引擎還會為關鍵詞列表建立索引。這樣,對網頁及關鍵詞列表都建立索引后,就可以從一個網頁快速定位到某一關鍵詞。

例如,某個網頁經過信息過濾后得到的內容是“中國廣東省深圳市”;然后,對內容進行切詞后產生關鍵詞“中國”、“廣東省”、“深圳市”,并對關鍵詞建立索引。這樣,根據這個網頁的內容,搜索引擎就可以快速定位到關鍵詞“中國”、“廣東省”或“深圳市”上。

然而,用戶是通過關鍵詞去些承載相應信息的頁面的。所以,還需要對已有信息進行相應的處理,建立關鍵詞與頁面URL間的對應關系表,從而實現根據關鍵詞快速定位到多個頁面的功能,這就是下面所說的“關鍵詞重組”問題。

(4)關鍵詞重組。為了迎合用戶尋找信息的習慣,即要以關鍵詞為條件尋找與關鍵詞相關的頁面,我們需要建立以關鍵詞為主索引的一個關鍵詞對應多個頁面的關系表,即關鍵詞反向索引表。而建立關鍵詞反向索引表最重要的任務,就是對所有頁面中的關鍵詞列表進行重組。

經過之前對關鍵詞建立索引后,已經產生了網頁與關鍵詞的一對多的對應關系。接下來,搜索引擎把所有頁面中的關鍵詞進行重組,并建立關鍵詞索引,從而形成一個不重復的關鍵詞列表集合,即關鍵詞列表中的每個關鍵詞都是唯一的。這樣,通過某一個特定的關鍵詞就可以找到一個或者多個網頁,從而實現根據關鍵詞返回相應頁面的功能。

經過對原始頁面進行分析、處理后,搜索引擎已經可以根據用戶的查詢條件返回相應的頁面列表。但是,簡單地向用戶返回這個頁面列表,往往不能滿足用戶的需要。所以,搜索引擎還會根據頁面與用戶查詢條件相關性的高低,對這個列表進行重新排列,再把這個處理后的列表返回給用戶,這就是后面要介紹的搜索引擎對頁面進行排序的問題。


標簽:  

SEO教程網

猜你喜歡

發表評論

必填

選填

選填

必填,不填不讓過哦,嘻嘻。

記住我,下次回復時不用重新輸入個人信息

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

站長推薦的文章
瀏覽最多的文章
無覓相關文章插件,快速提升流量 体彩app官方网站