加入收藏RSS訂閱SEO教程 SEO優化 SEO自學 網站優化
你的位置:首頁 ? SEO教程 ? 正文

搜索引擎如何識別原創文章

選擇字號: 超大 標準 發布時間:2014-7-10 15:34:11 | 作者:Searcheo | 0個評論 | 人瀏覽

本文地址:http://www.umpuhz.live/post/84.html 轉載請注明出處!

搜索引擎如何識別原創文章

關于搜索引擎如何識別原創文章,我們首先要了解搜索引擎是如何收錄文章的。

提取文字

  現在的搜索引擎還是以文字內容為基礎。蜘蛛抓取到的頁面中的HTML 代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的HTML 格式標簽、Javascript 程序等無法用于排名的內容。搜索引擎預處理首先要做的就是從HTML 文件中去除標簽、程序,提取出可以用于排名處理的網頁面文字內容。除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼,如Meta 標簽中的文字,圖片替代文字,Flash 文件的替代文字,鏈接錨文字等。

中文分詞

  搜索引擎存儲和處理頁面,以及用戶搜索都是以詞為基礎,因此搜索引擎必須首先分辨哪幾個字組成一個詞,哪些字本身就是一個詞!搜索引擎對頁面的分詞取決于詞庫的規模、準確性和分詞算法的好壞,SEO 人員可以使用H、B、strong等特殊標簽或者其他方式將詞語標注出來確保搜索引擎將咱要做的關鍵字當初一個詞來對待。分詞是中文搜索引擎的基本,比如“瑜伽練習”將被分詞為“瑜伽”和“練習”兩個詞,常見的中文分詞方法有2種——統計匹配和詞典匹配!

基于統計匹配

  基于統計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現的統計概率,幾個字相鄰出現越多,就越可能形成一個單詞?;诮y計的方法優勢是對新出現的詞反應更快速,也有利于消除歧義。

基于詞典匹配 

  基于詞典匹配的方法是指,將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已 有的詞條則匹配成功,或者說切分出一個單詞。按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長度優先級的不同,又可以分為最大匹配 和最小匹配。將掃描方向和長度優先混合,又可以產生正向最大匹配、逆向最大匹配等不同方法。詞典匹配方法計算簡單,其準確度很大程度上取決于詞典的完整性 和更新情況。

去停止詞

  頁面內容中出現的“的”“啊”“哈”之類頻率很高卻對內容沒有任何意義的詞,將會去處理掉。像這種頻率很高卻對內容沒有任何意義的詞被稱為停止詞,搜索引擎在索引頁面之前會去掉這些停止詞,減少無謂的計算量。

消除噪聲

  頁面上有一部分內容對頁面主題也沒有什么貢獻,比如版權聲明文字、導航條、廣告等,這些區塊屬于噪聲,對頁面主題只能起到分散作用。因此搜索引擎需要識別并消除這些噪聲,消噪的基本方法是根據HTML 標簽對頁面分塊,區分出頁頭、導航、正文、頁腳、廣告等區域,在網站上大量重復出現的區塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內容。

去重

  在分詞、去停止詞、消噪之后,搜索引擎還需要對文章進行去重處理!大家都同一篇文章經常會重復出現,如果用戶搜索時看到的都是同一篇文章,用戶體驗就太差了。因此搜索引擎希望只返回相同文章中用戶體驗最好、內容也最相關的一篇,所以需要識別和刪除重復內容,這個過程就稱為去重。去重的基本方法是對頁面特征關鍵詞計算指紋,也就是說從頁面主體內容中選取最有代表性的一部分關鍵詞(經常是出現頻率最高的關鍵詞),然后計算這些關鍵詞的數字指紋。

  筆者需要指出的是,搜索引擎畢竟是電腦,還有許多算法漏洞,不可避免的造成很多誤殺,當然也成全了很多漏網之魚。就像相處很火的某某偽原創軟件,可讀性真的是NB啊,不過隨著算法的逐漸完善,一切問題都不是問題,但是要記住,沒有做不到的,只有想不到的……理解了搜索引擎對頁面經常的預處理,大家是不是想出了自己的一套對策呢?所謂上有政策,下有對策嘛!


標簽:    

SEO教程網

猜你喜歡

發表評論

必填

選填

選填

必填,不填不讓過哦,嘻嘻。

記住我,下次回復時不用重新輸入個人信息

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

站長推薦的文章
瀏覽最多的文章
無覓相關文章插件,快速提升流量 体彩app官方网站