加入收藏RSS訂閱SEO教程 SEO優化 SEO自學 網站優化
你的位置:首頁 ? SEO教程 ? 正文

蜘蛛抓取分析教程,教你分析蜘蛛的抓取特征了解網站運行情況!

選擇字號: 超大 標準 發布時間:2014-10-18 19:49:13 | 作者:Searcheo | 0個評論 | 人瀏覽

本文地址:http://www.umpuhz.live/post/474.html 轉載請注明出處!

  在日常的網站運行和維護中,我們常常需要通過空間的www日志來了解蜘蛛的抓取情況,并對平時的工作作出調整,以下將一步一步的讓你充分了解日志的設置方式以及蜘蛛的抓取特征分析讓您充分了解每一個參數的含義并作為自己調整和修改的參考。

  第一:需要確認自己的虛擬主機或者服務器開啟了日志功能,一般的虛擬空間商的控制面板中都有www日志的記錄功能,并提供站長們下載和分析,以下是編者使用的一個日志樣式,因為每一個空間商不同其操作的順序和方式不僅相同,此處僅作一個參考。

  首先點擊圖一 或進入到圖二中的界面,點擊下載weblog日志就會出現圖三 圖四的界面,圖四里面的每一個txt都是以年-月-日來命名的,并且記錄了日志的大小,點擊查看就能看到詳細的信息。

  第二:在代碼中 查到蜘蛛的痕跡,因為一個txt日志都是數百k,上千行,所以每條去檢查是不現實的,我們需要充分了解蜘蛛的特征并通過查詢功能快速的定位,因為蜘蛛的代 碼是spider,所以當檢索spider時將出來所有的蜘蛛的來訪情況,比如百度,google,360等等,而百度蜘蛛的特征是 baiduspider,我們這里著重講解百度蜘蛛的情況。

  我們先用記事本打開下載的txt文檔,并通過編輯查找功能來快速的檢索,在檢索框中輸入baidu,并按確認就能找到百度蜘蛛的抓取代碼

  第三:找到百度蜘蛛的抓取行以后針對每一個參數,編者進行講解并將對應的情況進行說明(參看示例圖)。

  參數1:這是百度蜘蛛來抓取內容的時間,這個時間一般和電腦時間相差8個小時,這主要是日志時間使用的是格林威治時間,與北京時間相差8小時;即您需要將時間加8小時才是對應的北京時間,所以參數1所示的蜘蛛來抓取的時間是 5月23日13時8分。

  參數2:抓取內容的方式, get表示抓取的意思后面緊接著的/index.html是被抓取的頁面,這里表示蜘蛛來抓去了首頁, 如果get 后面是 /-- 則表示蜘蛛沒有抓取任何東西,這時候需要引起網站維護人員的注意,你的內容或者是有問題,或者網站的首頁布局,或者是內容文章等有問題,需要具體問題具體分析。

   參數3:這個是蜘蛛來抓取內容時候服務器的ip地址,因為現在非常多的域名是使用cname的方式來解析的,所以很多站長根本都不知道自己的網站的ip 是多少,而這個ip就是空間商讓蜘蛛來抓取內容的ip,當你網站有問題時候可以通過查這一ip上的網站的個數與收錄情況等來判斷自己是否受到牽連。

  參數4:這個參數是表示協議狀態,通常200表示正常,404表示找不到文件,500表示內部服務器錯誤,一般網站所有頁面都應該是200才正確,如果改版則一般會出現404錯誤,這里需要根據不同的返回值去查詢具體的原因

  題外話:每一位站長的新網站上線以后都在焦急的等待蜘蛛來抓取并索引,以讓自己的網站有好的排名, 但是現在的百度蜘蛛對于新網站的審查已經非常的嚴格而且時間一般都在20天以上,所以想要被百度蜘蛛來抓取內容和獲得好的排名已經越來越困難,隨著蜘蛛智 能化程度越來越高,想通過蒙騙或者黑帽的手法來騙得蜘蛛的信任已經不太容易,而且即使得手了也會在百度的反作弊中心的后期對網站的深度檢查中被發現并將作 弊網站根據作弊程度做相應的頂格懲罰,所以奉勸站長們還是踏實做站,潛心做一個白帽高手,讓你維護的企業網站排名無憂。


標簽:

SEO教程網

猜你喜歡

發表評論

必填

選填

選填

必填,不填不讓過哦,嘻嘻。

記住我,下次回復時不用重新輸入個人信息

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

站長推薦的文章
瀏覽最多的文章
無覓相關文章插件,快速提升流量 体彩app官方网站