加入收藏RSS訂閱SEO教程 SEO優化 SEO自學 網站優化
你的位置:首頁 ? SEO教程 ? 正文

SEO教程之網站日志分析方法

選擇字號: 超大 標準 發布時間:2014-8-12 15:35:18 | 作者:Searcheo | 0個評論 | 人瀏覽

本文地址:http://www.umpuhz.live/post/184.html 轉載請注明出處!

通過網站日志可以清楚的得知訪客和服務端等應用是否正常運行,或者存在哪些缺陷,失效組件等信息。

對于專業從事搜索引擎優化工作者而言,網站日志可以記錄各搜索引擎蜘蛛機器人爬行網站的詳細情況,例如:哪個IP的百度蜘蛛機器人在哪天訪問了網站多少次,訪問了哪些頁面,以及訪問頁面時返回的HTTP狀態碼。


日志分析

從網站上下載下的網站日志,在txt文本中就可以看到以下數據:

117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"

分析:

117.26.203.167 訪問ip

02/May/2011:01:57:44 -0700 訪問日期 -時區

GET/index.php HTTP/1.1 根據HTTP/1.1 協議 抓?。ㄓ蛎拢?index.php 這個頁面(GET表示服務器動作)

500 服務器響應狀態碼

服務器響應狀態碼通常狀態碼有以下幾種:200,301,302,304,404,500等。200代表用戶成功的獲取到了所請求的文件,如果是搜索引擎,則證明蜘蛛在這次爬行中順利的發現了一些新的內容。而301則代表用戶所訪問的某個頁面url已經做了301重定向(永久性)處理,302則是暫時性重定向。404則代表所訪問的頁面已經不存在了,或者說訪問的url根本就是個錯誤的。500則是服務器的錯誤。

19967 表示抓取了19967個字節

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示訪問者使用火狐瀏覽器及Alexa Toolbar 等訪問端信息

如果你的日志里格式不是如此,則代表日志格式設置不同。

很多日志里可以看到 200 0 0和200 0 64 則都代表正常抓取。

抓取頻率是通過查看每日的日志里百度蜘蛛抓取次數來獲知。抓取頻率并沒有一個規范的時間表或頻率數字,我們一般通過多日的日志對比來判斷。

當然,我們希望百度蜘蛛每日抓取的次數越多越好。


日志語法

#Software: Microsoft Internet Information Services 6.0 #Software:表示軟件名稱

  #Version: 1.0 #Version:表示版本號

  #Date: 2013-03-13 00:05:17 #Date:表示時間

  #Fields:說明如下#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken 

  date:表示記錄訪問日期; 2013-03-13

  00:05:17 time:訪問具體時間 

  W3SVC212 s-sitename:表示你的虛擬主機的代稱或機器碼

  116.255.196.2529s-ip:服務器IP 

  GET cs-method:表示訪問方法或發生的請求/提交事件,常見的有兩種:一個是GET,就是平常我們打開一個URL訪問的動作,另一個是POST,提交表單時的動作

  /xiaohuxingzhuangxiuxiaoguotu/218.html cs-uri-stem:用戶在當前時間訪問哪一個文件或具體頁面

  - cs-uri-query:是指訪問地址的附帶參數,如asp文件?后面的字符串id=12等等,如果沒有參數則用“-”表示

  80 s-port:訪問的端口

  - cs-username:訪問者名稱,如果沒有參數則用“-”表示

  218.30.103.86c-ip:訪問者IP

  Sogou+web+spider/4.0 cs(User-Agent):訪問的搜索引擎和蜘蛛名稱

  200sc-status:Http狀態碼,200表示成功,403表示沒有權限,404表示打不到該頁面,500表示程序有錯

  0 子狀態碼 HTTP子協議的狀態.一般來說網站都是不使用子協議的,所以這個代碼為0就是很正常的

  0 win32狀態碼是0,如果被64位系統訪問,那么這里記錄的就是64 sc-substatus:服務端傳送到客戶端的字節大小

  12304 sc-bytes服務端傳送到客戶端的字節大小 服務器發送的字節數

  256 cs-bytes客戶端傳送到服務端的字節大小 服務器接受的字節數

  93 time-taken:time-taken處理時間(一段日志分析到此結束)

  2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET / - 80 - 220.181.108.99 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ )

  2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET /index.html - 80 - 220.181.108.153 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ )  

  http狀態碼后面幾位數據沒有固定格式,如果只有一個表示下載數據字節大小;

  2、Http狀態碼:

  1**:請求收到,繼續處理

  2**:操作成功收到,分析、接受

  3**:完成此請求必須進一步處理

  4**:請求包含一個錯誤語法或不能完成

  5**:服務器執行一個完全有效請求失敗


標簽:

SEO教程網

猜你喜歡

發表評論

必填

選填

選填

必填,不填不讓過哦,嘻嘻。

記住我,下次回復時不用重新輸入個人信息

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

站長推薦的文章
瀏覽最多的文章
無覓相關文章插件,快速提升流量 体彩app官方网站