加入收藏RSS訂閱SEO教程 SEO優化 SEO自學 網站優化
你的位置:首頁 ? SEO教程 ? 正文

百度官方問答集錦系列7之蜘蛛

選擇字號: 超大 標準 發布時間:2014-10-20 9:53:41 | 作者:Searcheo | 0個評論 | 人瀏覽

本文地址:http://www.umpuhz.live/post/537.html 轉載請注明出處!

百度數據更新的周期大概是多長?

    如果是一個變化頻繁的入口索引頁面,相信這個變化周期會很短;而是相對穩固的內容型頁面,周期則會相對較長。站長們觀察一下蜘蛛的爬取日志,發現的規律會比這邊的說明更有價值。此外,搜索結果頁上的那個時間,一直很讓人confusing,我們正在考慮修改。

HTTPS的網頁網頁被收錄一般來說,網站所有者不是太希望 https 的網頁被收錄。如果收錄了,如果處理?把 https 的網頁URL更換成 http 形式的?

    如果不希望被收錄,常規的做法是設置robots文件。https主要的出發點是安全,并沒有太多考慮搜索引擎。從用戶角度,很多采用了https的站點 (尤其是首頁)

    也是需要被搜索到的,比如支付寶,貝寶等。通常情況下,搜索引擎對這類網頁并不做內容解析,而只是將url進行索引。

百度是否能正常抓到網頁的中Unicode編碼的文字?

    目前百度對unicode編碼只支持utf8,今后會逐漸增加對其它編碼方案(如utf16)的支持。
ip 地址形式的URL被收錄。
    IP地址的url被收錄,除了spider在機制上的不完善之外,通常站點設計上也有一些缺陷。一般情況下,這類問題是可以被規避的。
    流量被蜘蛛占用,怎么限制它?正常情況下,Baiduspider對一個網站的抓取頻率決定于這個網站產出新內容的速度。一個小網站的抓取頻率遠高于新內容產出速度,通常會是下面這兩種問題有中的一個:
    (1)有其他程序冒充Baiduspider抓取。建議在linux下用host ip命令反解ip來判斷Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。
    (2)網站程序有漏洞,產生了無窮盡的url,被Baiduspider當成了很多新內容而頻繁的抓取。建議分析網站的訪問日志,看看Baiduspider所 抓取的內容是否是你想讓百度收錄的,如果不是則建議修改網站程序或者用robots協議禁止Baiduspider抓取這部分內容。
百度對JS代碼里的鏈接識別么
    我們也希望能解析flash、js里的內容。但目前離理想狀態尚有距離。
請問百度支持通過robots提交Sitemap么?

    暫時還沒這個打算。一般情況下,spider能處理大多數網站的數據抓取和更新,而無須借助sitemap。
option標簽里面的鏈接可以被蜘蛛抓到么?
    可以提取。效果等同于163。
百度是否跟蹤JavaScript鏈接
    知道百度支持nofollow后又有了這個問題,百度是否跟蹤JS鏈接并傳遞權重?因為有的時候某些頁面得到太多權重沒什么意義,比如用戶登錄、注冊頁面 之類的。是否可以用簡單的JS阻擋鏈接傳遞權重。javascript的解析,是很多搜索引擎正在做的事情;同理,對flash的解析。畢竟有那么多應用 javascript或者flash的網站,其實 并沒有意識到,他們的做法給搜索引擎的收錄和索引帶來的麻煩。所以,如果期望不被搜索引擎收錄的話,最直接的手段,還是寫robots文件。
百度的互聯網論壇收錄開放協議現在還有用嗎?
    預告一下,隨著站長平臺的逐步完善,這個問題將會得到比較穩妥、徹底的解決。過去的做法不夠系統。
關于外鏈接入已經被robots.txt屏蔽的URL,爬蟲是否先抓取的問題
    一個url只要被robots屏蔽,baiduspider就不會進行抓取,這是肯定的。就算某個鏈接可以通過外鏈進入到,我們也不會去抓取這個頁面。
百度是否能抓取CSS樣式表并識別分析?
    百度是能夠抓取并分析CSS的。
沒有提交給百度也無反向鏈接為何被百度收錄只要是存在的鏈接都應該收錄,但是蜘蛛能不能抓到是另外的問題了。

    我們把問題明確一下:是否能識別和處理純文本形式的鏈接(非標簽)?答案是可以的,搜索引擎的spider需要及時發現和抓取互聯網上的鏈接,至于鏈接是什么形式,并不重要。
百度是否抓取并且分析代碼中注釋掉的內容
    在html中的注釋內容,會在正文提取環節忽略。
搜索引擎在高峰時段大量抓取頁面,導致服務器出現負載問題。但是我不希望屏蔽它的抓取,應該如何處理?能否在高峰時段對spider返回 202 狀態碼,告知spider“服務器已接受請求,但尚未處理?!??這會對網站造成什么影響?
    會延遲百度對新網頁的收錄速度。正常情況下,Baiduspider的抓取頻率大致上和網站新資源產生的速度相符,并不會給網站帶來很大的壓力。但現在網 站結構通常都比較復雜,多種url形式指向的可能是相同的內容,或者會自動產生大量無檢索價值的網頁。我們目前發現的問題,主要來源于此,建議先分析一下 spider的抓取日志,看看是否抓取了你不希望搜索引擎收錄的形式,如果有,robots掉它們可以節省大量的資源。
網站首頁有更新 但是看iis日志 還是出現304狀態碼
    如果日志中記錄的是304,說明baidupdier并沒有真正獲取更新這個頁面,但是返回304是網站站點服務器的行為,我們無法確定具體是什么問題導 致的。對于首頁這樣的重要頁面,baiduspider很可能會一天訪問多次,如果其中只是有部分304的話,很可能是正常的。
為什么有些站每天不更新反而百度的快照天天新。有些站提供原創內容每天更新反而百度快照不更新。
    前面曾經說過,我們內部也對結果頁上的時間戳(在url后面)很糾結,有計劃整改。實際上有的搜索引擎早已經把這個時間戳去掉了,而代之以網頁更新的實際 時間。這個時間戳既然給內部人員也帶來了困擾,那么對站長和用戶,顯見也是有困擾的。所以,我的建議是不必太過關注這個時間戳。如果期望看到精確的 spider行為,最直接的手段是分析網站日志。我個人覺得站長如果想做出點名堂,一些起碼的技術手段還是要會的,數據分析對SEM極端重要。而不要動輒 用“草根”來給自己開脫。
以前百度顯示網頁體積的時候最大是125K,超過這個范圍快照顯示就不正常,是不是意味著網頁體積大于125K就對搜索引擎的抓取或收錄有影響了?
    頁面大小和搜索引擎的抓取之間沒有直接關系。但我們建議網頁(包括代碼在內)不要過大,過大的網頁會有抓取截斷;而內容部分,也不要過大,過大會被索引截斷。當然,抓取截斷的上限,會遠大于索引截斷的上限。
在百度快照里頁面沒有顯現完整,首頁底部(友情鏈接及版權信息那塊)代碼和頁面都沒在快照中出現,那么友情鏈接對其他網站還有用嗎?
    這種情況不會影響友情鏈接。另外,我們建議盡量將頁面大小控制在合適范圍內。補充一下,cache只是顯示一部分。而底部鏈接提取只和該網頁是否被抓全有關。百度spider抓取的網頁文件非常之大,鏈接提取完全不必擔心。
百度建議URL靜態化嗎?還是像Google一樣,不建議URL靜態化?對偽靜態怎樣看待?和真的靜態文件一樣嗎?
    對URL的動靜態,沒有歧視政策。之所以以前有過提倡靜態的說法,是因為很多動態URL,帶了很多參數,而實質上內容是一樣的。這個給spider以及站 長都帶來不必要的麻煩。我們在這上邊花了不少精力。所以,總的原則就是,URL的動靜態無所謂,只是盡可能的避免重復即可。但是動態url也不要動態得太 變態,搞幾十個參數,那會嚇著蜘蛛。醞釀中的sem指南,會有對url優化方面的詳細說明。

文章來源:SEO培訓的新浪博客

標簽:  

SEO教程網

猜你喜歡

發表評論

必填

選填

選填

必填,不填不讓過哦,嘻嘻。

記住我,下次回復時不用重新輸入個人信息

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

站長推薦的文章
瀏覽最多的文章
無覓相關文章插件,快速提升流量 体彩app官方网站