加入收藏RSS訂閱SEO教程 SEO優化 SEO自學 網站優化
你的位置:首頁 ? SEO教程 ? 正文

Robot.txt用法詳解及robot.txt問題匯總

選擇字號: 超大 標準 發布時間:2014-8-25 17:19:55 | 作者:Searcheo | 0個評論 | 人瀏覽

本文地址:http://www.umpuhz.live/post/231.html 轉載請注明出處!

Robot.txt用法詳解及robot.txt問題匯總

    搜索引擎通過一種程序robot(又稱spider),自動訪問互聯網上的網頁并獲取網頁信息。您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內容。

 

什么是Robot.txt?

    Robot.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內容。

 

Robot.txt放在哪里?

    Robot.txt放在網站的根目錄,搜索引擎蜘蛛訪問網站準備抓取網站信息的時候,搜索引擎蜘蛛會先檢查網站根目錄是否存在Robot.txt文件,如果存在就會根據Robot.txt文件限制的內容來訪問抓取網站信息。

 

Robot.txt怎么用?Robot.txt語法是什么樣的?Robot.txt文件怎么寫?

這里我們先來看看百度百科的說法:

“robots.txt”文件包含一條或多條記錄,這些記錄通過空行分開(以CR、CR/NL、or NL作為結束符),每一條記錄的格式如下所示:

“<field>:<optionalspace><value><optionalspace>”

在該文件中可以使用#進行注釋,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,詳細情況如下:

User-agent:

該 項的值用于描述搜索引擎機器人robot的名字。在“robots.txt”文件中,如果有多條 User-agent記錄,說明有多個robot會受到該協議的約束。所以,“robots.txt”文件中至少要有一條User- agent記錄。如果該項的值設為*(通配符),則該協議對任何搜索引擎機 器人均有效。在“robots.txt”文件 中,“User-agent:*”這樣的記錄只能有一條。

Disallow:

該項的值用于描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以 是部分的,任何以Disallow開頭的URL均不會被robot訪問到。例如:

“Disallow: /help” 對/help.html 和/help/index.html都不允許搜索引擎訪問, 而“Disallow: /help/”則允許robot訪問 /help.html,而不能訪問/help/index.html。

任何一條Disallow記錄為空,說明該網站的所有部分都允許被訪問,在“/robots.txt”文件中,至少要有一條Disallow記錄。如果“/robots.txt”是一個空文 件,則對于所有的搜索引擎robot,該網站都是開放的


    這里,來解釋得通俗一點。

    對于Robot.txt文件要怎么用,我們只需要記住兩個單詞User-agent和Disallow。 User-agent的用法是“User-agent:搜索引擎蜘蛛名”,意思是Robot.txt文件里面的規則對User-agent:后面的搜索引擎蜘蛛有效,如果后面跟的是“*”,則表示對所有的搜索引擎蜘蛛都有效。注意這里的“:”是英文輸入法狀態下的。而且,Robots.txt文件中至少要有一條User-agent記錄。

    例:

    User-agent:Baiduspider ,就是針對百度蜘蛛進行的協議約束。

    User-agent:* ,是指Robots.txt協議對任何搜索引擎蜘蛛都有效。


    Disallow,這項值是用來描述不希望被搜索機器人訪問到網址。這個網址可以是完整的路徑,也就是域名加上目錄名或者文件名的格式,也可以是相對,也就是除去了域名,只有文件名或者目錄名。注意:一個Disallow的對應一個文件或者目錄,有多少個目錄或者文件需要設置就寫幾個Disallow的。

    例:

    User-agent:* 

    Disallow:/help/

    Disallow:/style/

    Disallow:http://www.xxx.com/help/

    Disallow:/plus/ad_js.php

    Disallow:/include

    以上寫法都是正確的,第一行表示是指Robots.txt協議對任何搜索引擎蜘蛛都有效;第二行表示禁止搜索引擎對help目錄抓??;第四行與第二行的作用是一樣的;第五行表示禁止對plus目錄下的ad_js.php文件抓??;第六行表示禁止對include文件夾抓取。

    更多示例及解釋如下:

    允許所有的robot訪問

    User-agent: *

    Disallow:


    或者也可以建一個空文件 "/robots.txt" file

    禁止所有搜索引擎訪問網站的任何部分

    User-agent: *

    Disallow: /


    禁止所有搜索引擎訪問網站的幾個部分(下例中的01、02、03目錄)

    User-agent: *

    Disallow: /01/

    Disallow: /02/

    Disallow: /03/


    禁止某個搜索引擎的訪問(下例中的BadBot)

    User-agent: BadBot

    Disallow: /


    只允許某個搜索引擎的訪問(下例中的Crawler)

    User-agent: Crawler

    Disallow:

    User-agent: *

    Disallow: /

 

Robots META標簽是什么?Robots META標簽怎么用?

    Robots META標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots META標簽也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。

 

Robots META標簽的寫法:

    Robots META標簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。

    INDEX 指令告訴搜索機器人抓取該頁面;

    FOLLOW 指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;

    Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對于它,缺省值是INDEX,NOFOLLOW。

    這樣,一共有四種組合:
    <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

    <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

    <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

    <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

    <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="ALL">;

    <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="NONE">

    目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對于Robots META標簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以 限制GOOGLE是否保留網頁快照。例如:

    <META NAME="googlebot" CONTENT="index,follow,noarchive">

    表示抓取該站點中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網頁快照。

 

以上就是關于Robot.txt的詳解和用法,對于自己寫Robot.txt還有問題的SEOER,可以訪問http://tool.chinaz.com/robots/ 在線生成Robot.txt文件。

標簽:

SEO教程網

猜你喜歡

發表評論

必填

選填

選填

必填,不填不讓過哦,嘻嘻。

記住我,下次回復時不用重新輸入個人信息

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

站長推薦的文章
瀏覽最多的文章
無覓相關文章插件,快速提升流量 体彩app官方网站