跳到主要内容

robots.txt 使用语法

什么是robots.txt文件?

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

Google，雅虎，微软，百度都有各自的标准，如有需要请自行阅读。

如何放置 Robots.txt 文件

robots.txt自身是一个文本文件。它必须位于域名的根目录中并被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效，因为漫游器只在域名的根目录中查找此文件。例如，

URL

http://www.w3.org/

http://www.w3.org/robots.txt

http://www.w3.org:80/

http://www.w3.org:80/robots.txt

http://www.w3.org:1234/

http://www.w3.org:1234/robots.txt

http://w3.org/robots.txt

通用的语法：

Disallow

告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件：

User-agent: *

Disallow: /

Allow

告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用，可以告诉蜘蛛某个目录下，大部分都不抓取，只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件，而只抓取其中cd下的文件：

User-agent: *

Disallow: /ab/

Allow: /ab/cd

$通配符

匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL：

User-agent: *

Allow: .htm$

*通配符

告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件：

User-agent: *

Disallow: /*.htm

备注：

在创建一个 robots.txt 文件之前，有必要考虑一下哪些内容可以被用户搜得到，而哪些则不应该被搜得到。这样的话，通过合理地使用 robots.txt , 搜索引擎在把用户带到您网站的同时，又能保证隐私信息不被收录。robots.txt文件是可以不存在的。

什么是robots.txt文件?
URL
通用的语法：
备注：