首页 > Other > robots.txt的功能和写法详解

robots.txt的功能和写法详解

首先,让我们了解robots.txt的基本功能和作用

一个robots.txt是一个文本文件名为robots.txt(完全一致),位于网站的根目录。 robots.txt是一个面向网络蜘蛛或机器人,它们可以或不可以抓取网站的页面或目录协议。

没有robots.txt对于搜索来说是不友好的。google会认为该网站制作不全,而且会抓取所有页面,很有可能会造成重复内容,以及产生低质量网页。

roboot.txt由及部分组成

1. 要作用于的搜索爬虫蜘蛛名字

1 User-agent: * Disallow: /1.html

这个是作用于所有蜘蛛;

还可以定义特别一个搜素,

eg:google

1 User-agent: Googlebot Disallow: /1.html

你可以查看各个搜索蜘蛛的详细数据

google蜘蛛:Googlebot

百度蜘蛛:Baiduspider

yahoo蜘蛛:Slurp

alexa蜘蛛:Ia_archiver

bing蜘蛛:Msnbot

ask蜘蛛:Teoma

有道蜘蛛:YodaoBot和OutfoxBot

都是首字母大写咯。。

2.规则

阻止蜘蛛爬行目录中的一个文件

1 User-agent: * Disallow: /folder/1.html

阻止目录下的所有页面

1 User-agent: * Disallow: /folder/

阻止目录页

1 User-agent: * Disallow: /folder

$ 结束符

eg:

1 User-agent: * Disallow: .php$

屏蔽所有的以.php结尾的文件.

Allow使用

1
2
3
User-agent: *
Allow: /a/.htm$
Disallow: /a/

屏蔽a文件夹下所有页面,htm的除外

通配符使用

1 User-agent: * Disallow: /*&alpha_filter_id=

每一个带&alpha_filter_id=的链接讲不会被爬过

robots.txt的一个重要功能 告诉搜索 sitemap 文件位置。 eg: Sitemap: http://www.wjzhb.com/sitemap.xml

一般需要disallow的页面是被google收录也不会对访问者有用的哪些页面,比如 login,account。
注意有的人说后台也不需要收录,但是首选安全上考虑,别人一 看robots.txt文件就能知道后台地址安全就大打折扣了,其次如果没有其他链接链到 后台页面,蜘蛛是不可能发现后台页面的,因为一个没有链接链入的孤岛google是发 现不了,也就没必要在robots文件里特别加上了。

分类:Other
  1. 还没有评论。
  1. No trackbacks yet.

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: