创建robots.txt,给爬虫指一条明路

这里不在讲创建robots.txt文件的好处了,看用法

robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(爬虫)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一系列选项,然后将其上传到网站根目录即可。设置如下:

User-agent: * 意思是:允许所有的搜索引擎的机器人(Spider)访问本站,

Disallow: /wp- 不允许爬行以“wp-开头”的文件和目录

Disallow: /?feed 不允许爬行以“?feed开头”的订阅信息

Disallow: /ck/work/ 不允许爬行work目录下的内容

Disallow: .rar$ 不允许爬行压缩文件

Disallow: .zip$

Allow: /  表示允许爬行所有目录

大家需要针对自己页面模板的设置,来写出自己的robots.txt,例如大部分模板都采用的/trackback/目录和/comments/feed/目录,也是需要屏蔽爬行的。