创建robots.txt,给爬虫指一条明路
这里不在讲创建robots.txt文件的好处了,看用法
robots.txt 是一个标准文档,意在阻止搜索引擎的Spider(爬虫)从您的 Web 服务器下载某些或全部信息,控制Spider的搜索范围。robots.txt的设置很简单,只要用记事本或其他文本编辑器,依照自己的网站需求,设定一系列选项,然后将其上传到网站根目录即可。设置如下:
User-agent: * 意思是:允许所有的搜索引擎的机器人(Spider)访问本站,
Disallow: /wp- 不允许爬行以“wp-开头”的文件和目录
Disallow: /?feed 不允许爬行以“?feed开头”的订阅信息
Disallow: /ck/work/ 不允许爬行work目录下的内容
Disallow: .rar$ 不允许爬行压缩文件
Disallow: .zip$
Allow: / 表示允许爬行所有目录
大家需要针对自己页面模板的设置,来写出自己的robots.txt,例如大部分模板都采用的/trackback/目录和/comments/feed/目录,也是需要屏蔽爬行的。