Robots是网站的一个文件,但不是必须的。如果是,则可以正确设置。告诉搜索引擎哪些可以抓取,哪些不可以。所有的主流搜索引擎都遵守robots协议,站长可以选择哪些可以收录,哪些不想收录。
Robots.txt必须放在网站的根目录下,文件名必须全小写。
User-agent:用于声明蜘蛛的名称(注意区分大小写)
Google: Googlebot百度蜘蛛:Baidu spider雅虎蜘蛛:Slurp bing蜘蛛:Bingbot搜狗蜘蛛:搜狗蜘蛛有道蜘蛛:YodaoBot
Disallow:用于声明不希望被爬网的URL或文件。
示例:Disallow: /admin/是admin目录下的文件。
不允许: /abc/*。禁止html抓取ABC目录下所有带html后缀的文件。
不允许:/*。jpg$禁止攀爬所有jpg图片。
$ ‘匹配行结束符。* ‘匹配0个或多个任意字符。
Allow的用法与Disallow相同,只是DisAllow是禁止的,Allow是允许的。
请务必注意,Allow和Allow行的顺序是有意义的。机器人将根据允许或不允许行的第一次成功匹配来确定是否访问URL。