文章目录
1什么是Robots.txt文件?2 Robots.txt用法2.1编写Robots文件注意:2.2各大搜索引擎中蜘蛛的常用名称:3测试你的Robots.txt文件。
Robots.txt文件可以控制哪些搜索引擎可以抓取你的网站,哪些页面可以抓取你的网站,哪些页面不可以。Robots.txt是一个简单的文本文件,位于您网站的根目录下。正确使用Robots.txt可以提高抓取频率,也会间接影响你的SEO结果。
Robots.txt文件是什么?
Robots.txt文件是每个可靠的机器人都必须遵循的协议。一些非法机器人(一些恶意爬虫)不遵守这个协议。
输入任意网址,并在末尾加上:/robots.txt,即可查询任意网站的Robots.txt。
Robots.txt用法
禁止所有搜索引擎访问网站的任何部分:
用户代理: *不允许: /
允许所有搜索引擎蜘蛛访问(或构建一个空文件“robots.txt”):
用户代理: *Allow: /
禁止某个搜索引擎访问(只是举例,千万不要禁止百度):
用户代理: BaiduspiderDisallow: /
允许搜索引擎访问:
用户代理: BaiduspiderAllow: /
只允许一个搜索引擎访问,禁止其他搜索引擎访问:
用户代理: baiduspiderdisallow :用户代理: *Disallow: /
只禁止一个搜索引擎访问,允许其他搜索引擎访问:
用户代理: baiduspiderdisallow :/用户代理: *Disallow:
用户代理
User-agent代表spider名称,例如:
User-agent: Baiduspider代表百度蜘蛛。User-agent: *代表所有搜索引擎,*是通配符。
驳回
Disallow表示不允许,即禁止蜘蛛爬取的文件或目录。例如:
Disallow: /admin/代表禁止抓取admin目录中的所有文件。不允许: /cgi-bin/*。htm代表禁止访问所有带有。/cgi-bin/目录中的. htm后缀。不允许: /?代表禁止访问所有含有问号的网站?的网址。不允许: /。jpg$代表禁止抓取所有图片。网页上的jpg格式。Disallow:/ad/ct.html代表禁止抓取ad文件夹中的ct.html文件。
允许
Allow的意思是允许,也就是允许蜘蛛爬取的目录或者文件。例如:
allow :/cgi-bin//代表允许抓取CGI-bin目录下的目录。Allow: /tmp表示允许tmp爬网的整个目录。Allow3:htm $意味着只有带有。htm后缀允许访问。Allow:GIF$允许抓取GIF格式的网页和图片。注意:不要写绝对路径,也就是不要带网站域名,用/代替即可。robots文件中的所有符号都是用英语写的。请注意空格,例如,disallow 3360/admin/中的:后跟一个空格。注意大小写,比如Disallow: /admin/中Disallow的D是大写的。常见搜索引擎蜘蛛名称:谷歌蜘蛛:Googlebot百度蜘蛛:Baiduspider360蜘蛛:360Spiderbing蜘蛛:Bingbot搜狗蜘蛛:搜狗网络蜘蛛有道蜘蛛:YodaoBot头条蜘蛛:Bytespider测试你的Robots.txt文件
打开百度搜索资源平台-数据统计robots检测更新,在下面输入你的网址,点击-验证,显示允许,表示robots.txt设置正确。