杨凡经常查看网站日志。有一天,她找到了蜘蛛ccbot,说有这么多蜘蛛,但是我没见过这种,不知道是什么。出于好奇,我去百度了一下,和大家一起学习。
CCbot是什么蜘蛛?
CCbot被称为Common Crawl Bot,是一个由非营利基金会维护的开放式网络爬虫。任何人都可以使用和分析这些爬虫的数据。据说这些数据可以用来改进语言翻译软件,预测趋势,跟踪疾病的传播等等。
该数据于2013年首次发布,一直更新至今。数据量非常大,在亚马逊上是以TB存储的。
我们不能使用这些数据,所以杨凡建议应该屏蔽整个站,尽量不要影响网站的速度。我们会直接给机器人加上下面的代码。
用户代理: CCBot不允许: /
如果你想为这个公益组织做点贡献,但是又怕影响网站速度,可以允许它抓取你的网站,然后在机器人里设置抓取延迟,比如下面。
用户代理: CCBot爬网-延迟: 2
机器人的IP范围是多少?
旧版本使用IP 38.107.191.66到38.107.191.119。
你遵守机器人协议吗?
他们的官网上说,CCBot符合robots协议,杨凡给机器人添加了防止CCBot爬行的功能。测试结果显示,CCBot确实符合robots协议,所以您可以放心。
推荐阅读:
编写和使用robots.txt
Robots.txt入门指南