CCbot是什么蜘蛛？遵循robots协议吗？

扬帆号经常查看网站日志，有一天发现ccbot这个蜘蛛，话说各种蜘蛛真是多，但是这个没见过，不知道是什么，出于好奇就百度了一下，和大家一起学习学习。 CCbot是什么蜘蛛？ CCbo…

杨凡经常查看网站日志。有一天，她找到了蜘蛛ccbot，说有这么多蜘蛛，但是我没见过这种，不知道是什么。出于好奇，我去百度了一下，和大家一起学习。

CCbot是什么蜘蛛？

CCbot被称为Common Crawl Bot，是一个由非营利基金会维护的开放式网络爬虫。任何人都可以使用和分析这些爬虫的数据。据说这些数据可以用来改进语言翻译软件，预测趋势，跟踪疾病的传播等等。

该数据于2013年首次发布，一直更新至今。数据量非常大，在亚马逊上是以TB存储的。

我们不能使用这些数据，所以杨凡建议应该屏蔽整个站，尽量不要影响网站的速度。我们会直接给机器人加上下面的代码。

用户代理： CCBot不允许： /

如果你想为这个公益组织做点贡献，但是又怕影响网站速度，可以允许它抓取你的网站，然后在机器人里设置抓取延迟，比如下面。

用户代理： CCBot爬网-延迟： 2

机器人的IP范围是多少？

旧版本使用IP 38.107.191.66到38.107.191.119。

你遵守机器人协议吗？

他们的官网上说，CCBot符合robots协议，杨凡给机器人添加了防止CCBot爬行的功能。测试结果显示，CCBot确实符合robots协议，所以您可以放心。

{{userData.name}}已认证