点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 闪豚AI训练★批量生成原创好文章 本广告位待租本广告位待租待租
点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 高质量SEO原创文章生成☆过AI检测 本广告位待租本广告位待租待租
点击解锁VIP可享全站免费下载 零基础搭建绿幕直播间卖货赚钱 NLP原创SEO文章AI自动生成教学 本广告位待租本广告位待租待租

温馨提示:需广告位请联系广告商务经理

CCbot是什么蜘蛛?遵循robots协议吗?

扬帆号经常查看网站日志,有一天发现ccbot这个蜘蛛,话说各种蜘蛛真是多,但是这个没见过,不知道是什么,出于好奇就百度了一下,和大家一起学习学习。 CCbot是什么蜘蛛? CCbo…

杨凡经常查看网站日志。有一天,她找到了蜘蛛ccbot,说有这么多蜘蛛,但是我没见过这种,不知道是什么。出于好奇,我去百度了一下,和大家一起学习。

CCbot是什么蜘蛛?

CCbot被称为Common Crawl Bot,是一个由非营利基金会维护的开放式网络爬虫。任何人都可以使用和分析这些爬虫的数据。据说这些数据可以用来改进语言翻译软件,预测趋势,跟踪疾病的传播等等。

该数据于2013年首次发布,一直更新至今。数据量非常大,在亚马逊上是以TB存储的。

我们不能使用这些数据,所以杨凡建议应该屏蔽整个站,尽量不要影响网站的速度。我们会直接给机器人加上下面的代码。

用户代理: CCBot不允许: /

如果你想为这个公益组织做点贡献,但是又怕影响网站速度,可以允许它抓取你的网站,然后在机器人里设置抓取延迟,比如下面。

用户代理: CCBot爬网-延迟: 2

机器人的IP范围是多少?

旧版本使用IP 38.107.191.66到38.107.191.119。

你遵守机器人协议吗?

他们的官网上说,CCBot符合robots协议,杨凡给机器人添加了防止CCBot爬行的功能。测试结果显示,CCBot确实符合robots协议,所以您可以放心。

推荐阅读:

编写和使用robots.txt

Robots.txt入门指南

免责说明

本站资源大多来自网络,如有侵犯你的权益请提交工单反馈(点击进入提交工单) 或给邮箱发送邮件laakan@126.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!请在下载24小时内删除!

给TA打赏
共{{data.count}}人
人已打赏
!
也想出现在这里? 联系我们
广告信息
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索