今日头条蜘蛛疯狂抓取 宝塔 根据访问协议头屏蔽爬虫
今日头条蜘蛛疯狂抓取导致cpu爆满,这个蜘蛛真是太残忍了,抓取的频率太高了,而在今日头条内会屏蔽网站内的所有广告,所以这种抓取没什么用,都形成CC攻击了。
最近网站访问明显慢了很多,阿里云一整就给我网站拉进小黑屋,看了网站监控发现都是今日头条抓取,本来我没想管,但是抓取频率超过了基础防火墙而且CPU爆满
禁止了立马好了。
我的服务器是4H4G20M带宽,本来也就一千多人访问,通过监控软件查看居然达到了六万。太疯狂了
nginx在站点的设置,配置文件中 server{ } 中添加
#禁止爬虫工具的抓取 if ($http_user_agent ~* "Bytespider|FISPIDER|YisouSpider") { return 403; }
Appache:
在伪静态里设置 这里以thinkphp为例!
<IfModule mod_rewrite.c> RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php [L,E=PATH_INFO:$1] #禁止爬虫工具的抓取 RewriteCond %{HTTP_USER_AGENT} "^.*FISPIDER.*|.*YisouSpider.*$" [NC] RewriteRule ^(.*)$ - [R=404,L] </IfModule>
————————————————
配置完不用重启,就能生效!
记录
#禁止爬虫工具的抓取
if ($http_user_agent ~* "Bytespider|FISPIDER|AhrefsBot|SemrushBot|MJ12bot") {
return 403;
}
2024.5.8
#禁止爬虫工具的抓取
if ($http_user_agent ~* "DataForSeoBot|Amazonbot|FISPIDER|AhrefsBot|SemrushBot|MJ12bot") {
return 403;
}
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,请不要用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,默认解压密码为"58588885.com",如遇到无法解压的请联系管理员!
8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载
声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性
源头网 » 今日头条蜘蛛疯狂抓取 宝塔 根据访问协议头屏蔽爬虫
2. 分享目的仅供大家学习和交流,请不要用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,默认解压密码为"58588885.com",如遇到无法解压的请联系管理员!
8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载
声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性
源头网 » 今日头条蜘蛛疯狂抓取 宝塔 根据访问协议头屏蔽爬虫