恶意采集器模拟百度蜘蛛UserAgent怎么防御？

作者： ʘᴗʘ发布时间：2021-12-19 21:32 浏览量：139 点赞：57 售价：0元

作者最近在维护coderbbb时，检查访问日志发现很多恶意采集器为了采集本站的博文，将自己的UserAgent设置成了百度搜索引擎的爬虫UserAgent，希望以此来避开本站的各种安全防御手段。下面是日志截图，可以看出有一个UserAgent看起来像百度蜘蛛的请求，它的IP一看就是错的，通过查询IP显示的是阿里云的服务器……百度蜘蛛怎么可能从阿里云服务器上出来……

相信很多站长、码农们都遇到类似的恶意行为，那么有什么办法识别并防御吗？

其实方法很简单，只要通过nslookup反查IP即可鉴定IP是否是合法的搜索引擎蜘蛛，如果是伪造的蜘蛛，直接屏蔽即可。

在java中实现反查IP的教程我们之前写过，欢迎参考：java nslookup反查IP验证google、百度、bing蜘蛛爬虫IP真假。

用上面这次恶意查询举例，我们通过CMD命令行反查IP，结果如下图所示：

我们再挑一个合法的百度蜘蛛，用nslookup命令查询一下，结果如下：

可以看出，返回结果中输出了crawl.baidu.com这个域名，证明该IP是百度的合法蜘蛛。其他常见的各种搜索引擎，比如：google、bing、神马、头条等等，均可以采用该方法验证。

原文链接：https://www.coderbbb.com/articles/59

其它推荐：

【终极方案】java通过Selenium调用chrome实现html转图片
本文介绍了HTML转图片的常用技术和方案，并提出了各个方案的缺点。最后给出了基于selenium和chrome的完美解决方案。使用该方案，可以完美的转化各种HTML、CSS、JS，只要chrome能正常展示的，就能正常截图！
win10怎么开启GPU加速？（硬件加速GPU计划）
本文介绍了如何在Win10开启硬件GPU加速。详细介绍了win10开启GPU加速的每一个步骤，根据本教程可以快速开启win10的GPU加速功能。
java数组和List互相转化的最佳办法
本文介绍了java代码中如何快速互相转换java list和java array。根据本教程介绍的方法，一行代码即可实现java list和array的互相转化。
maven jar包新版本检测工具推荐
maven构建的工程时间久了，想升级pom.xml中引入的jar包版本很繁琐，需要逐一检查、替换、升级。本文介绍了一种可以快速检测、升级pom.xml中jar包的工具，可以方便的为maven构建的工程升级依赖jar包。
Springboot上传图片到阿里云OSS新手教程（完整代码）
本文详细介绍了使用springboot上传图片、文件到阿里云OSS的两种方案，并对比了常规表单上传和WEB直传之间的优缺点。两种方案都提供了完整的代码可以参考、运行，欢迎使用。
Google无法访问CDN资源导致google search console移动设备易用性错误
google search console提示移动设备易用性错误，排查发现是因为google无法访问cdn上的css文件导致的。经过深入了解，发现google请求cdn上的资源时，会先请求该cdn域名下的robots.txt。如果请求失败，就不再请求cdn上的其他文件了。
springboot @Async使用自定义线程池和线程池参数调优经验
在springboot中使用@Async注解时，如果需要指定@Async使用的线程池，可以参照本文介绍的方法完成配置，过程十分简便。
在手机上观看电脑上电影视频的办法
如何在手机上远程播放电脑上的视频？本文作者开发了一个简单的播放器软件，可以将电脑上的视频在手机端播放，方便快捷。
【真实数据】日访问量一万PV的网站需要什么配置的服务器？
日访问量一万PV的网站，需要什么配置的服务器呢？本文以本站的真实数据为例，一步一步分析、推算了大概需要的服务器配置。
Springboot整合Redis和redis常用操作演示
本文介绍如何在springboot中引入redis数据库，并执行各类redis操作。过程非常简单，只要引入一些jar包，并配置redis连接信息即可。