低成本反爬虫实战经验分享

作者： ʘᴗʘ发布时间：2022-03-29 19:03 浏览量：73 点赞：42 售价：0元

背景介绍

很多IT教程类的博客都不是原创内容，都是爬虫采集csdn、cnblogs等各类站点的内容放到自己网站上，忽悠搜索引擎收录，从而骗取一些流量。

coderbbb上线之后，很多内容会同步到csdn或cnblogs上，于是就被很多盗版爬虫盯上了，可谓爬虫的量比真实访客还多。于是在接下来的一年中，我们和各类盗版爬虫展开了持久战。本文就是分享本站的反爬虫之路。

反爬虫真正的难点其实是识别爬虫。

低端的爬虫可能会用相同的IP、浏览器UserAgent等信息疯狂抓取网站内容，这样的爬虫很容易屏蔽，只要针对同一个IP做好限流即可。发现爬虫IP就封杀。但是，现在大部分爬虫都是各种高匿代理IP+selenium自动化浏览器等技术组合模拟真实用户，这导致识别爬虫变得越来越难（可以理解为成本越来越高）。本站最初的策略就是想尽一切办法去区分正常用户和非法爬虫，但是经过一段时间实验后发现，这样的策略是“道高一尺魔高一丈”，发爬虫成本越来越高。这迫使我们回到最初的原点来思考反爬虫这件事。

coderbbb是一个IT教程类网站，我们反爬虫的目的是不让原创内容被盗版网站恶意抓取。既然识别爬虫的难度越来越高，那干脆就不识别爬虫了，不管是用户还是爬虫，我们网站返回的内容都从文字变成了图片，只有在搜索引擎爬虫访问的时候，才会返回文字内容（避免SEO出现问题）。最后，只要定期更新图片地址，即可让盗版网站抓取的图片失效，从而达到反盗版爬虫的目的。用户如果需要复制内容，可以选择登录或者进行一些验证（比如拖动图片、输入验证码等）

常见反爬虫策略

本站使用图片发爬虫虽然一劳永逸的解决了盗版爬虫的问题，但是在之前和盗版爬虫斗智斗勇的过程中，还是尝试使用了很多其他技术来反爬虫。这些技术也许对其他网站有所帮助，可以借鉴。

针对非搜索引擎的IP限流。众所周知，大部分普通用户的访问频率其实很低，所以我们可以通过IP限流的方式，识别出短时间大量访问网站的IP封杀掉。
通过JS封杀非浏览器访问。众所周知，大部分低端爬虫是通过HTTP请求直接抓取HTML，并不会运行其中的Javascript代码的。这样的话，我们可以通过判断JS代码是否运行来把一部分低端爬虫封杀掉。
对于使用selenium等自动化浏览器框架的爬虫，可以通过识别这些网络框架的HTTP请求特征指纹来屏蔽。原理是这些开源的框架发起网络请求的二进制数据，其实是有一定的特征的。如果你自己手写http server，你就能发现，并屏蔽。

看到这里，是不是觉得成本越来越高了？所以，常规意义上的反爬虫，其实成本是越来越高的，可谓“道高一尺魔高一丈”。所以最终的反爬虫方案，还是要根据自身网站的特点来定制反爬虫策略。

如何避免被爬虫盯上

最安全的反爬虫方式，不是通过技术反爬虫，而是降维打击——从开始就不让爬虫找到你。你会发现公网上有很多机器人爬虫在不停的扫描常见的开源建站程序，比如WordPress等。一旦发现，就会出现攻击、爬虫等等各类非法攻击操作。所以，如果你能够让你的网站隐藏这些“暴露身份”的特征，其实你已经成功了一半了。毕竟没有多少网站的价值是值得黑产人员定制代码攻击的。以下是一些隐藏自己的手段：

尽量不要使用开源程序建站。目标太大，漏洞太多。不是说代码不好，而是盯着的人太多了。
如果你最后不得不用了开源的建站系统，那么请多研究一下代码，把里面的文件、路径等等改个名字。大部分机器人扫描的时候，都是通过检测某些路径、文件是否存在来识别的。

原文链接：https://www.coderbbb.com/articles/67

其它推荐：

通过Maven将指定Jar包下载到指定的本地目录
本文介绍如何使用maven把一些需要下载到本地的Jar包下载下来。有时候我们开发一些java项目的时候，并没有使用maven管理包，但是又需要一些常用的包，那么可以使用maven来将这些包下载到本地，从而导入项目
win10+IntelliJ下载安装Maven并配置镜像、环境变量等（统一系统命令行maven和IntelliJ的maven）
本文的主要介绍了如何在win10操作系统，下载安装Maven，并配置：环境变量、本地仓库（默认本地仓库在C盘，占磁盘空间比较厉害）、阿里云Maven镜像服务器，然后将系统Maven配置到IntelliJ中取代IntelliJ自带的Maven。
Java Springboot对接微信支付（JSAPI等）API-V3
本文介绍了java如何对接微信支付API-V3，完成微信JSAPI网页支付。提供了完整的下单接口代码，详细解释了每个参数，可以快速的整合到你的项目中，完成微信支付。
阿里云CDN字体文件报错：Access to font at '*.woff' from origin '*' has been blocked by CORS policy
本文主要解决阿里云CDN字体文件请求时报错："Access to font at '*.woff' from origin '*' has been blocked by CORS policy"的问题，直接在阿里云CDN后台配置，无需编写代码。
springboot3+EhCache3缓存+JDK17整合指南
本文介绍了如何在springboot3中整合使用EhCache3作为缓存。和EhCache2相比，EhCache3的整合方法完全不同。同时，由于在springboot3中删除了EhCacheCacheManager类，也让整合方法完全不同。参考本文，可以快速完成整合。
springboot使用ResourcePatternUtils模糊查询resources路径下的文件（类似File.listFiles）
springboot中读取resources文件夹路径下的文件时，单个文件读取可以使用ClassPathResource，多个文件list、查询、读取可以使用ResourcePatternUtils。
win10怎么开启GPU加速？（硬件加速GPU计划）
本文介绍了如何在Win10开启硬件GPU加速。详细介绍了win10开启GPU加速的每一个步骤，根据本教程可以快速开启win10的GPU加速功能。
maven jar包新版本检测工具推荐
maven构建的工程时间久了，想升级pom.xml中引入的jar包版本很繁琐，需要逐一检查、替换、升级。本文介绍了一种可以快速检测、升级pom.xml中jar包的工具，可以方便的为maven构建的工程升级依赖jar包。
java使用apache-commons-lang3生成随机字符串（可自定义规则）
在日常开发中，我们经常会遇到生成随机字符串的需求。可能是大小写字母+数字，也可能是其他各种字符。作为一个常用功能，我们完全没必要自己实现，有很多优质的类库已经做的很完善了。本文介绍的就是apache-commons-lang3类库的随机字符串方法。
Springboot+thymeleaf结合Vue，通过thymeleaf给vue赋值解决Vue的SEO问题
vue开发的项目有时候会有SEO的需求，由于vue是JavaScript框架，内容都在JavaScript和服务端，所以SEO效果很差。本文介绍一种通过springboot+thymeleaf这样传统的前后端分离方案，再整合vue，从而在兼顾vue开发便利性的同时，获得不错的SEO效果。

ʘᴗʘ

评级：

77: 文章数

75357: 浏览量

57696: 获赞数

67.80: 总收入

本文目录

本文为付费文章

点击图片购买本文后，全文代码即可变为文本，可复制。还可与本文作者在线沟通哦！

本文售价：0.10元

低成本反爬虫实战经验分享

背景介绍

常见反爬虫策略

如何避免被爬虫盯上

通过Maven将指定Jar包下载到指定的本地目录

win10+IntelliJ下载安装Maven并配置镜像、环境变量等（统一系统命令行maven和IntelliJ的maven）

Java Springboot对接微信支付（JSAPI等）API-V3

阿里云CDN字体文件报错：Access to font at '*.woff' from origin '*' has been blocked by CORS policy

springboot3+EhCache3缓存+JDK17整合指南

springboot使用ResourcePatternUtils模糊查询resources路径下的文件（类似File.listFiles）

win10怎么开启GPU加速？（硬件加速GPU计划）

maven jar包新版本检测工具推荐

java使用apache-commons-lang3生成随机字符串（可自定义规则）

Springboot+thymeleaf结合Vue，通过thymeleaf给vue赋值解决Vue的SEO问题

阿里云CDN字体文件报错：Access to font at '.woff' from origin '' has been blocked by CORS policy