这题我会,主流反爬虫手段
①检测浏览器环境动态生成cookie(瑞数)
②验证码(极验,顶象)
③js混淆或加密,obfuscator的js混淆,wasm加密,jsvmp(js虚拟机)
④字体反爬,CSS反爬,雪碧图
⑤tls指纹检查 只要肯花钱,不是随便起个无头浏览器就可以爬走数据
另外爬虫会用代理,所以封ip没用而且很容易误伤
6.防爬技术叫蜜罐,在常见的链接中放一个url,页面看不到,但是爬虫能拿到,访问这个url的直接封
以此类推,多搞一些网页看不到但是爬虫能拿到的内容。 或者直接参考起点,搞几套自己的字符集,爬虫拿到的就是乱码,除非有正确的解码方式。
7.记录鼠标轨迹和停留时间,如果是直接访问url的做频率限制或禁止访问就好了。 如果有前置入口页面,可以记录前一个页面的鼠标轨迹和停留时间,类似登陆页面的具体细节拖动验证码机制。 细节上可以增加获取浏览器指纹确保客户在浏览器环境。获取登陆页面的浏览器指纹,验证和被抓取的页面环境是否一致。
设置轨迹偏移量还有停留时间搞范围随机就行了
本站资源均来自互联网,仅供研究学习,禁止违法使用和商用,产生法律纠纷本站概不负责!如果侵犯了您的权益请与我们联系!
转载请注明出处: 免费源码网-免费的源码资源网站 » 主流反爬虫手段
发表评论 取消回复