大西瓜 发表于 2021-6-29 10:19:08

关于采集碰到cloudflare的403错误

本帖最后由 大西瓜 于 2021-6-29 10:22 编辑

之前一套采集规则可以正常运行,对方站点也套了cloudflare,但只需要把登陆过的cookies放进去就可以了。前段时间不行了,采集不到。用浏览器可以正常打开网页,但是用curl采集的时候,怎么样都会提示403错误,要输入验证码。请问这个是对方使用了WAF或者防爬虫的规则吗。这种情况,一般能解决吗~?

emilylove 发表于 2021-6-29 10:56:23

你还能突破cloudflare的防火墙不成
想起他办法吧,比如换ip什么的

河小马 发表于 2021-6-29 13:26:59

做为一个长期的CF付费用户,我觉得他是屏蔽了一些user agent

应该不是IP的问题

你试试轮换user agent

大西瓜 发表于 2021-6-29 14:20:09

本帖最后由 大西瓜 于 2021-6-29 14:29 编辑

河小马 发表于 2021-6-29 13:26
做为一个长期的CF付费用户,我觉得他是屏蔽了一些user agent

应该不是IP的问题

我用的就是自己浏览器的user agent,自己浏览器能正常访问的,也没有5秒验证。换了也没啥用。更改过这个agent,ip,判断不是简单的user agent问题。也不是Ip问题。这些我在不同国家的服务器都测试过。在想会不会对方启用了br压缩。我用chrome浏览器能直接打开。用IE9打开就会弹出验证码界面(还显示不出来那种)Please stand by, while we are checking your browser...

河小马 发表于 2021-6-29 15:57:03

大西瓜 发表于 2021-6-29 14:20
我用的就是自己浏览器的user agent,自己浏览器能正常访问的,也没有5秒验证。换了也没啥用。更改过这个ag ...

CF 后台的WAF 限制里面,没有br压缩这个判断的选项

选项其实都挺简单的,你就只能一个一个的试

我自己一般是限制user agent 和 ASN

sead 发表于 2022-10-17 15:20:52

本帖最后由 sead 于 2022-10-17 15:24 编辑

之前用火车头碰到CF的特定规则会熄火,要专门写脚本转发后再采。
https://stackoverflow.com/questions/62684468/pythons-requests-triggers-cloudflares-security-while-urllib-does-not
CF对浏览器的访问特征做了锁定

newcb 发表于 2022-10-17 16:03:02

还真遇到过这个问题,直接访问没有问题,用PHP采集就有出白页。
页: [1]
查看完整版本: 关于采集碰到cloudflare的403错误