这两天有几个朋友说代理IP是不是出问题了,爬某某网站怎么都不成功,都需要登录才能访问,非常的着急。我说不要慌,告诉下我是访问什么网站,我这边用浏览器设置代理测试访问下看看是否正常。
经过浏览器设置代理IP,访问网站首页正常,搜索功能也是正常,进入详情页也是正常,并没有提示要注册登录才能访问,我告诉他们,浏览器设置代理IP访问是正常的呢,说明IP是没有问题的,您也可以自己测试下看看。您那边需要检查下是不是目标网站的反爬策略升级了,或者是其他方面的问题。
他们经过不停的尝试和调整,发现果然是是目标网站的反爬策略升级了,在cookie方面进行了调整,当反反爬虫策略根据实际情况作出了调整升级后,爬虫又可以畅通无阻的继续工作了。
由此可见,反反爬虫需要紧跟反爬虫的步伐升级。当我们发现爬虫不工作了,我们不要急,要具体情况具体分析,是哪方面出问题了?是API提取不到IP,还是提取出来的IP连接不上?是代理服务器连接上了访问不了目标网站,还是可以访问网站而某些行为如搜索功能出问题?
最常见的最快的定位问题的方法就是用浏览器来测试,比如复制API提取连接到浏览器栏回车,就可以看到能否提取到IP或者提示什么错误;浏览器设置代理IP访问ip138或者其他查询IP的网址查看IP是否连接成功;浏览器设置代理IP访问目标网站是否能访问,是否可以使用搜索功能,是否需要登录才能访问等等。
为什么要用浏览器测试呢?因为这是真实用户访问行为,反爬虫再严格也不能杀死真实用户,不然这网站还有什么意义呢?很多朋友表示不理解,当我建议他用浏览器设置代理测试下时,他很不耐烦的说:我是代码运行,浏览器测试了可以有什么意义呢?浏览器设置代理测试可以快速的帮我们定位问题,找出问题,然后再根据提示解决问题。
只有我们找出了问题出在哪里,我们才能快速的去解决问题,而浏览器则是这样的一个好帮手,我们不要忽略它的妙用。