防范爬虫抓取数据的框架或者策略都有什么?
希望大家讲讲淘宝这一类的网站是怎么防止爬虫抓取销量等信息的..
1楼(未知网友)
适当的给他们假数据,这招最厉害吧
2楼(匿名用户)
讲真,要想彻底防范爬虫很难的,1楼说了那么多策略,其实都被我破解过。
验证码?当年采集腾讯微博的时候,他们的验证码确实是个好策略,不过最后还不是被我解决了。我取到验证码图片,用计算机图像识别算法来识别验证码,一下就解决了。
用cookie,token这些基本是没用的,破解难度还没验证码高。
说起随机化URL连接,sleep。只需要通过模拟浏览器就可以全面解决。只要是浏览器能打开的,就没有爬不到的,这是真理,除非你有本事让浏览器也不能访问。
还有限制频率的办法,我只要在线程里sleep一段时间就可以了。如果限制IP的话,我用代理IP就能很容易解决。
有的人说可以打开一个页面301跳转到另一个页面,很好解决,我用你第一个request的location解决。
以及淘宝爬虫,真的很简单。
3楼(站大爷用户)
使用验证码,随机化URL链接,时间戳,鉴定身份,cookies,token,假如客户打开一个页面需要2秒,你就写个js sleep(2000),acclog识别那些1秒10次的请求源干掉,打开了第一个页面才产生第二个页面的链接,只要你知道真实请求是什么样,就能知道什么是“异常”