防范爬虫抓取数据的框架或者策略都有什么? - 代理IP

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

防范爬虫抓取数据的框架或者策略都有什么?

提问时间：2016/6/8 10:50:51

希望大家讲讲淘宝这一类的网站是怎么防止爬虫抓取销量等信息的．．

1楼（未知网友）

适当的给他们假数据，这招最厉害吧

2楼（匿名用户）

讲真，要想彻底防范爬虫很难的，1楼说了那么多策略，其实都被我破解过。
验证码？当年采集腾讯微博的时候，他们的验证码确实是个好策略，不过最后还不是被我解决了。我取到验证码图片，用计算机图像识别算法来识别验证码，一下就解决了。
用cookie，token这些基本是没用的，破解难度还没验证码高。
说起随机化URL连接，sleep。只需要通过模拟浏览器就可以全面解决。只要是浏览器能打开的，就没有爬不到的，这是真理，除非你有本事让浏览器也不能访问。
还有限制频率的办法，我只要在线程里sleep一段时间就可以了。如果限制IP的话，我用代理IP就能很容易解决。
有的人说可以打开一个页面301跳转到另一个页面，很好解决，我用你第一个request的location解决。

以及淘宝爬虫，真的很简单。

3楼（站大爷用户）

使用验证码，随机化URL链接，时间戳，鉴定身份，cookies，token，假如客户打开一个页面需要2秒，你就写个js sleep(2000)，acclog识别那些1秒10次的请求源干掉，打开了第一个页面才产生第二个页面的链接，只要你知道真实请求是什么样，就能知道什么是“异常”

隧道代理

短效优质代理

独享IP池

合租IP池

短效Socks5代理

学生特惠代理

免费试用

免费试用

在线咨询

热线电话