注册
登录
提问时间:2016/6/9 9:43:09
1.我在用httpclient做爬虫时发现目标网站的单位时间段对ip地址请求次数有限制;
2.我在网上看到有人提出了http代理IP的方式来破解,求大侠们告诉我方法;
3.http代理IP的域名式代理是什么情况呢,比如说,有的代理IP地址是http://proxy1.proxysite.com,而不是普通的IP地址,我应该怎么使用这些
1楼(站大爷用户)

谢邀,我分解了楼主的原问题,发现其实是提了3个问题…
有很多网站为节省流量和防范攻击,限制单ip一分钟内允许的最大连接次数是很普遍的。您在网上找到的用代理IP来解决ip受限的问题,一般来说确实是可行的。
为什么说一般都可以呢,是因为您使用代理IP来发出的http请求其实已经被黑客们广泛使用,当您用巨量代理IP并开启大量线程向目标网站发起连接时,其实等于在ddos一样: 说白了就是cc攻击。一些比较大的网站,普遍都会对客户端IP的连接做鉴定,当发现客户端使用的是代理IP,这些网站都会有不同的限制策略,其中有一部分是降低每分钟来自该代理ip请求本站的次数,还有一部分会直接跳转到一个验证网页,要求客户端输入验证码以后才能继续访问网站,还有一些就比较暴力了,直接拒绝代理ip的访问。当然,大部分网站不会去判断客户端有没有用代理ip的,您可以随便用这个方法来多线程来采集目标站点的文章。当然,您也要有大量代理ip才行…
BTW,在发起代理ip的http请求之前,希望你认真构造好这个请求报文,要恰当的控制好每秒的请求次数,不要让目标站点以为你在攻击,然后导致您的所有代理IP都被封杀。
至于您所提的域名式的http代理IP,事实上它比http代理更加稳定,例如像http://proxy1.proxysite.com这样的域名背后肯定有多个ip地址,很显然用这种域名式代理向目标网站发出连接时,1个ip地址不能用了,它还会有剩下多个ip来帮你完成接下来的请求。所以,推荐您使用域名式代理IP来采集,当然,这也是CC攻击一般用的手段
立即注册站大爷用户,免费试用全部产品
立即注册站大爷用户,免费试用全部产品