Python 爬虫如何破解ip限制,让网站无法屏蔽?
有人说用代理IP,但是代理ip又找不到合适的,有没有什么好的方法,求各位朋友解答。
1楼(未知网友)
我朋友试了,无法突破,然后我问了同学,他们都是用代理IP的。
2楼(站大爷用户)
这个问题根 python 无关。
3楼(未知网友)
代理IP很好弄啊,除了google一下,你也可以多找几个哥们的或者公司的主机,在他们电脑上设置一下,然后他们的IP地址就变成你的代理IP了。
4楼(未知网友)
去黑市上多买点肉鸡。
5楼(站大爷用户)
批量抓代理:很多网站都提供了免费的代理列表,自己写个脚本验证下这些代理是否可用就行了。
可以参考:Python获取免费的可用代理
6楼(未知网友)
试试修改X-Fordwarded-For http头
7楼(站大爷用户)
不怕花钱的话,EC2 多弄几台,一个小时重启一次,每次IP不一样。
8楼(站大爷用户)
其他回答都弱爆了,让你们的爬虫走Tor就可以了
版权所有 @李锋
9楼(未知网友)
曾经跟某创业团队(很优秀的一家技术型公司)交流,说到他们一项业务需要用到XXXX网的数据,就自己写爬虫去抓。(后来也跟该网站做了合作,取得了数据的使用权)
抓的过程中,他们去XX云开了100个实例。好像一共就抓了一天就搞定了。成本并没有多少。
现在云计算平台一小时大概也就一两毛钱,自带外网ip。所以花很少的钱就可以解决了。在代码层面把不同机器的任务分配做好就可以。
10楼(未知网友)
我的一个朋友 @kula 的做法是拥有几百台不同的肉鸡(?