要从一个网站抓几个页面，但是抓到第500多个的时候，被对方屏蔽了ip好像。最终用了迅雷，有没有什么不这么2办法？ - 代理IP

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

要从一个网站抓几个页面，但是抓到第500多个的时候，被对方屏蔽了ip好像。最终用了迅雷，有没有什么不这么2办法？

提问时间：2016/6/27 12:05:45

详情如下：
要从一个政府网站上抓他们的公告，结果轻敌了。抓到500多，python卡在那不走了。好像因为我太原始的抓法被人屏蔽了。

不过我已经先处理好了链接列表，所以，后来祭出了迅雷解决了。

但是还是心有不甘啊。。

这种事情的处理方式该是怎么样的啊？

我是半路出家的，佛法不行。求质点，批评。

附我的方法如下：
遍历了他们的公告页面->正则提取了所有的公告网址->准备了1个代理ip->然后开动,读取吧.

一开始不设代理,20个就卡住不让访问了.加上代理,走到500了,我还以为好点,谁知道还是停了.
大致如此.

虽然现在凶残的迅雷已经给我拿到2300多个页面了.但是还是不甘心, 要是自己写个能成功抓的,大概得看什么东西啊?
求指点.. 真心不想每次都开迅雷啊,太2 了感觉.

1楼（未知网友）

迅雷有什么2的？这不是挺好的解决问题的办法么。从工程角度，用迅雷是性价比极高的方式，不2。
想用python解决的话，想到的简单办法就是换代理。从网上找代理列表，每次卡住后就换代理，这块的开发成本也比较低

2楼（未知网友）

只针对一个网站的话，租几个Proxy，抓完了就退掉呗：）

3楼（未知网友）

偶尔可以完全突破些较烂的防采集机制的方法：

1. 伪装Useragent并随机轮换
2. 伪装Uesragent为Baiduspider
3. 伪装IP

其实量很小的情况下，也或许可以隔几秒抓一次，睡一觉之后也完成了。

4楼（未知网友）

伪装UserAgent为主流浏览器，或主流搜索引擎;

伪装refer为网站主页;
控制速率;
设置一些常用的http header, 如：Accept，Accept-Charset，Accept-Encoding，Accept-Language
如果可设置cookie，尽量设上

做好这几步，除了你的程序不能运行js和渲染页面外，基本就是一个浏览器了