注册
登录
提问时间:2016/6/27 12:05:45
详情如下:
要从一个政府网站上抓他们的公告,结果轻敌了。抓到500多,python卡在那不走了。好像因为我太原始的抓法被人屏蔽了。

不过我已经先处理好了 链接列表,所以,后来祭出了迅雷解决了。

但是还是心有不甘啊。。

这种事情的处理方式该是怎么样的啊?

我是半路出家的,佛法不行。求质点,批评。

附我的方法如下:
遍历了他们的公告页面->正则提取了所有的公告网址->准备了1个代理ip->然后开动,读取吧.

一开始不设代理,20个就卡住不让访问了.加上代理,走到500了,我还以为好点,谁知道还是停了.
大致如此.

虽然现在凶残的迅雷已经给我拿到2300多个页面了.但是还是不甘心, 要是自己写个能成功抓的,大概得看什么东西啊?
求指点.. 真心不想每次都开迅雷啊,太2 了感觉.
1楼(未知网友)

迅雷有什么2的?这不是挺好的解决问题的办法么。从工程角度,用迅雷是性价比极高的方式,不2。
想用python解决的话,想到的简单办法就是换代理。从网上找代理列表,每次卡住后就换代理,这块的开发成本也比较低
2楼(未知网友)

只针对一个网站的话,租几个Proxy,抓完了就退掉呗:)
3楼(未知网友)

偶尔可以完全突破些较烂的防采集机制的方法:

1. 伪装Useragent并随机轮换
2. 伪装Uesragent为Baiduspider
3. 伪装IP

其实量很小的情况下,也或许可以隔几秒抓一次,睡一觉之后也完成了。
4楼(未知网友)

伪装UserAgent为主流浏览器,或主流搜索引擎;

伪装refer为网站主页;
控制速率;
设置一些常用的http header, 如:Accept,Accept-Charset,Accept-Encoding,Accept-Language
如果可设置cookie,尽量设上

做好这几步,除了你的程序不能运行js和渲染页面外,基本就是一个浏览器了
立即注册站大爷用户,免费试用全部产品
立即注册站大爷用户,免费试用全部产品