如何设计一个优秀的代理IP池?
用户分布式爬虫
想构建一个随机代理
1楼(未知网友)
难的是怎么找http或者socks代理,你用什么数据库都行,mysql,mongodb或者redis,就是简单存一个ip和port的地址,然后需要写个简单函数获取就行了。代理通过抓取免费代理,购买代理(购买的代理有很多提供了接口),或者用tor不断更换ip。我最近就是抓xici和kuaidaili这两个网站的代理存储到mongodb,然后再用一个并发爬虫用来验证代理能不能用。写了俩脚本用crontab定期跑,一个每十分钟抓一次代理存储到mongodb,一个脚本每5分钟刷一遍数据库踢出不可用代理。爬虫根据代理速度随便从数据库返回一个用。
可靠的代理还是付费比较靠谱,付费代理一般还直接提供了api,调用一下就返回代理ip列表。
2楼(未知网友)
站大爷私密代理(http://ip.zdaye.com/SimiProxy.html)已经帮你做了你想做的,代理IP丰富、服务稳、速度快,支持HTTP/HTTPS。
3楼(未知网友)
用redis 强过自己造轮子。