用Node.js做爬虫怎么突破Web服务的频率限制? - 代理IP

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

用Node.js做爬虫怎么突破Web服务的频率限制?

提问时间：2016/6/7 9:16:43

这些天我用superagent做了一个node爬虫，用豆瓣电影序号（1000000-30000000）做索引来抓取豆瓣电影数据，可是运行一会儿，就报403错误了，如果一分钟只能爬40次太慢了，有什么解决方案能破解这个限制吗？
看看我的代码：

var superagent = require('superagent');
var k = 0;
var n = 200;
for (var i = 1; i < n; i++) {
superagent.get("www.douban.com")
.end(function (err, res) {
console.log(res.statusCode)
console.log(k++)
});
}

参考：

NodeJS学习：爬虫小探
SuperAgent - Ajax with less suck

1楼（匿名用户）

用

setTimeout()啊

2楼（未知网友）

豆瓣本来就对采集的频率有限制！除非你使用代理IP，不断切换代理IP

3楼（未知网友）

可以花一些钱，用动态IP来采集