想要做竞品分析,就要有海量的数据作为依据。可当你用爬虫程序去抓取对手的价格、新品或用户评论时,你的IP被封了。是不是很无奈,不过不要急,只要你学会三招,抓数据就不是问题。
第一招:换身份。怎么换,当然是使用代理IP了。不是换一个身份,而是无数个,一个身份失效了,就接着换下一个。这就是动态IP池技术,你不用自己的真实IP地址去访问网站,不停地从IP池里获取IP去访问,封了一个IP,还有无数个IP。
这一招的关键点在于如何选择好的代理IP资源。如果代理IP没选好,同样会很愁人,既费钱又费时。选代理IP要看这几个方面:一是速度,就是要快,越快越好,你也不想访问一个网页等几分钟吧;二是看稳定性,代理IP从使用到切换前不掉线,一直稳定工作,那才叫好;三是要看性价比,价格便宜不叫性价比,质量又好价格又不贵,那才叫性价比高。
第二招:装好人。你要让网站知道你是个大好人,而不是坏人。你想换身份,结果换了个坏人的身份,或者换身份做坏事,那么一样会被制裁。
这招的关键点在于如何模仿正常用户行为。换了代理IP不一定有用,还得让自己的访问行为像正常人一样。比如1秒访问10次网页,这就不是正常人干出来的事情;又如每3秒访问一个新的页面,这么有规律的行为你还说你不是机器人。
我们在使用代理IP访问网站的时候,一定要控制节奏,不能过快,也不能太有规律。要像真人一样访问网站,频率不能过快,停顿时间可以设置随机,不要有规律,同一个IP同一时间发出的请求不要太多。如果任务量太大,可以考虑分布式爬虫,要考虑负载均衡。
总之,要把细节做好,再配合上代理IP,那么目标网站就很难分辨你是不是机器人了,总不能宁可错杀一千,也不要放过一人吧,那样网站就没有流量了。
第三招:守规矩。代理IP加上伪装术确实能帮上大忙,带来巨大的便利,但是不能为所欲为,要守规矩。
爬虫只爬取一些允许访问的公开信息,不能乱爬。比如目标网站的robots.txt明确规定了哪些是不允许访问的,那就不要去抓取,如果你硬要是抓,那么后果可能会很严重。
不能侵犯别人的隐私,比如抓取手机号、身份信息、商业机密等,这些行为是违法的,是非常危险的。
控制好采集频率,不要以为动用大量的代理IP就可以快速的抓取了,这样把别人的网站服务器搞瘫痪了,毫不利己,也不利人。
总之,想要成功又安全的抓取竞品数据,不外乎这三招:使用动态代理IP技术换身份,模仿真实用户行为装好人,守住底线懂规矩。