为什么用了代理IP做爬虫还是被识别 - 站大爷

注册: 登录

每月知识问答

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

为什么用了代理IP做爬虫还是被识别

提问时间：2018/4/15 17:25:14

“封IP是不可能封IP的，这辈子都不可能封IP的，左手高匿代理IP，右手优质爬虫程序，没有什么能够阻挡，我对高效工作的向往”，一个爬虫工作者如此骄傲的说。然而，理想很丰满，现实很骨感，爬不过三秒，提示错误：已被识别为爬虫。

他很郁闷，他问我：是不是我本机IP被泄露了，是不是你们IP有问题。我说，您需要研究下对方的反爬虫策略。他说：我不需要反爬虫，我有代理IP，我有优质程序，为什么会不成功。

我无言以对，只好让他用浏览器设置代理IP做测试访问目标网站，结果是正常的，他这才明白，原来爬虫没有那么简单。

对于没有反爬虫策略的目标网站来说，爬虫其实很简单，对于有着比较复杂的反爬虫策略的目标网站来说，爬虫并没有那么简单，而对于反爬虫策略不断升级的目标网站来说，爬虫策略也得跟着不断升级，否则只能淘汰出局。

什么是反爬虫策略呢？这是目标网站为了缓解服务器压力阻止爬虫无休止的请求服务器，影响到正常的用户访问网站，同时也是为了防止爬虫爬取信息做些不利于自己的事情的一种策略。一般网站都会有反爬虫策略，毕竟服务器资源是有限的，不停的请求服务器，会造成服务器缓慢甚至崩溃，其他正常的用户访问网站就会打不开。

所以，爬虫策略要尽量的模拟用户正常的访问网站的行为，研究对方的反爬虫策略，然后通过使用代理IP，完成日常的爬虫工作。

推荐阅读

◆  浅谈短效优质代理的用户名密码授权方式
◆  浅析HTTP协议的请求消息Request
◆  Safari 如何快速切换代理服务器？
◆  浅析HTTP协议中的URL
◆  https和http有什么区别，有什么优势
◆  为什么奇艺要把 iPad 客户端上的 MP4 流改为 TS 流呢？TS 相对于 MP4 有什么优势呢？
◆  Javascript能以客户端本地的IP地址，访问远程服务器吗？
◆  路由器WAN高级设置里的DNS是什么，没有手动设置过却有地址？
◆  HTTP/1.1与 HTTP/1.0 协议的区别有哪些
◆  浅谈HTTP协议的概念及四种交互方法

立即注册站大爷用户，免费试用全部产品

立即注册站大爷用户，免费试用全部产品

快速咨询热线：

024-31823261

国家高新技术企业证书编号：GR202321001563
增值电信经营许可证：辽B2-20180026
互联网虚拟专用网业务许可证：B1-20181940
公司地址：沈阳市浑南区上深沟村沈阳国际软件园F7座

产品

支持

文档

关于

声明：本站不搜集数据不存储数据，也不买卖数据，所有资源仅用作数据传输通道。禁止利用本平台资源从事任何违反本国（地区）法律法规的活动，用户所有操作行为均有日志存档并保留6个月。

站大爷 - 专注企业级代理IP云服务 Copyright@2026 | 辽B2-20180026