浅析Python如何解决403 Forbidden错误 - 代理IP

每月知识问答

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

浅析Python如何解决403 Forbidden错误

提问时间：2018/9/4 14:45:50

在爬虫工作的过程中，我们总能会遇到一些问题，比如 407 authentication required ，这个是授权问题，比如，HTTP Error 403: Forbidden，这个可能是被反爬虫识别了，被目标服务器拒绝请求。

那么403 Forbidden问题该怎么解决呢？这是很多朋友也会经常遇到的问题。如何做才不会被反爬虫识别呢？

一、使用高匿代理IP。代理IP按匿名程度可以分为透明代理、普匿代理、高匿代理。透明代理会透露本机IP，普匿代理会透露使用了代理IP，这两者都会暴露使用了代理IP，很容易识别，高匿代理则不会暴露。

二、尽量使用干净的代理IP。如果有很多其他人和你使用一样的IP同时访问一样的网站，那么也很容易被识别，当这些IP访问频率过快或者访问测试达到了目标网站的阈值时，则会被封IP。这时候，可以选择站大爷的一手私密代理IP。

三、伪装成浏览器。

除了上面两个原因外，还有可能是代码里没设置User-Agent导致的。对有些 header 要特别留意，Server 端会针对这些 header 做检查。User-Agent 有些 Server 或 Proxy 会检查该值，用来判断是否是浏览器发起的 Request

Content-Type 在使用 REST 接口时，Server 会检查该值，用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现，代码片段如下：

import urllib2headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request = urllib2.Request( url = 'http://********', headers = headers)print urllib2.urlopen(request).read()

隧道代理

短效优质代理

独享IP池

合租IP池

短效Socks5代理

学生特惠代理

免费试用

免费试用

在线咨询

热线电话