python爬虫抓取网站数据的一些技巧 - 代理IP - 站大爷

注册: 登录

每月知识问答

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

python爬虫抓取网站数据的一些技巧

提问时间：2018/6/28 16:11:43

用python做爬虫可以说是非常常见的，很多人都选择这门语言来做爬虫，因为它简洁。这里整理了一些python爬虫的相关技巧，希望对初学者有所帮助。

一、最基本的操作

抓取某个站点。

import urllib2

content = urllib2.urlopen('http://XXXX').read()

二、使用代理IP

最头疼的事情莫过于封IP了，不过魔高一尺道高一丈，使用代理IP，轻松解决难题。

import urllib2

proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'})

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)

urllib2.install_opener(opener)

content = urllib2.urlopen('http://XXXX').read()

三、cookie的处理

登陆的时候不得不面对cookie，cookie不处理好，很可能被目标服务器发现爬虫行为，进而做出限制。

import urllib2, cookielib

cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())

opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

urllib2.install_opener(opener)

content = urllib2.urlopen('http://XXXX').read()

四、User-Agent的处理

爬虫行为很令人反感，恨不得杀之后快，但如果伪装成浏览器访问时，目标服务器就视而不见了。如何伪装呢，这就要通过修改HTTP包中的Header的User-Agent来实现了。

headers = {

'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'

}

req = urllib2.Request(

url = 'http://***.****.***/***/****',

data = postdata,

headers = headers

)

当然，更好的办法是搜集很多浏览器的User-Agent，然后随机使用。

五、多线程抓取信息

不会多线程抓取的爬虫不是好爬虫，由于顾忌到反爬策略，尽量模拟人工访问，速度自然不可能太快，所以只能多线程来抓取了。

from threading import Thread

from Queue import Queue

from time import sleep

#q是任务队列

#NUM是并发线程总数

#JOBS是有多少任务

q = Queue()

NUM = 2

JOBS = 10

#具体的处理函数，负责处理单个任务

def do_somthing_using(arguments):

print arguments

#这个是工作进程，负责不断从队列取数据并处理

def working():

while True:

arguments = q.get()

do_somthing_using(arguments)

sleep(1)

q.task_done()

#fork NUM个线程等待队列

for i in range(NUM):

t = Thread(target=working)

t.setDaemon(True)

t.start()

#把JOBS排入队列

for i in range(JOBS):

q.put(i)

#等待所有JOBS完成

q.join()

关于python的爬虫技巧就总结到这里了，还有很多小技巧这里就不一一说明，期待各位一一整理，祝大家工作愉快，爬虫需要代理IP可以联系站大爷。

推荐阅读

◆  你可能不知道的几款C#开源爬虫软件工具
◆  一台电脑如何同时使用多个国内IP上同一个网？
◆  如何在 PC 机上测试移动端的网页？
◆  请教一下怎么使用两台服务器挂双层代理IP？
◆  IP地址的分类是如何划分的
◆  怎么获得速度快且稳定的代理IP？
◆  采用旁路非镜像方式部署的缓存系统，通过改客户机dns ip 却实现了访问拦截和代理，是如何实现的？
◆  测试免费代理IP再来决定付费代理IP真的好吗
◆  很多网站在一个 IP 访问量大的时候会自动的在一段时间内拒绝这个 IP 的再次访问，这个是怎么实现的？
◆  http报文里有浏览器端的ip地址么？

立即注册站大爷用户，免费试用全部产品

立即注册站大爷用户，免费试用全部产品

快速咨询热线：

024-31823261

国家高新技术企业证书编号：GR202321001563
增值电信经营许可证：辽B2-20180026
互联网虚拟专用网业务许可证：B1-20181940
公司地址：沈阳市浑南区上深沟村沈阳国际软件园F7座

产品

支持

文档

关于

声明：本站不搜集数据不存储数据，也不买卖数据，所有资源仅用作数据传输通道。禁止利用本平台资源从事任何违反本国（地区）法律法规的活动，用户所有操作行为均有日志存档并保留6个月。

站大爷 - 专注企业级代理IP云服务 Copyright@2026 | 辽B2-20180026