现在的网络爬虫的研究成果和存在的问题有哪些？ - 代理IP

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

现在的网络爬虫的研究成果和存在的问题有哪些？

提问时间：2016/8/20 12:36:03

现在的网络爬虫的研究成果和存在的问题有哪些？

1楼（匿名用户）

visual scraper，不用写代码也能通过图形界面快速定义出一个爬虫来用，比如Portia。

2楼（未知网友）

一个个倒在商业模式面前，单纯兴趣永远不可能成事

3楼（未知网友）

首先有三个最需要解决的问题：

法律和道德风险：爬虫抓取其它网站数据，虽然抓取的内容大部分是公开的，但是商用或者有损源网站利益，于法于理都说不过去。目前我国（或者说大部分国家）针对互联网的方方面面法律覆盖度还远远不够。

访问速度与瓶颈：爬虫的访问速度依赖于网速（尤其是服务器出口带宽以及用户入口带宽）和开发者的水平，而大部分商业网站都会有反爬虫机制，其中最简单就是通过频率限制，复杂的则会加上很多维度的判断。如何高效抓取？如果数据量不大，则可以通过在两次请求间休息一段时间，如果数据量很大，则需要考虑有一套高效、可用的代理 IP 机制。
验证码：现在的验证码已经从简单的输入几个字母，变得复杂了很多，比如拖动滑块甚至是 Google 的 reCAPTCHA 这样基于机器学习的验证码模块。在识别验证码的开销与数据所能获得的收益之间，要找到一个平衡点。

剩下可能存在的问题：

如何不基于规则地解析数据：大部分网上的爬虫教程，都是讲如何发请求、如何抽取数据。对于特定网站这是可行的，但是对于几百上千个网站，这样的做法就实在太慢了，如何不基于规则而解析数据，才能达到高效获取数据（高效指的是开发效率，因为不需要针对特定网站单独实现规则）。
通用性与易用性：现有的所谓现成的采集工具，大多是不够通用易用的。那些采集工具，专业的看不上，小白依然不会，用户估计（没有调查，纯脑洞）大部分都是半吊子水平，代码写不出，但是又多少知道点。
数据变现：整体来讲，虽然抓取数据有很多门槛，但是其实想要从互联网抓数据还是非常容易的，如何让你抓下来的数据产生价值，这是一个难题。
其他：欢迎补充~

4楼（未知网友）

在工程中有这样一些问题，
1，快速频繁访问会被封IP，一般可通过代理和增加等待时间解决；
2，需要登录信息，例如微博，可通过携带cookie解决；
3，国内下载国外网站可以用国外代理；
4，网页解析，有比较成熟的各种库，常用的有python语言；
5，正文抽取
6，网页去重