当爬虫不遵守 robots 协议时，有没有防止抓取的可能？ - 代理IP

2019年4月5 篇
2019年3月18 篇
2019年2月6 篇
2019年1月5 篇
2018年12月10 篇
2018年11月11 篇
2018年10月7 篇
2018年9月19 篇
2018年8月13 篇
2018年7月14 篇
2018年6月13 篇
2018年5月11 篇
2018年4月8 篇
2018年3月10 篇
2018年2月3 篇
2018年1月12 篇
2017年12月20 篇
2017年11月21 篇
2017年10月12 篇
2017年9月21 篇
2017年8月24 篇
2016年11月16 篇
2016年10月31 篇
2016年9月21 篇
2016年8月31 篇
2016年7月51 篇
2016年6月129 篇

当爬虫不遵守 robots 协议时，有没有防止抓取的可能？

提问时间：2016/10/16 21:32:47

1楼（未知网友）

全站ajax异步获取数据，然后前端填充。这样爬虫没有牛逼javascript引擎的话，抓到的都是没有数据的模板。

2楼（匿名用户）

如果还有独立 UA 应该还是可以直接在前置服务器上过滤掉吧。
如果 UA 都伪装了……就只能上机器学习方法了。

3楼（未知网友）

留个记号，晚上回答

4楼（站大爷用户）

一种是分析爬虫特征，尝试过滤爬虫的请求
另外一些可能技巧：

1. 在页面开头放上一些钓鱼的链接（一般人点不到），爬虫会去访问，一访问就把对应的ip封了
2. 页面全是图像
3. 页面内容用javascript来生成
4. 页面上不提供可以供爬虫追踪的链接，跳转都用js触发

5楼（未知网友）

一楼说的不错。
但是我觉得方法并不好。假若来的爬虫是googlebot类似的搜索引擎爬虫，你这个站岂不是就不要想出现在搜索引擎上了。
所以我觉得，最最靠谱的方法是在robots.txt里放上钓鱼连接。
正常的搜索引擎不会去访问，不遵守robots规定的也被禁止了。
还有就是限制ip的请求次数把。
但是想完全杜绝爬虫是不可能的。因为完全没有办法确定请求的背后到底是人还是爬虫。