爬虫效率怎样提高?
1、尽量减少网站访问次数
单次爬虫把主要时间消耗在网络请求等待响应上边,因此能减少网站访问就减少网站访问,既减少本身的工作量,也缓解网站的压力,还减少被封的风险。
第一步要做的便是流程优化,尽可能精简流程,某些数据倘若能够在一个网页页面内获得就不需要在好几个网页页面下获得。接着去重,同样是非常关键的手段,爬过的就不再继续爬了。
2、使用分布式爬虫
就算把各类法子都用尽了,单机单位时间内能爬的网页数仍是比较有限的,应对大量的网页页面队列,可计算的时间仍是很长,此种情况下就必须要用机器换时间了,这就是分布式爬虫。
布式并不是爬虫的本质,也并不是必须的,对于互相独立、不存在通信的任务就可手动对任务分割,接着在好几个机器上各自执行,减少每台机器的工作量,费时便会成倍减少。
1、设置好header信息,不仅仅是UserAgent、Referer这两个,也有很多其它的header值。2、处理好Cookie。3、使用爬虫代理加强版代理IP。4、倘若通过header和cookie还不能爬到数据 ...