爬虫技术吧 关注:1,461贴子:7,141
  • 0回复贴,共1

爬虫采集效率怎么提高?使用芝麻爬虫代理

只看楼主收藏回复

1.尽可能减少网站访问次数
单次爬虫的主要把时间消耗在网络请求等待响应上面,所以能减少网站访问就减少网站访问,既减少自身的工作量,也减轻网站的压力
2.使用分布式爬虫
第一步,分布式并不是爬虫的本质,也并不是必须的,对于互相独立、不存在通信的任务就可手动对任务分割,随后在多个机器上各自执行,减少每台机器的工作量,费时就会成倍减少。
3、使用芝麻http代理


1楼2020-04-01 18:32回复