芝麻http吧 关注:75贴子:426
  • 0回复贴,共1

爬虫必须要用芝麻爬虫代理IP吗?

只看楼主收藏回复

 做爬虫都希望自己的爬虫尽快地抓取大量的数据,而且还要经常频繁的更新数据,当然有节操的爬虫都知道,将爬取频率设在一个合理的范围降低目标服务器的压力,而不是逞能爬得飞快,要知道爬与反爬没有绝对的有效手段,它们之间往往保持着微妙的默契,不会赶尽杀绝,而且你爬别人,别人也会爬你,不过这是另一个层面的东西了。
  因此,在爬取数据时更常用的手段是使用代理ip,突破服务器的反爬虫机制,继续较高频率的抓取。有一个思路是我们的adsl拨号一般断线重拨后会得到一个新的ip,这样就可以在一段时间后重新连接adsl,获取新的ip再继续爬取,但是有个问题拨号重拨必须要间隔一段时间才可以,这样我们的程序就中断了,所以有条件的用户可以准备几台adsl的服务器作为代理,然后爬虫运行在另外一台不断网的服务器运行,当然这样使用对于大数据爬取来说就太麻烦了,于是就有了很多第三方的专业代理商,通过方便快捷的代理IP软件获取大量的ip使用,同时一般好点的代理商还会针对爬虫等常见业务做策略优化,使你被封的几率更低。如果你是大量数据的爬虫使用者,使用芝麻爬虫代理IP基本就是必备的手段了。


1楼2020-04-10 21:15回复