网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月02日
漏签
0
天
太阳http吧
关注:
45
贴子:
225
看贴
图片
吧主推荐
游戏
1
回复贴,共
1
页
<返回太阳http吧
>0< 加载中...
爬虫是怎样处理ip不足的问题的?
只看楼主
收藏
回复
小柠檬与老柠檬
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
在爬虫工作过程中,时常会被目标网站禁止访问,但又找不到缘故,这是让人十分郁闷的事情。通常情况下,目标网站的反爬虫策略全是依靠IP来标识爬虫的,许多情况下,我们访问网站的IP地址会被记录,当服务器指出这个IP是爬虫,那么便会限制或是禁止此IP访问。被限制IP最普遍的一个缘故是抓取频率过快,超出了目标网站所设置的阈值,将会被服务器禁止访问。因此,许多爬虫工作者会选择运用代理IP来辅助爬虫工作的正常的运行。
送TA礼物
1楼
2020-07-15 15:49
回复
小柠檬与老柠檬
高级粉丝
3
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
但有时迫不得已面对这样一个问题,代理IP不够用,该怎么办?有人说,不足用就去买呀。这里有两个问题,一是成本问题,二是高效代理IP并不是随处都有。
一般 ,爬虫工程师会采取这样两个手段来处理问题:
一、放慢抓取速度,降低IP或是其他资源的消耗,但这样会降低单位时间的抓取量,有可能会影响到任务是否能按时完成。
二、优化爬虫程序,减少一些不必要的程序,提供程序的工作效率,降低对IP或是其余资源的消耗,这就需要资深爬虫工程师了。如果说这两个办法都已经做到极致了,依然难以解决问题,那么只有加大投入继续购买高效的代理IP来保障爬虫工作的高效、持续、稳定的进行。
2楼
2020-07-15 15:49
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
哪吒2预测总票房超67.4亿
2287440
2
DeepSeek吃了多少贴吧老哥
2116652
3
蛟龙制片人说打一星的都是黑子
1676696
4
动画电影崛起能否冲击真人电影
1204686
5
OpenAI创始人承认路走错了
882076
6
T1 2-1击败GEN
738625
7
ClaudeCEO发文声讨DeepSeek
523752
8
小孩哥鞭炮炸豪车得赔多少钱
374877
9
龙腾4开发商裁员重组
362626
10
哪吒2这已经不算暗喻了吧
276633
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示