帮助中心

   

热门搜索: 免费续期  推广  永久会员

爬虫遇到IP被封 可以试试这么解决

爬取返回的数据是无法显示,或者是直接空白的,这就意味着你的爬虫程序可能出了故障。很大的原因是因为IP的限制,这个时候,就需要用上代理IP来解决。

 

代理IP又称代理服务器(Proxy Server)。是一种重要的安全功能,能起到防火墙的作用。

 

爬虫遇到IP被封 可以试试这么解决

 

形象的讲,代理服务器是网络信息的中转站,它是介于浏览器和Web服务器之间的一台服务器,有了它之后,Request信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。在日常生活中,我们使用IP代理,大多数是用来连接INTERNET(国际互联网)和INTRANET(局域网)。

 

可以怎么解除网站对IP的爬取限制?

 

方式一、减慢爬取速率,那样目标网站的压力就会相对性减小,可是这么做的话,单位时间之内的爬取量就会相对的减少。

 

方式二、用迅联加速设置代理IP,攻克反爬虫体制进行高频率抓取,这样就需要多个稳定的代理IP。普通的基于ADSL拨号的解决方案。通常,在抓取过程中遇到禁止访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,同时也危害到了其他网站的抓取,总体来说也会降低获取速度。

 

方式三、另一个一种可能的解决方案,同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的代理服务器,抓取过程中使用这两台服务器作为代理。 假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,使用A作为代理访问外网,如果在抓取过程中遇到禁止访问的状况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理,B再拨号,如此反复。

 

上面介绍的三种方式,大家可以用于解除网站对IP的访问频率限制。

关闭
19907977089
关注微信公众号,免费送30分钟时长