爬虫的第一课就是要学会使用代理IP,因为如果没有代理IP来协助,就算爬虫程序写得再完美,也无法进行抓取。所以,在爬虫工作师学习的时候,都会先对代理进行了解。
为什么会用到代理?
1、安全避免同一个代理IP访问同一个网页。对于长时间访问同一个网页的IP,极大可能性IP会被封掉。
2、方便解决IP代理问题技术含量高,找代理处理方便省事。
3、成本低。如果自己去维护服务器成本过高,并不利于长久持续发展。
代理失效了如何处理?
解决方法为:
1、将代理IP及其协议载入ProxyHandler赋给一个opener_support变量;
2、将opener_support载入build_opener方法,创建opener;
3、安装opener。
具体代码如下:from urllib import requestdef ProxySpider(url, proxy_ip, header):opener_support = request.ProxyHandler({‘http’: proxy_ip}) opener = request.build_opener(opener_support) request.install_opener(opener) req = request.Request(url, headers=header)rsp = request.urlopen(req).read()return rsp
当发现代理IP失效的时候,你可以通过上面的方法来尝试解决,如果发现还是错误,那么可以找代理服务商的客服来咨询,看看问题是出现在哪。