帮助中心

   

热门搜索: 免费续期  推广  永久会员

Python爬虫用代理IP实现图片自动下载

python爬虫解放了效率,现在只要编写好程序,后台就能够自动运行,帮我们完成采集,不用我们重复机械的工作。python如何通过使用代理IP来完成图片的自动下载?我们看看主要有哪些步骤。

 

Python爬虫用代理IP实现图片自动下载

 

1、分析需求

 

上百度搜图,需要根据搜索功能,搜寻图片后,选定其中一个查看源代码,找出图片相匹配的源代码,假如图片多地址,例如有thumbURL,middleURL,hoverURL,objURL,各自点开看哪种图片符合要求。要是objURL符合需求,格式为.jpg。

 

2、选择python库

 

选择2个包,一个是正则,一个是requests包。

 

3、编写代码

 

复制百度图片搜索的链接,传入requests,然后把正则表达式写好。

 

因为有很多张图片,所以要循环,我们打印出结果来看看,然后用requests获取网址,由于有些图片可能存在网址打不开的情况,所以加了10秒超时控制。

 

4、图片保存

 

建立好一个images目录,把图片都放进去,命名的时候,以数字命名。

 

爬虫能够成功的重要一点就是设置代理IP来突破爬虫限制,IP的切换有效让数据抓取持续进行,再也不用担心IP被封。

关闭
19907977089
关注微信公众号,免费送30分钟时长