帮助中心

   

热门搜索: 免费续期  推广  永久会员

怎么爬取可用的IP代理

怎么爬取可用的IP代理?在实现爬虫时,动态设置代理IP可以有效防止反爬虫,但对于普通爬虫初学者需要在代理网站上测试可用代理IP。由于手动测试过程相对比较繁琐,且重复无用过程故编写代码以实现动态抓取可用的代理IP。动态代理IP保存在Json文件中,以供后续具体项目爬虫使用,但所爬取的代理IP是免费IP,所以可能出现当时爬取能用,过一段时间无法使用的情况。

 

怎么爬取可用的IP代理

1. 步骤

第一可以先找几个提供免费测IP代理的网站,获取到可以使用的IP资源

第二验证对应的IP代理访问出口IP是不是跟本机的出口IP保持一致,得到的不一致的IP代理列表

第三根据自身的实验目的验证IP代理的相应速度,进行排序,择优选用

2. 具体做法

第一上网搜索IP代理,例如迅联加速代理等等

第二可以这里进行验证

第三这个就根据自身爬虫的需要,看是下载东西还是其他的,再进一步测试速度

3. 代码

View Code

关于这份代码,有几个地方做一下说明:

· check_a_ip(ip):该函数为IP代理检查函数,返回两个值(一个为访问请求是否成功使用了代理,一个为检查的响应时间)

· start_page、end_page: 手动输入获取IP代理的网页页码,这个需要根据具体网站设定

· for i in range(int(start_page), int(end_page) + 1):主函数的循环,遍历设定范围的网页

· for tr in trs[1:len(trs)]:循环遍历并解析出一个网页中的所有IP代理,以及检验是否可用

· ip_proxy_file:文本写入,最终把结果都写入proxy.txt中

4. 拓展

本实验可以采用多线程进行爬取或者检验,这样的爬取速率会快很多,大家有时间可以尝试一下。

关闭
19907977089
关注微信公众号,免费送30分钟时长