帮助中心

   

热门搜索: 免费续期  推广  永久会员

代理IP教你2招Python爬虫使用方法

在网络随便一搜索就能够找到很多教你如何使用代理IP爬虫的教程,也不乏教你搭建代理IP池的方案以及爬虫策略参考,不过这些都只是爬虫学习的入门课。如果你想要将Python爬虫玩得更加熟练,应用到其他的方面上,那么你需要学习更多的用法。迅联加速今天为大家带来Python爬虫的2个不同的使用方法。

 

Python爬虫如何读取TXT文件转换成数值数组并存入TXT文件?

 

1、读取txt文件并转换成数值型数组

 

代码如下:

 

import numpy

fp=open(‘data.txt’,’r’)

ls=[]

for line in fp:

line=line.strip(‘\n’) #将\n去掉

ls.append(line.split(‘ ‘)) #将空格作为分隔符将一个字符切割成一个字符数组

fp.close()

ls=numpy.array(ls,dtype=float) #将其转换成numpy的数组,并定义数据类型为float

print(ls)

输出结果:

[[17. 18. 19.]

[15. 14. 14.]]

 

2、如何将数值型数组写入txt文件

 

代码如下:

 

file=open(‘newdata.txt’,’a’) #参数a是追加写,w是覆写。打开一个新的文件

for i in range(ls.shape[0]): #循环每一行

for j in range(ls.shape[1]): #循环每一列

file.write(str(ls[i][j])+”\n”) #写入单个数值并换行

file.close() #关闭文件

 

当Python爬虫下载文件时提示403 forbidden应该如何解决?

 

一:urlopen出现403

 

代理IP教你2招Python爬虫使用方法
  二:urlretrieve 出现403

 

出现该错误的原因是服务器开启了反爬虫,一般情况下只需要设置header模拟浏览器即可,但是urlretrieve并未提供header参数。

 

使用urlopen也可以直接下载文件,例子如图:

 

代理IP教你2招Python爬虫使用方法
  还有一种解决方法:

 

代理IP教你2招Python爬虫使用方法
  迅联加速,专业的动态IP服务商,拥有全国180+个城市的线路,3000万+可用IP库,7*24小时不断供应IP。

关闭
19907977089
关注微信公众号,免费送30分钟时长