帮助中心

   

热门搜索: 免费续期  推广  永久会员

Scrapy实现用户代理操作步骤

之前为大家介绍了scrapy中设置代理IP池使用的教程,发现也有不少网友想要知道用户代理要怎么去设置。那么,下面就由迅联加速给大家带来教程讲解。

 

Scrapy实现用户代理操作步骤

 

scrapy设置用户代理步骤:

 

步骤1:在settings.py文件中添加用户代理池的信息(配置几个浏览器’User-Agent’),如:

 

# 设置用户代理池

UPPOOL = [

“Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0”, “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36”, “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393″

 

步骤2:创建下载中间文件uamid.py(与settings.py同一个目录),如:

 

#创建方法,cmd命令行,如项目为modetest,

E:\workspace\PyCharm\codeSpace\modetest\modetest>echo #uamind.py

# -*- coding: utf-8 -*-#

# 导入随机模块

import random

# 导入settings文件中的UPPOOL

from .settings import UPPOOL

# 导入官方文档对应的HttpProxyMiddleware

from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware

class Uamid(UserAgentMiddleware):

# 初始化 注意一定要user_agent,不然容易报错

def __init__(self, user_agent=”):

self.user_agent = user_agent

# 请求处理

def process_request(self, request, spider):

# 先随机选择一个用户代理

thisua = random.choice(UPPOOL)

print(“当前使用User-Agent是:”+thisua)

request.headers.setdefault(‘User-Agent’,thisua)

 

步骤3:在settings.py中配置下载中间件

 

# 配置下载中间件的连接信息

DOWNLOADER_MIDDLEWARES = {

‘scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware’: 2,

‘modetest.uamid.Uamid’: 1

}

 

以上就是具体的操作步骤,如果大家在操作过程发现问题,欢迎联系客服。

关闭
0797-8539189
关注微信公众号,免费送2小时时长