帮助中心

   

热门搜索: 免费续期  推广  永久会员

代理IP详解京东商品爬取案例(1)

很多人都想知道网络爬虫要怎么学习好,其实通过看一些案例能够起到帮助。迅联加速今天给大家分享一个爬虫的优秀案例,可以从中学习爬虫的思路,了解一个爬虫程序的搭建环节。

下面进入编写抓取京东商城信息的代码环节:

创建项目:在想要放置的路径输入 cmd

代理IP详解京东商品爬取案例

我已经创建好了项目了,所以就创建另外一项目作为演示:

Basic :是基本爬虫

Crawl :是自动爬虫

代理IP详解京东商品爬取案例

代理IP详解京东商品爬取案例

好了,现在我们已经创建好了爬虫项目,来看下项目结构。

代理IP详解京东商品爬取案例

解释:

Jd2 :用来编写我们的爬虫程序

Settings :用来设置一些信息

Items :用来储存我们的字段

Pipelines :一般用来输出我们的爬虫

Middlewares :是中间文件,等下我们的 ip 代理池就是在这里设置

当我门创建好一个项目之后 scrapy 会帮我们创建好模板,其中 allow=’’ 用来设置关键词。

代理IP详解京东商品爬取案例

这里为了偷懒就不使用 items 设置字段和用 Pipelines 输出我们的爬虫。

现在分析一下我们要抓取商品的信息:

1、商品名称

2、商品价格

3、商家名称

4、商品好评度

5、评论数

6、商家链接

我们登录京东商城,随便找一个商品,然后查看源码会发现有部分信息是需要抓包来分析的。

抓包我们介意使用 fiddler,这里就不详细介绍,不懂的可以访问这个网址:https://blog.csdn.net/ImagineCode/article/details/78271148

同过查看源码可以知道,商品价格、好评度、评论数是需要抓包分析的。其他的可以直接在源码上提取。

重点是 fiddler 抓包,通过抓包后我们会发现这些数据都是在 js 文件中,而且会发现 url 中都会有一个商品的 id,而且这个商品不同的信息所存在的 url 中的 id 是不变的。这样的我们就可以根据id来确定一个商品了。

通过抓包分析,可以找到商品价格、评论数、好评度的 url :

商品的评论数,好评度:

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv5691&productId=6946627&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1

商品的价格:

https://p.3.cn/prices/mgets?callback=jQuery8830755&type=1&area=1_72_2799_0&pdtk=&pduid=15334786351601530873377&pdpin=&pin=null&pdbp=0&skuIds=J_6946627%2CJ_1956332467%2CJ_8240587%2CJ_8026710%2CJ_8026730%2CJ_8026728%2CJ_685802%2CJ_7694047%2CJ_7437788%2CJ_7081550%2CJ_5835263%2CJ_5089273%2CJ_7283905%2CJ_7357933&ext=11100000&source=item-pc

黄色底的数字就是商品的 id。

到这里我们准备工作以及理解部分也完成得差不多了,重头戏的代码部分就让我们留着在下一篇文章中揭晓吧。

关闭
19907977089
关注微信公众号,免费送30分钟时长