帮助中心

   

热门搜索: 免费续期  推广  永久会员

网络爬虫可以分为多少种类型?

网络爬虫可以根据我们设置好的规则来进行网页数据抓取,是在大数据时代非常常用的一种技术手段。代理IP的使用,也与网络爬虫息息相关。

网络爬虫可以分为多少种类型

爬虫有多少种类型?下面看看迅联加速给大家带来的详细介绍:

一、 通用网络爬虫

通用网络爬虫,又称“全网爬虫”,爬行对象从一些种子URL(统一资源定位符) 扩充到整个万维网,主要为“门户站点搜索引擎”和“大型Web服务提供商”采集数据。由于商业原因,它们的技术细节很少被公布出来。这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于等待刷新的页面太多,通常采用“并行工作”的方式,但需要较长时间才能刷新一次页面。通用网络爬虫,虽然存在着一定的缺陷,但它适用于为搜索引擎平台搜索广泛的主题,有较强的应用价值。

二、增量式网络爬虫

是指对已下载网页采取增量式更新,和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证,所爬行的页面是尽可能新的页面。

和周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬行新产生或发生更新的页面 ,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。

三、聚焦网络爬虫

聚焦网络爬虫,又称“主题网络爬虫”,是指选择性地爬行,那些与预先定义好的主题相关的页面的网络爬虫。和通用网络爬虫相比,聚焦网络爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。

聚焦网络爬虫和通用网络爬虫相比,增加了“链接评价模块”以及“内容评价模块”。聚焦网络爬虫爬行策略实现的关键是,评价页面内容和链接的重要性。不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。

四、深层网络爬虫

Web 页面,按存在方式可以分为“表层网页”和“深层网页”。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的 Web 页面。

深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如:那些用户注册后内容才可见的网页,就属于深层网页。

根据不同的系统结构、实现技术,目前网络爬虫大致可区分为以上4种,迅联加速关于爬虫的分类介绍就到这里了。

关闭
19907977089
关注微信公众号,免费送30分钟时长