帮助中心

   

热门搜索: 免费续期  推广  永久会员

代理IP全面整理JAVA爬虫需要了解的问题(下)

在上一篇文章:代理IP全面整理JAVA爬虫需要了解的问题(上)迅联加速带着大家走入了JAVA爬虫的世界,不少在爬虫时会出现的问题都给出了相应的解决方案,接下来依然是相关的内容详解,邀大家共同学习。

代理IP全面整理JAVA爬虫需要了解的问题

爬虫可以爬取ajax信息么?

 

网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器(问题1中描述过了),或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据。如果是自己生成ajax请求,使用开源爬虫的意义在哪里?其实是要用开源爬虫的线程池和URL管理功能(比如断点爬取)。

 

爬虫被网站封了怎么办?

 

爬虫被网站封了,一般用多代理(随机代理)就可以解决。但是这些开源爬虫一般没有直接支持随机代理的切换。所以用户往往都需要自己将获取的代理,放到一个全局数组中,自己写一个代理随机获取(从数组中)的代码。

 

网页可以调用爬虫么?

 

爬虫的调用是在Web的服务端调用的,平时怎么用就怎么用,这些爬虫都可以使用。

 

爬虫速度怎么样?

 

单机开源爬虫的速度,基本都可以讲本机的网速用到极限。爬虫的速度慢,往往是因为用户把线程数开少了、网速慢,或者在数据持久化时,和数据库的交互速度慢。而这些东西,往往都是用户的机器和二次开发的代码决定的。这些开源爬虫的速度,都很可以。

 

明明代码写对了,爬不到数据,是不是爬虫有问题,换个爬虫能解决么?

 

如果代码写对了,又爬不到数据,换其他爬虫也是一样爬不到。遇到这种情况,要么是网站把你封了,要么是你爬的数据是javascript生成的。爬不到数据通过换爬虫是不能解决的。

 

哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?

 

爬虫无法判断网站是否爬完,只能尽可能覆盖。

 

至于根据主题爬取,爬虫之后把内容爬下来才知道是什么主题。所以一般都是整个爬下来,然后再去筛选内容。如果嫌爬的太泛,可以通过限制URL正则等方式,来缩小一下范围。

 

哪个爬虫的设计模式和构架比较好?

 

设计模式纯属扯淡。说软件设计模式好的,都是软件开发完,然后总结出几个设计模式。设计模式对软件开发没有指导性作用。用设计模式来设计爬虫,只会使得爬虫的设计更加臃肿。

 

至于构架,开源爬虫目前主要是细节的数据结构的设计,比如爬取线程池、任务队列,这些大家都能控制好。爬虫的业务太简单,谈不上什么构架。

 

所以对于JAVA开源爬虫,我觉得,随便找一个用的顺手的就可以。如果业务复杂,拿哪个爬虫来,都是要经过复杂的二次开发,才可以满足需求。

 

以上就是由代理IP为大家梳理的常见问题以及回答,大家可以将文章收藏,日后遇到相关问题就可以马上解决了。

关闭
19907977089
关注微信公众号,免费送30分钟时长