网络爬虫的分类有哪几种?你了解吗?

更新时间： 2020-07-29 16:54:36来源：粤嵌教育浏览量：15109

　如果说对于python有过了解的学员的话肯定就是对于python就是有了解的了，爬虫是python的一部分了，在系统结构中网络爬虫的分类是要分为多少种的呢?大家对于这些网络爬虫是否真的了解呢?今天粤嵌科技就来和大家一起了解下网络爬虫的分类。

　　1.通用网络爬虫(General Purpose Web Crawler)

　　爬取目标资源在全互联网中，爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中，有非常高的应用价值。

　　通用网络爬虫的基本构成：初始URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块等构成。

　　通用网络爬虫的爬行策略：主要有深度优先爬行策略和广度优先爬行策略。

　　2.聚焦网络爬虫(Focused Crawler)

　　将爬取目标定位在与主题相关的页面中

　　主要应用在对特定信息的爬取中，主要为某一类特定的人群提供服务

　　聚焦网络爬虫的基本构成：初始URL,URL队列，页面爬行模块，页面分析模块，页面数据库，连接过滤模块，内容评价模块，链接评价模块等构成

　　聚焦网络爬虫的爬行策略：

　　基于内容评价的爬行策略

　　基于链接评价的爬行策略

　　基于增强学习的爬行策略

　　基于语境图的爬行策略

　　关于聚焦网络爬虫具体的爬行策略

　　3.增量式网络爬虫(Incremental Web Crawler)

　　增量式更新指的是在更新的时候只更新改变的地方，而未改变的地方则不更新

　　只爬取内容发生变化的网页或者新产生的网页，

　　一定程度上能保证所爬取的网页，尽可能是新网页

　　4.深层网络爬虫(Deep Web Crawler)

　　表层网页：不需要提交表单，使用静态的链接就能够到达的静态网页

　　深层网页：隐藏在表单后面，不能通过静态链接直接获得，是需要提交一定的关键词之后才能够获取得到的网页。

　　深层网络爬虫重要的部分即为表单填写部分

　　深层网络爬虫的基本构成：URL列表，LVS列表(LVS指的是标签/数值集合，即填充表单的数据源)爬行控制器，解析器，LVS控制器，表单分析器，表单处理器，响应分析器等

　　深层网络爬虫表单填写有两种类型：

　　基于领域知识的表单填写(建立一个填写表单的关键词库，在需要的时候，根据语义分析选择对应的关键词进行填写)

　　基于网页结构分析的表单填写(一般是领域只是有限的情况下使用，这种方式会根据网页结构进行分析，并自动的进行表单填写)

　　网络爬虫的分类粤嵌科技就和大家讲解这么多了，不管是你是对网络爬虫感兴趣还是你对于python感兴趣，粤嵌科技都欢迎大家来我们公司的Python培训班进行实地考察，也可以来免费体验我们的python免费试听课程，获取的方式可以点击我们文章下面的获取试听资格按钮来获取。

免费预约试听课