当前位置：中华考试网 >> python >> python爬虫 >> 文章内容

python考点：网页爬虫由几部分组成？

来源：中华考试网 [2020年9月16日] 【大中小】

　　网页爬虫由几部分组成？网络爬虫（web crawler）组成部分如下：

　　在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源，一般都采用大型的数据库存储，如Oracle数据库，并对其建立索引。

　　控制器

　　控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。

　　解析器

　　解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，如过滤功能，抽取特殊HTML标签的功能，分析数据功能。

　　资源库

　　主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型的数据库产品有：Oracle、Sql Server等。

责编：chenzhu

上一篇：python考点：网页爬虫体系结构案例

下一篇：怎么用python爬数据？

编辑推荐

python问答

python教程