当前位置：中华考试网 >> python >> python爬虫 >> 文章内容

python考点：网页爬虫的高层体系结构

来源：中华考试网 [2020年9月16日] 【大中小】

　　网络爬虫（web crawler）的高层体系结构如下：

　　一个爬虫不能像上面所说的，仅仅只有一个好的抓取策略，还需要有一个高度优化的结构。

　　Shkapenyuk和Suel(Shkapenyuk和Suel，2002)指出：设计一个短时间内，一秒下载几个页面的颇慢的爬虫是一件很容易的事情，而要设计一个使用几周可以下载百万级页面的高性能的爬虫，将会在系统设计，I/O和网络效率，健壮性和易用性方面遇到众多挑战。

　　网路爬虫是搜索引擎的核心，他们算法和结构上的细节被当作商业机密。当爬虫的设计发布时，总会有一些为了阻止别人复制工作而缺失的细节。人们也开始关注主要用于阻止主要搜索引擎发布他们的排序算法的“搜索引擎垃圾邮件”。

　　2.1 URL一般化

　　爬虫通常会执行几种类型的URL规范化来避免重复抓取某些资源。URL一般化也被称为URL标准化，指的是修正URL并且使其前后一致的过程。这里有几种一般化方法，包括转化URL为小写的，去除逗号(如‘.’ ‘..’等)，对非空的路径，在末尾加反斜杠。

责编：chenzhu

编辑推荐

python问答

python教程