当前位置：中华考试网 >> python >> python爬虫 >> 文章内容

python可以抓取数据吗

来源：中华考试网 [2020年10月21日] 【大中小】

　　Python可以抓取数据，用Python抓取数据的脚本，我们通常称之为爬虫。

　　网络爬虫(英语：web crawler)，也叫网上蜘蛛(spider)，是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

　　这里提到的编纂网络索引，就是搜索引擎干的事情。我们对搜索引擎并不陌生，Google、百度等搜索引擎可能每天都在帮我们快速获得信息。搜索引擎的工作过程是怎样的呢?

　　首先，就是有网络爬虫不断抓取各个网站的网页，存放到搜索引擎的数据库;

　　接着，索引程序读取数据库的网页进行清理，建立倒排索引;

　　最后，搜索程序接收用户的查询关键词，去索引里面找到相关内容，并通过一定的排序算法(Pagerank等)把最相关最好的结果排在最前面呈现给用户。

　　看上去简简单单的三个部分，却构成了强大复杂的搜索引擎系统。而网络爬虫是其中最基础也很重要的一部分，它决定着搜索引擎数据的完整性和丰富性。我们也看到网络爬虫的主要作用是获取数据。

　　由此简单地说，网络爬虫就是获取互联网公开数据的自动化工具。

　　这里要强调一下，网络爬虫爬取的是互联网上的公开数据，而不是通过特殊技术非法入侵到网站服务器获取的非公开数据。

　　那么有人可能要问，什么是“公开数据”呢?简而言之，就是网站上公开让用户浏览、获取的数据。

　　虽然数据是公开的，但是当某人或机构(如，搜索引擎)大量收集这些数据并因此获利时，也会让数据生产方——网站很不爽，由此而产生法律纠纷。比如，早些年Google因此而惹上官司。

　　网站们看着搜索引擎因为搜索引擎抓取自己的内容而获利不爽，但也因为搜索引擎带来的流量而高兴不已，于是就出现了网站主动进行搜索引擎优化(SEO, Search Engine Optimization)，也就是告诉搜索引擎，我这里的内容好，快来抓取吧!

　　搜索引擎和网站的博弈，催生了一个君子协议： robots.txt。网站在自己的网站上放上这个文件，告诉爬虫哪些内容可以抓，哪些内容不可以抓;搜索引擎读取网站的robots.txt来知道自己的抓取范围，同时也在访问网站时通过User-Agent来向网站表明自己的身份(这种表明也是君子协议，技术上很容易假扮他人)，比如，Google的爬虫叫做Googlebot，百度的爬虫叫做Baiduspider。这样，二者和平共处，互惠互利。.

　　二、大数据时代的网络爬虫

　　时代在发展，数据变得越来越重要，“大数据”已经成为各行各业讨论的话题，人们对数据的渴望也变成贪婪，数据也就成了“石油”，爬虫也就成了“钻井机”。

　　为了获取石油，人们使用钻井机;为了获取数据，人们使用爬虫。为了获得数据，人们把互联网钻的是“千疮百孔”。哈哈，这里有些夸张。但人们对数据的获取，已经打破的君子协定，和网站们玩起了猫捉老鼠的游戏，展开了道高一尺魔高一丈的较量。

　　为什么说是较量呢?因为大量爬虫的行为会给网站带来网络带宽、服务器计算力等方面很大的压力，却几乎不带来任何利益。为了降低这种毫无利益的压力和避免自己的数据被他人集中收集，网站肯定要通过技术手段来限制爬虫;另一方面，爬虫为了获取石油般的数据，就想方设法来突破这种限制。

责编：fushihao

上一篇：爬虫数据如何保存到mongoDB？

下一篇：怎么用python扒网页？

编辑推荐

python问答

python教程

python

python可以抓取数据吗

python课程免费试听预约

编辑推荐