python

当前位置:中华考试网 >> python >> python爬虫 >> 文章内容

Python爬虫教程之利用正则表达式匹配网页内容

来源:中华考试网  [2020年12月28日]  【

  正则表达式是一种描述字符串排列的一种语法规则,通过该规则可以在一个大字符串中匹配出满足规则的子字符串。简单来说,就是给定了一个字符串,在字符串中找到想要的字符串,如一个电话号码,一个IP地址,一个字段,在爬虫过程中,如果灵活使用正则表达式,将极大地提升爬虫效率。

  Python使用正则表达式

  re.match

  1

  2

  3

  4import restr1='123asdfa'mathch1 = re.match("^[0-9]",str1)print(mathch1.group())

  结果

  1

  如果要匹配12,则

  1

  2

  3

  4import restr1='12s3asdfa'mathch1 = re.findall("1[0-9]",str1)print(mathch1)

  结果

  ['12']

  修改[0-9]为[10-19]是无法匹配到的。

  因此,该语句将从头到尾匹配字符,匹配到则结束,需要.group才能获取到匹配到的值。

责编:zp032348

上一篇:Python3爬虫里tesserocr该如何去安装?

下一篇: 没有了

  • 会计考试
  • 建筑工程
  • 职业资格
  • 医药考试
  • 外语考试
  • 学历考试