零基础写python爬虫之神器正则表达式

2019-10-05 14:45:27王振洲

                   d *  # some fractional digits""", re.X) 
b = re.compile(r"d+.d*") 
match11 = a.match('3.1415') 
match12 = a.match('33') 
match21 = b.match('3.1415') 
match22 = b.match('33')  
if match11: 
    # 使用Match获得分组信息 
    print match11.group() 
else: 
    print u'match11不是小数' 
if match12: 
    # 使用Match获得分组信息 
    print match12.group() 
else: 
    print u'match12不是小数' 
if match21: 
    # 使用Match获得分组信息 
    print match21.group() 
else: 
    print u'match21不是小数' 
if match22: 
    # 使用Match获得分组信息 
    print match22.group() 
else: 
    print u'match22不是小数' 

re提供了众多模块方法用于完成正则表达式的功能。
这些方法可以使用Pattern实例的相应方法替代,唯一的好处是少写一行re.compile()代码,
但同时也无法复用编译后的Pattern对象。
这些方法将在Pattern类的实例方法部分一起介绍。
如一开始的hello实例可以简写为:


# -*- coding: utf-8 -*- 
#一个简单的re实例,匹配字符串中的hello字符串 
import re 
 
m = re.match(r'hello', 'hello world!') 
print m.group() 

re模块还提供了一个方法escape(string),用于将string中的正则表达式元字符如*/+/?等之前加上转义符再返回

2.2. Match

Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。
属性:
string: 匹配时使用的文本。
re: 匹配时使用的Pattern对象。
pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。
lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。
方法:
group([group1, …]):
获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。