Python Re注意问题(持续更新)

2023年12月10日 210次阅读

PS本文不是讲解基础的

1.比较match和search的区别

search(pattern,string,flags=0)
match(pattern,string,flags=0)

match（）在字符串的的开始位置匹配， search会扫描整个字符串查找匹配, 也就是说match（）只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match()就返回none

看下面两个例子

#match
import re
m = re.match(r"python", 'pythontscrapy')
print(m.group(0))
#输出结果为 python

import re
m = re.match(r"python", 'iovepythonscrapy')
print(m.group(0))
#输出结果为 AttributeError: 'NoneType' object has no attribute 'gr
意思是没匹配到

#search
import re
m = re.search(r"python", 'pythontscrapy')
print(m.group(0))
#输出结果为 python

import re
m = re.search(r"python", 'iovepythonscrapy')
print(m.group(0))
#输出结果为  python

2.findall 返回一个列表使用和小技巧（以后更新）

import re
str1 ='welcomeshandong500a700'
info = re.findall(r'\d+',str1)
print(info)

#输出结果 ['500', '700']

3. sub

将字符串中匹配正则表达式的部分替换为其他值

sub(pattern,repl,string,count,flags)

import re
str1 ='welcomeshandong500'
#把500替换为1000
info = re.sub(r'\d+','1000',str1)
print(info)

import re
str1 ='welcomeshandong500'
#把500替换为1000
def addl(match):
    val = match.group()
    num = int(val)+1
    return str(num)
info = re.sub(r'\d+',addl ,str1)
print(info)

sub(pattern,repl,string,count,flags)

repl 可以为变量，也可以为函数。

4.split

根据匹配分割字符串，返回分割字符串组成的列表。

split(pattern,string,maxsplit=0,flags=0)

import re
str1 ='xueke:yuwen shuxue tiyu'
pt = re.split(r':| ',str1)
print(pt)
#输出结果 ['xueke', 'yuwen', 'shuxue', 'tiyu']

5.finditer

返回string中所有与pattern相匹配的全部字串，返回形式为迭代器。

re.finditer(pattern, string[, flags])

import re
str1 ='welcomeshandong500sadas1000'
pt = re.finditer('\d+',str1)
for x in pt:
    print('-------正在输出')
    print(x.group(0))

#输出结果
 -------正在输出
500
 -------正在输出
1000

group()、groups()与group(index)的区别，如下所示：

>>> import re  
>>> s = '23432werwre2342werwrew'  
>>> p = r'(\d*)([a-zA-Z]*)'  
>>> m = re.match(p,s)  
>>> m.group()  
'23432werwre'  
>>> m.group(0)  
'23432werwre'  
>>> m.group(1)  
'23432'  
>>> m.group(2)  
'werwre'  
>>> m.groups()  
('23432', 'werwre')  
>>> m = re.findall(p,s)  
>>> m  
[('23432', 'werwre'), ('2342', 'werwrew'), ('', '')]  
>>> p=r'(\d+)'  
>>> m=re.match(p,s)  
>>> m.group()  
'23432'  
>>> m.group(0)  
'23432'  
>>> m.group(1)  
'23432'  
>>> m.groups()  
('23432',)  
>>> m=re.findall(p,s)  
>>> m  
['23432', '2342']

综上：
group()：母串中与模式pattern匹配的子串；
group(0)：结果与group()一样；
groups()：所有group组成的一个元组，group(1)是与patttern中第一个group匹配成功的子串，group(2)是第二个，依次类推，如果index超了边界，抛出IndexError；
findall()：返回的就是所有groups的数组，就是group组成的元组的数组，母串中的这一撮组成一个元组，那一措组成一个元组，这些元组共同构成一个list，就是findall()的返回结果。另，如果groups是只有一个元素的元组，findall的返回结果是子串的list，而不是元组的list了。

例子

s ="1113446777"

>>> import re  
>>> s='1113446777'  
>>> m = re.findall(r'(\d)\1*',s)  
>>> print m  
['1', '3', '4', '6', '7']  
>>> m = re.search(r'(\d)\*',s)  
>>> m.group()  
>>> m=re.search(r'(\d)\1*',s)  
>>> m.group()  
'111'  
>>> m.groups()  
('1',)  
>>> m.group(0)  
'111'  
>>> m.group(1)  
'1'  
>>> m.group(2)  
Traceback (most recent call last):  
  File "<stdin>", line 1, in <module>  
IndexError: no such group  
>>> m=re.finditer(r'(\d)\1*',s)  
>>> m.next().group()  
'111'  
>>> m.next().group()  
'3'  
>>> m.next().group()  
'44'  
>>> m.next().group()  
'6'  
>>> m.next().group()  
'777'  
>>> m.next().group()  
Traceback (most recent call last):  
  File "<stdin>", line 1, in <module>  
StopIteration

另一个例子

>>> p = r'(\d)\1+([a-zA-Z]+)'  
>>> s = '1111werwrw3333rertert4444'  
>>> p = r'(\d)\1+([a-zA-Z]*)'  
>>> import re  
>>> re.findall(p,s)  
[('1', 'werwrw'), ('3', 'rertert'), ('4', '')]  
>>> m = re.search(p,s)  
>>> m.group()  
'1111werwrw'  
>>> m.group(1)  
'1'  
>>> m.group(2)  
'werwrw'  
>>> m.groups()  
('1', 'werwrw')  
>>> m = re.finditer(p,s)  
>>> m.next().group()  
'1111werwrw'  
>>> m.next().group()  
'3333rertert'  
>>> m.next().group()  
'4444'  
>>> m.next().group()  
Traceback (most recent call last):  
  File "<stdin>", line 1, in <module>  
StopIteration