[Regular Expression]Mastering Python Regular Expression基础通俗(2)

2023年5月11日 260次阅读来源: 猫哥

`续上`:[Regular Expression]Mastering Python Regular Expression基础通俗(1)

`三类常用的metacharacters的简写形式（偷懒需要）`

#metacharacters用来对某一类特定字符进行匹配，通常，我们用的最多的字符就是下面的三类
#数字，字母 和 space \t这类看不到占位符，上一部分学过通过方括号表示这三类的metacharacters的方法
[0-9],[a-zA-Z],[ \t\n\r\v\f]
#由于上面的表达试比较长，所以需要有一种更简单的写法：
 [0-9] 可以写成\d
 [a-zA-Z0-9_] 可以写成\w
 [ \t\n\r\v\f] 可以写成\s
 对上面metacharacters取反的写法分别为 \D ,\W,\S (全部大写即可）

`点(dot)字符的使用`

点这个字符作为一最常用的metacharacter，可以匹配任何一个字符，但是不对newline（换行）进行匹配

举例：
g/.../p  #这个正则会匹配三个任意字符，但是字符不能为newline

过度使用dot字符，会给阅读带来困难，写正则时，应试尽量做到精确匹配
如需要匹配的字符确定是数字，就使用"\d",而不要选择使用"."

`win and 类unix系统中路径分割符的匹配`

先看例子：
g/[^\/\]/p

讲解：
^ :这个符号是取反情况的意思 
\/ :对 /这个符号进行匹配，(因为 这个/符号本身是需要转义)
\ :对 \进行匹配，

所以上面的正则表达式的意思是：只要不是 / 和 \ 字符，其它的字符都会匹配 
在windows系统下路径分割符为：\
在类unix系统下路径分割符为：/

`“或”符号（alternatation)的使用方法`

想像一下，我们需要把输入文本中“be smart”和"be stupid" 匹配出来，应该怎么写正则呢？

这时应该使用或符号 | 来完成这样的工作：
g/be (smart|stupid)/p   #注意还使用了圆括号哦！

g/yes|no|maybe/p     #这时会对yes,no,maybe三个单词中的任何一个进行匹配  多个|符号的连用

`数量限定符(quantifiers)的使用方法`

先记住数量限定符，使用这四个符号：?  *  +  {n,m}

他们的意思分别是：
? : 该符号前面的字符可以出现0个或1个
* : 该符号前面的字符可以出来0个或多个
+ : 该符号前面的字符可以出现1个或多个
{n,m}:该符号前面的字符，最小出现n个，最多出现m个

举例说明就懂了：
来个简单的：
g/carS?/p  #  由于?数量限定符，表示前面的字符可以出来0次，或1次，那个这个正则就是在对car 和 carS进行匹配

来个复杂一点的：
如果我们需要对555-555-555 和 555 555 555和  555555555 进行正则匹配

进行正则匹配的意思就是说，我们写的一个正则表达式，可以把上面三种情况都包含在内：
实现如下：
g/\d+[-\s]?\d+[-\s]?\d+/p 

解析：
\d是对数字进行匹配，
+号表示前面的数字可以有1个或多个，
[-\s]表示-或space的二个选一个字符的匹配，
?表示前面的字符可以出现0次或1次

由于上面的数字个数是确定的，我们也可以用精确的数字来进行匹配，如下：
g/\d{3}[-\s]?\d{3}[-\s]?\d{3}/p

上面的{3} 表示前面的字符（这里是\d)只能出现三次

对{n,m}进行更多的说明：
{,m}:前面的字符可出现0到m次
{n,}:前面的字符可以出现n到无穷次

由此可知：？ * +可以使用{n,m}来表示，只是? * +这样写更省事
? 等价于 {0,1}
* 等价于 {0,}
+ 等价于 {1,}

`数量限定的符的两种工作模式：`

通过例子来说明这两种工作模式：
如果我们使用g/".+"/p 正则对下面这句话进行匹配，会得到什么结果？
English "hello" ,Spanish "hola"   

很显然，可能会出现两种情况：
情况1：  匹配到结果为： "hello"
情况2：  匹配到结果为： "hello" ,Spanish "hola"

上面两种情况就对应了数量限定符 +，的工作模式
上面的情况2,我们称为Greedy模式 （贪婪模式 ）
上面的情况1，我们称为Reluctant模式 （勉强够模式）

python中模式使用的是Greedy模式，如果我们想要使用Reluctant模式，也很容易，只需要在+后面加一个？即可
如下：
g/".+?"/p  #在数量限定符+后面添加了?,这时就会使用Reluctant模式 


所以在Python中，当你看到有两个数量限定符时，并且第二个限定符为?时，你需要马上知道第二个数量限定符的作用是
表示使用Reluctant模式

`对边界进行匹配的metacharacters`

思考：对于一个输入文件，我们有什么边界：
1：文本的开头，和文本的结束
2：在文本中行的开头，行的结束
3：单词的边界，（非单词的边界）

对于行的开头和结束，使用^ 和 $进行匹配
对于文件的开关和结束，使用 \A 和\Z进行匹配
对于单词的边界使用\b,进行匹配，（非单词的边界使用\B进行匹配）

举例说明：
 g/^name:/p #对文件中 所有行的开始，内容为name: 的行进行匹配

下面的 1,3,4行就满足正则匹配的结果

下面为进行匹配的文本
name:Tom
abc
name:Jim 
name:
xxname:abc

来个复杂一点的例子：
g/^name:[\sa-zA-z]+$/p

解释：
看到正则表达式前面后^  $， 就知道行首行尾的内容都要满足要求
以name:开头的行，然后 后面可以接空格或大小写字母， + 代表前面的字符至少要出现1次


最后一个例子（下面两个比较一下）：
g/hello/p      #这个正则会把hello ,helloxxx,xxhello, xxhelloxx 都匹配出来
g/\bhello\b/p  #这个正则只会把单独的 hello 这个单词匹配出来

`第一章总结：`

正则表达式中的主要内容：literal and metacharacters

三个括号的使用:
()与 |搭配使用
[] 单个字符的集合，如[0-9a-z]
{} 属于数量限定符{m,n}

学习了数量限定符： ？ * + {}
学习了边界匹配符： ^ $ \A \Z \b \B
学习了常用字符集合的表达方式 [0-9],[0-9a-zA-Z],[  \s\t\r\n\f\v] ,取反[^
学习了三类字符的简写式：/s, /d, /w  取反 /S ,/D, /W
点字符 匹配除newline以外的所有单个字符 
注意：上面基础内容，需要经常回顾！！容易遗忘

`后面进入Python实战部分：re module的使用`

    原文作者：猫哥
    原文地址: https://segmentfault.com/a/1190000005075107
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。

续上:[Regular Expression]Mastering Python Regular Expression基础通俗(1)

三类常用的metacharacters的简写形式（偷懒需要）

点(dot)字符的使用

win and 类unix系统中路径分割符的匹配

“或”符号（alternatation)的使用方法

数量限定符(quantifiers)的使用方法

数量限定的符的两种工作模式 ：

对边界进行匹配的metacharacters

第一章总结：

后面进入Python实战部分：re module的使用

`续上`:[Regular Expression]Mastering Python Regular Expression基础通俗(1)

`三类常用的metacharacters的简写形式（偷懒需要）`

`点(dot)字符的使用`

`win and 类unix系统中路径分割符的匹配`

`“或”符号（alternatation)的使用方法`

`数量限定符(quantifiers)的使用方法`

`数量限定的符的两种工作模式：`

`对边界进行匹配的metacharacters`

`第一章总结：`

`后面进入Python实战部分：re module的使用`