Js正则常备不忘

2023年3月28日 231次阅读来源: Rico_wang

以前后端同事爬了别人家的网站，需要分析文本，他是想要知道如何通过ClassName定位，后来尽然是让我写个正则匹配表达式。汗，趁记忆力的热乎劲儿写一篇非常规文章。

♨正则表达式是什么

正则表达式是一个描述字符模式的对象，按照人的语言习惯，当我们读一段文字的时候第一印象，下面有一段文字，我们可以通过多种方式描述它，而每一种方式描述的都是下面一段文字:

###几种使用情况
····处理字符串
··需要从一段字符串中提取想要的部分                     ->match exec
··需要将一段字符串中的一部分替换组成新的字符串           ->replace
··需要将一段字符串处理成想要的数组                     ->split
····判断字符串
··判断字符串是需要的                                 ->test
··判断字符串是需要的，并确定匹配位置                    ->search

###组织正则语言
要匹配的字符串str
正则/a(\d+)[abc]rico(?=wang)/
/   a               (\d+)           [abc]        rico(?=wang)/
 str是否有a
   ↙ ↘
no      yes   → 至少要有一个数字
                     ↙  ↘
                  no     yes  →  返回()匹配的结果 → → 括号内容会被`exec` `match`最后返回
                                        ↓
                                  有a，或者b，或者c
                                     ↙   ↘  
                                   no      yes   → rico后面必须跟上wang
                                                   ↙   ↘  
                                                 no      yes → 只匹配不返回()匹配的结果
var str = 'a1cricowang'
str.match(reg) 返回：["a1crico","1"] //返回的数组第一项是所有匹配结果，第二项为()匹配的结果
var str = 'a121cricowang'
str.match(reg) 返回：["a1crico","121"] //返回的数组第一项是所有匹配结果，第二项为()匹配的结果
reg.test(str) 返回： true

♨ 几种匹配符

\d 匹配一个非负整数，等价于 [0-9]
\s 匹配一个空白字符
\w 匹配一个英文字母或数字，等价于[0-9a-zA-Z]
. 匹配除换行符以外的任意字符，等价于[^\n]

♨量词

* 匹配零个或更多个，即0~n
+ 匹配一个或更多个，即至少一个，1~n
? 匹配一个或零个
{} 一般用来表示匹配的长度，比如\d{3}表示匹配三个数字，\d{1,3} 表示匹配1~3个数字，\d{3,} 表示匹配3个以上数字。

♨ `[]` 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和数字

单字符取一个，比如[abc]会匹配a或b或c
一个[]的内容一次只能匹配一个字符
[]里面的特殊符有五个：-,\,^，其他字符都是普通字符，包括*,. ,?等
^在[^的首位时候才有特殊意义
[a|b|c]匹配的是a,|,b,|,c,五个中的其中任意一个。

♨`()`圆括号`()`是组，主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理

示例：

(abc|bcd|cde)，表示这一段是abc、bcd、cde三者之一均可，顺序也必须一致
(abc)?，表示这一组要么一起出现，要么不出现，出现则按此组内的顺序出现
(?:abc)表示找到这样abc这样一组，但不记录，不保存到$变量中，否则可以通过$x取第几个括号所匹配到的项，比如：(aaa)(bbb)(ccc)(?:ddd)(eee)，可以用$1获取(aaa)匹配到的内容，而$3则获取到了(ccc)匹配到的内容，而$4则获取的是由(eee)匹配到的内容，因为前一对括号没有保存变量
a(?=bbb) 顺序环视表示a后面必须紧跟3个连续的b
(?i:xxxx) 不区分大小写 (?s:.*) 跨行匹配.可以匹配回车符

♨`^` 与 `$`

^ 匹配一个字符串的开头，比如 (^a) 就是匹配以字母a开头的字符串
$ 匹配一个字符串的结尾,比如 (b$) 就是匹配以字母b结尾的字符串
^还有另个一个作用就是取反，比如[^xyz] 表示匹配的字符串不包含xyz

♨几种需要转义的:`( [ { \ ^ $ | ) ? * + .] }`

♨`string`方法,接受一个正则对象 `string.fn(reg)`

match返回结果：存放匹配结果的数组。该数组的内容依赖于 regexp 是否具有全局标志 g
search返回结果：第一个与 regexp 相匹配的子串的起始位置,如果没有找到任何匹配的子串，则返回-1，search()方法不执行全局匹配，它将忽略标志g。
replace 返回结果：一个新的字符串，是用 replacement 替换了 regexp 的第一次匹配或所有匹配之后得到的
split返回结果：一个字符串数组，按照正则匹配进行分割而成的数组

♨`RegExp` 对象方法,接受一个字符串 `reg.fn(string)`

test则是用来检测字符串是否匹配某一个正则表达式，如果匹配就会返回true,反之则返回false
exec返回一个数组，其中存放匹配的结果。如果未找到匹配，则返回值为 null。

♨`match` 和`exec`的区别

一个是字符串的方法，一个是正则的方法，接受参数类型不一样
在有g参数的全局匹配情况下，返回的结果不一样，match一次返回所有匹配结果，exec是使用一次，返回一个匹配结果，下次使用返回下一个匹配结果

♨贪婪模式和非贪婪模式

其实可以简单的理解，贪婪模式就是尽可能多的匹配，非贪婪模式就是尽可能少的匹配.
贪婪模式量词：{x,y} , {x,} , ? , * , 和 +,匹配到它需要的第一个满足条件之后,贪婪模式则会继续向右边进行匹配下去
非贪婪模式量词： {x,y}?，{x,}?，??，*?，和 +?,所以非贪婪模式就是在贪婪模式后面加了一个问号,当它匹配到它需要的第一个满足条件之后，他就会停止了。而。

♨零宽正向断言和负向断言，只做判断是否符合`()`中的规则，并不匹配`()`中的规则。

(?=)零宽正向断言: 括号内表示某个位置右边必须和=右边匹配上
(?!)负向断言: 括号内表示某个位置右边不和!后的字符匹配。

补 : 发现缺少全面的正则基础知识查找补一条连接点这里，缺少的可以在这里找，比如说哪个字符是匹配大小写之类的。2018.5.25更新

文章分三次更新，后期不定期更新修改

    原文作者：Rico_wang
    原文地址: https://www.jianshu.com/p/2ebfab2a2958
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。

♨正则表达式是什么

♨ 几种匹配符

♨量词

♨ [] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和数字

♨()圆括号()是组，主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理

♨^ 与 $

♨几种需要转义的:( [ { \ ^ $ | ) ? * + .] }

♨string方法,接受一个正则对象 string.fn(reg)

♨RegExp 对象方法,接受一个字符串 reg.fn(string)

♨match 和exec的区别