Js正则常备不忘

以前后端同事爬了别人家的网站,需要分析文本,他是想要知道如何通过ClassName定位,后来尽然是让我写个正则匹配表达式。汗,趁记忆力的热乎劲儿写一篇非常规文章。

♨正则表达式是什么

   正则表达式是一个描述字符模式的对象,按照人的语言习惯,当我们读一段文字的时候第一印象,下面有一段文字,我们可以通过多种方式描述它,而每一种方式描述的都是下面一段文字:

###几种使用情况
····处理字符串
··需要从一段字符串中提取想要的部分                     ->match exec
··需要将一段字符串中的一部分替换组成新的字符串           ->replace
··需要将一段字符串处理成想要的数组                     ->split
····判断字符串
··判断字符串是需要的                                 ->test
··判断字符串是需要的,并确定匹配位置                    ->search
###组织正则语言
要匹配的字符串str
正则/a(\d+)[abc]rico(?=wang)/
/   a               (\d+)           [abc]        rico(?=wang)/
 str是否有a
   ↙ ↘
no      yes   → 至少要有一个数字
                     ↙  ↘
                  no     yes  →  返回()匹配的结果 → → 括号内容会被`exec` `match`最后返回
                                        ↓
                                  有a,或者b,或者c
                                     ↙   ↘  
                                   no      yes   → rico后面必须跟上wang
                                                   ↙   ↘  
                                                 no      yes → 只匹配不返回()匹配的结果
var str = 'a1cricowang'
str.match(reg) 返回:["a1crico","1"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果
var str = 'a121cricowang'
str.match(reg) 返回:["a1crico","121"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果
reg.test(str) 返回: true
♨ 几种匹配符
  • \d 匹配一个非负整数, 等价于 [0-9]
  • \s 匹配一个空白字符
  • \w 匹配一个英文字母或数字,等价于[0-9a-zA-Z]
  • . 匹配除换行符以外的任意字符,等价于[^\n]
♨量词
  • * 匹配零个或更多个,即0~n
  • + 匹配一个或更多个,即至少一个,1~n
  • ? 匹配一个或零个
  • {} 一般用来表示匹配的长度,比如\d{3}表示匹配三个数字,\d{1,3} 表示匹配1~3个数字,\d{3,} 表示匹配3个以上数字。
[] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和数字
  • 单字符取一个,比如[abc]会匹配abc
  • 一个[]的内容一次只能匹配一个字符
  • []里面的特殊符有五个:-,\,^,其他字符都是普通字符,包括*,. ,?
  • ^[^的首位时候才有特殊意义
  • [a|b|c]匹配的是a,|,b,|,c,五个中的其中任意一个。
()圆括号()是组,主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理

示例:

  • (abc|bcd|cde),表示这一段是abcbcdcde三者之一均可,顺序也必须一致
  • (abc)?,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现
  • (?:abc)表示找到这样abc这样一组,但不记录,不保存到$变量中,否则可以通过$x取第几个括号所匹配到的项,比如:(aaa)(bbb)(ccc)(?:ddd)(eee),可以用$1获取(aaa)匹配到的内容,而$3则获取到了(ccc)匹配到的内容,而$4则获取的是由(eee)匹配到的内容,因为前一对括号没有保存变量
  • a(?=bbb) 顺序环视 表示a后面必须紧跟3个连续的b
  • (?i:xxxx) 不区分大小写 (?s:.*) 跨行匹配.可以匹配回车符
^$
  • ^ 匹配一个字符串的开头,比如 (^a) 就是匹配以字母a开头的字符串

  • $ 匹配一个字符串的结尾,比如 (b$) 就是匹配以字母b结尾的字符串

  • ^还有另个一个作用就是取反,比如[^xyz] 表示匹配的字符串不包含xyz

♨几种需要转义的:( [ { \ ^ $ | ) ? * + .] }
string方法,接受一个正则对象 string.fn(reg)
  • match返回结果:存放匹配结果的数组。该数组的内容依赖于 regexp 是否具有全局标志 g
  • search返回结果:第一个与 regexp 相匹配的子串的起始位置,如果没有找到任何匹配的子串,则返回-1search()方法不执行全局匹配,它将忽略标志g。
  • replace 返回结果:一个新的字符串,是用 replacement 替换了 regexp 的第一次匹配或所有匹配之后得到的
  • split返回结果:一个字符串数组,按照正则匹配进行分割而成的数组
RegExp 对象方法,接受一个字符串 reg.fn(string)
  • test则是用来检测字符串是否匹配某一个正则表达式,如果匹配就会返回true,反之则返回false
  • exec返回一个数组,其中存放匹配的结果。如果未找到匹配,则返回值为 null。
matchexec的区别
  • 一个是字符串的方法,一个是正则的方法,接受参数类型不一样
  • 在有g参数的全局匹配情况下,返回的结果不一样,match一次返回所有匹配结果,exec是使用一次,返回一个匹配结果,下次使用返回下一个匹配结果
♨贪婪模式和非贪婪模式
  • 其实可以简单的理解,贪婪模式就是尽可能多的匹配,非贪婪模式就是尽可能少的匹配.
  • 贪婪模式量词:{x,y} , {x,} , ? , * , 和 +,匹配到它需要的第一个满足条件之后,贪婪模式则会继续向右边进行匹配下去
  • 非贪婪模式量词: {x,y}?{x,}???*?,和 +?,所以非贪婪模式就是在贪婪模式后面加了一个问号,当它匹配到它需要的第一个满足条件之后,他就会停止了。而。
♨零宽正向断言和负向断言,只做判断是否符合()中的规则,并不匹配()中的规则。
  • (?=)零宽正向断言: 括号内表示某个位置右边必须和=右边匹配上
  • (?!)负向断言: 括号内表示某个位置右边不和!后的字符匹配。

补 : 发现缺少全面的正则基础知识查找 补一条连接点这里,缺少的可以在这里找,比如说哪个字符是匹配大小写之类的。2018.5.25更新

文章分三次更新,后期不定期更新修改

    原文作者:Rico_wang
    原文地址: https://www.jianshu.com/p/2ebfab2a2958
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞