史上最简明易懂的正则表达式教程04

2025 年 8 月
一	二	三	四	五	六	日
	1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

史上最简明易懂的正则表达式教程04 By heiry on 2019-05-03 [ in 技术 ]

1. 12个元字符

学正则之前，你肯定翻过很多正则的书籍，被它们介绍的一大堆元字符搞得头大，如\d，\w，^，\A，$，\f……等等几十个，不仅难记而且容易混淆。实际上真正称得上元字符的只有12个，没错，对于元字符，你只需要记住这十二个：

[ ] \ ^ $ . | ? * + ( )

[ ] \ ^ $ . | ? * + ( )

对于这12个元字符，如果你想在正则表达式中将这些字符用作文本字符，你需要用反斜杠“\”对其进行换码 (escape)也称为转义。

—— [] 表示一个字符集。

—— \ 有多重含义。一般情况下表示转义，或特殊字符的开始。如\d,这两个字符在一起，是一个整体，有特殊的含义，表示一个数字。如果与正整数连在一起用，表示向后引用，如\1表示引用第一个分组。

—— ^ 有多重含义。表达式开头位置表示输入字符串的开始位置，在字符集开始的位置中表示取反。

—— $ 表示输入字符串的结束位置。

—— | 逻辑“或”运算符，表示在多个条件中择其一。

—— ? 有多重含义。跟在表达式后，表示量词限定词0次或1次，如\d?；跟在量词限定词后，表示非贪婪模式，如\w{3,5}?；跟在括号开始位置表示特殊指令，如(?=pattern)、(?!pattern)、(?:pattern)、(?<!pattern)等表示零宽度断言，而(?m)放在在整个正则表达式前面，表示采用“多行模式”。

—— * 量词限定词，表示前面的子表达式可出现任意次。

—— + 量词限定词，表示前面的子表达式至少出现一次。

—— ( ) 有多重含义。一般表示表达式分组，与?连用有特殊指令，如(?=pattern)、(?:pattern)

2. 特殊字符

除了12个元字符外，其它有特殊含义字符我称之为特殊字符或简易字符。特殊字符是由转义字符与普通字符结合，形成有特殊含义的一类标识符，如：

\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何不可见字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何可见字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。类似但不等价于“[A-Za-z0-9_]”，这里的”单词”字符使用Unicode字符集。
\W	匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\xn	匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。
\num	匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“(.)\1”匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。
\nml	如果n为八进制数字（0-7），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
\un	匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。

特殊字符代表的含义在w3school等网站都可以查到，这里就不做过多介绍。

上一篇史上最简明易懂的正则表达式教程05 下一篇史上最简明易懂的正则表达式教程03

Tools

Technology

Design

E-Library

Journal-Data-Reports

Resource

Thinking

Front-end

Magazine & Publisher

史上最简明易懂的正则表达式教程04

By heiry on 2019-05-03 [ in 技术 ]