正则表达式就是由普通字符(例如字符 a 到 z )以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
本文详细地列出了能在正则表达式中使用,以匹配文本的各种字符。当你需要解释一个现有的正则表达式时,可以作为一个快捷的参考。更多详细内容,请参考: Francois Liger,Craig McQueen,Pal Wilton[ 刘乐亭 译 ] C# 字符串和正则表达式参考手册 北京:清华大学出版社 2003.2
一. 匹配字符
字符类
匹配的字符
举 例
"d
从0 - 9的任一数字
"d"d 匹配 72, 但不匹配 aa 或 7a
"D
任一非数字字符
"D"D"D 匹配 abc, 但不匹配 123
"w
任一单词字符,包括 A-Z,a-z,0-9 和下划线
"w"w"w"w 匹配 Ab-2 ,但不匹配 ∑£$ %* 或 Ab_@
"W
任一非单词字符
"W 匹配@,但不匹配 a
"s
任一空白字符,包括制表符,换行符,回车符,换页符和垂直制表符
匹配在 HTML,XML 和其他标准定义中的所有传统空白字符
"S
任一非空白字符
空白字符以外的任意字符 , 如 A%&g3; 等
.
任一字符
匹配除换行符以外的任意字符除非设置了 MultiLine 先项
[…]
括号中的任一字符
[abc] 将匹配一个单字符 ,a,b 或 c.
[a-z] 将匹配从 a 到 z 的任一字符
[ ^ …]
不在括号中的任一字符
[ ^ abc] 将匹配一个 a 、 b 、 c 之外的单字符 , 可以 a,b 或 A 、 B 、 C
[a-z] 将匹配不属于 a-z 的任一字符 , 但可以匹配所有的大写字母
二. 重复字符
重复字符
含 义
举 例
{ n }
匹配前面的字符 n 次
x{2} 匹配 xx, 但不匹配 x 或 xxx
{ n, }
匹配前面的字符至少 n 次
x{2} 匹配 2 个或更多的 x, 如 xxx,xxx..
{ n,m }
匹配前面的字符至少 n 次 , 至多 m 次。如果 n 为 0 ,此参数为可选参数
x{2,4} 匹配 xx,xxx,xxxx, 但不匹配 xxxxx
?
匹配前面的字符 0 次或 1 次,实质上也是可选的
x? 匹配 x 或零个 x
+
匹配前面的字符 0 次或多次
x+ 匹配 x 或 xx 或大于 0 的任意多个 x
*
匹配前面的字符 0 次或更多次
x* 匹配 0,1 或更多个 x
三. 定位字符
定位字符
描 述
^
随后的模式必须位于字符串的开始位置,如果是一个多行字符串,则必须位于行首。对于多行文本(包含回车符的一个字符串)来说,需要设置多行标志
$
前面的模式必须位于字符串的未端,如果是一个多行字符串,必须位于行尾
"A
前面的模式必须位于字符串的开始位置,忽略多行标志
"z
前面的模式必须位于字符串的未端,忽略多行标志
"Z
前面的模式必须位于字符串的未端,或者位于一个换行符前
"b
匹配一个单词边界,也就是一个单词字符和非单词字符中间的点。要记住一个单词字符是 [a-zA-Z0-9] 中的一个字符。位于一个单词的词首
"B
匹配一个非单词字符边界位置,不是一个单词的词首
注:定位字符可以应用于字符或组合,放在字符串的左端或右端
四. 分组字符
分组字符
定 义
举 例
()
此字符可以组合括号内模式所匹配的字符, 它是一个捕获组,也就是说模式匹配的字符作为最终设置了 ExplicitCapture 选项――默认状态下字符不是匹配的一部分
输入字符串为: ABC1DEF2XY
匹配 3 个从 A 到 Z 的字符和 1 个数字的正则表达式:( [A-Z]{3}"d )
将产生两次匹配: Match 1=ABC1;Match 2=DEF2
每次匹配对应一个组: Match1 的第一个组= ABC;Match2 的第 1 个组= DEF
有了反向引用,就可以通过它在正则表达式中的编号以及 C# 和类 Group,GroupCollection 来访问组。如果设置了 ExplicitCapture 选项,就不能使用组所捕获的内容
( ?: )
此字符可以组合括号内模式所匹配的字符, 它是一个非捕获组,这意味着模式所的字符将不作为一个组来捕获,但它构成了最终匹配结果的一部分。它基本上与上面的组类型相同,但设定了选项 ExplicitCapture
输入字符串为: 1A BB SA 1 C
匹配一个数字或一个 A 到 Z 的字母,接着是任意单词字符的正则表达式为:( ?:"d|[A-Z]"w )
它将产生 3 次匹配:每 1 次匹配= 1A ;每 2 次匹配= BB; 每 3 次匹配= SA
但是没有组被捕获
( ?<name> )
此选项组合括号内模式所匹配的字符,并用尖括号中指定 的值为组命名。在正则表达式中,可以使用名称进行反向引用,而不必使用编号。即使不设置 ExplicitCapture 选项,它也是一个捕获组。这意味着反向引用可以利用组内匹配的字符,或者通过 Group 类访问
输入字符串为: Characters in Sienfeld included Jerry Seinfeld,Elaine Benes,Cosno Kramer and George Costanza 能够匹配它们的姓名,并在一个组 llastName 中捕获姓的正则表达式为: "b[A-Z][a-z]+(?<lastName>[A-Z][a-z]+)"b
请发表评论