正则表达式在英文中写作(Regular Expression),根据正则表达式的使用范围和单词意思,.NET将其命名空间设置为System.Text.RegularExpressions;
Capture |
用于单个表达式捕获结果 |
CaptureCollection |
用于一个序列进行字符串捕获 |
Group |
表示单个捕获的结果 |
GroupCollection |
表示捕获组的集会 |
Match |
表示匹配单个正则表达式结果 |
MatchCollection |
表示通过迭代方式应用正则表达式到字符串中 |
Regex |
表示不可变的正则表达式 |
RegexCompilationInfo |
将编译正则表达式需要提供信息 |
正则表达式基础知识
基本语法
在正则表达式中拥有一套自己的语法规则,常见语法包括;字符匹配、重复匹配、字符定位、转义匹配和其他高级语法(字符分组、字符替换和字符决策);
字符匹配语法:
字符语法 |
语法解释 |
语法例子 |
\d |
匹配数字(0~9) |
‘\d’匹配8,不匹配12; |
\D |
匹配非数字 |
‘\D’匹配c,不匹配3; |
\w |
匹配任意单字符 |
‘\w\w’ 匹配A3,不匹配@3; |
\W |
匹配非单字符 |
‘\W’匹配@,不匹配c; |
\s |
匹配空白字符 |
‘\d\s\d’匹配3 d,不匹配abc; |
\S |
匹配非空字符 |
‘\S\S\S’匹配A#4,不匹配3 d; |
. |
匹配任意字符 |
‘....’匹配A$ 5,不匹配换行; |
[…] |
匹配括号中任意字符 |
[b-d]匹配b、c、d, 不匹配e; |
[^…] |
匹配非括号字符 |
[^b-z]匹配a,不匹配b-z的字符; |
重复匹配语法:
重复语法 |
语法解释 |
语法例子 |
{n} |
匹配n次字符 |
\d{3}匹配\d\d\d,不匹配\d\d或\d\d\d\d |
{n,} |
匹配n次和n次以上 |
\w{2}匹配\w\w和\w\w\w以上,不匹配\w |
{n,m} |
匹配n次上m次下 |
\s{1,3}匹配\s,\s\s,\s\s\s,不匹配\s\s\s\s |
? |
匹配0或1次 |
5?匹配5或0,不匹配非5和0 |
+ |
匹配一次或多次 |
\S+匹配一个以上\S,不匹配非一个以上\S |
* |
匹配0次以上 |
\W*匹配0以上\W,不匹配非N*\W |
字符定位语法:
重复语法 |
语法解释 |
语法例子 |
^ |
定位后面模式开始位置 |
|
$ |
前面模式位于字符串末端 |
|
\A |
前面模式开始位置 |
|
\z |
前面模式结束位置 |
|
\Z |
前面模式结束位置(换行前) |
|
\b |
匹配一个单词边界 |
|
\B |
匹配一个非单词边界 |
|
转义匹配语法:
义语法 |
涉及字符(语法解释) |
语法例子 |
“\”+实际字符 |
\ . * + ? | ( ) { }^ $ |
例如:\\匹配字符“\” |
\n |
匹配换行 |
|
\r |
匹配回车 |
|
\t |
匹配水平制表符 |
|
\v |
匹配垂直制表符 |
|
\f |
匹配换页 |
|
\nnn |
匹配一个8进制ASCII |
|
\xnn |
匹配一个16进制ASCII |
|
\unnnn |
匹配4个16进制的Uniode |
|
\c+大写字母 |
匹配Ctrl-大写字母 |
例如:\cS-匹配Ctrl+S |
构造正则表达的方法
构造正则表达式需要涉及Regex类,在Regex类中包括:IsMatch()、Replace()、Split()和Match的类;
(1) IsMatch()方法:
IsMatch()方法实际上是一个返回Bool值得方法,如果测试字符满足正则表达式返回True否则返回False;
例1;判断是非成都地区电话号码合法 分析:成都地区电话号码组成028********,前面为固定区号028,后面满足8位数字; 设计正则表达式:028\d{8}(解释:028区号固定,后面为8个数字\d组成);
(2) Replace()方法
Replace()方法实际上是一种替换的方法,替换匹配正则表达式匹配模式;
例2:在发布带有公开电子邮件地址的文章时,替换@位AT避免产生垃圾邮件;
分析:首先需要判断文章中电子邮箱地址,然后执行替换
设计正则表达式:判断电子邮箱表达式”\w{1,}@w{1,}\\.”;
(3) Split()方法
Split()方法实际上是拆分的方法,根据匹配正则表达式进行拆分储存在字符串数组中;
例3:从群发邮件地址中读取所有邮件地址;
分析:群发邮件采用“;”作为分割符,需要通过“;”进行拆分
构建表达式基本方法
构造Regex对象的构造函数包括两个重载,一个是不含参数的构造、另外一个是含有参数的构造函数;
- 基本形式Regex(string pattern);
- 重载形式Regex(string pattern,RegexOptions);
补充:RegexOptions属于枚举类型,包括IgnoreCase(忽略大小写)、ReghtToLeft(从右向左)、None(默认)、CultureInvariant(忽略区域)、Multline(多行模式)和SingleLine(单行模式);
例4,建立一个合法ISBN验证格式;
分析:ISBN格式为X-XXXXX-XXX-X;
正则表达式格式:\d-\d{5}-\d{3}-\d
构造该正则表达式函数Regex ISBNRegex = new Regex(表达式,参数为空)
例5、一个复杂的文件夹格式判断表达式(包含“\”、空格等特殊符号的应用)
private void button16_Click(object sender, EventArgs e)
{
Regex reg = new Regex("\\w*\\\\\\w{8}\\-\\w*\\s\\w*\\s\\w*\\~\\s\\w*");
String str = "资料\\20010202-课程 数学 1100~ 许孜孜";
MessageBox.Show(reg.IsMatch(str).ToString());
}
|
请发表评论