C#正则表达式编程（三）：Match类和Group类用法

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› c#›C#教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

前面两篇讲述了正则表达式的基础和一些简单的例子，这篇将稍微深入一点探讨一下正则表达式分组，在.NET中正则表达式分组是用Match类来代表的。
首先先看一段代码：

/// <summary>
/// 显示Match内多个Group的例子
/// </summary>
public void ShowStructure()
{
    //要匹配的字符串
    string text = "1A 2B 3C 4D 5E 6F 7G 8H 9I 10J 11Q 12J 13K 14L 15M 16N ffee80 #800080";
    //正则表达式
    string pattern = @"((/d+)([a-z]))/s+";
    //使用RegexOptions.IgnoreCase枚举值表示不区分大小写
    Regex r = new Regex(pattern, RegexOptions.IgnoreCase);
    //使用正则表达式匹配字符串，仅返回一次匹配结果
    Match m = r.Match(text);
    while (m.Success)
    {
        //显示匹配开始处的索引值和匹配到的值
        System.Console.WriteLine("Match=[" + m + "]");
        CaptureCollection cc = m.Captures;
        foreach (Capture c in cc)
        {
            Console.WriteLine("/tCapture=[" + c + "]");
        }
        for (int i = 0; i < m.Groups.Count; i++)
        {
            Group group = m.Groups[i];
            System.Console.WriteLine("/t/tGroups[{0}]=[{1}]", i, group);
            for (int j = 0; j < group.Captures.Count; j++)
            {
                Capture capture = group.Captures[j];
                Console.WriteLine("/t/t/tCaptures[{0}]=[{1}]", j, capture);
            }
        }
        //进行下一次匹配.
        m = m.NextMatch();
    }
}

这段代码的执行效果如下：
Match=[1A ]
    Capture=[1A ]
        Groups[0]=[1A ]
            Captures[0]=[1A ]
        Groups[1]=[1A]
            Captures[0]=[1A]
        Groups[2]=[1]
            Captures[0]=[1]
        Groups[3]=[A]
            Captures[0]=[A]
Match=[2B ]
    Capture=[2B ]
        Groups[0]=[2B ]
            Captures[0]=[2B ]
        Groups[1]=[2B]
            Captures[0]=[2B]
        Groups[2]=[2]
            Captures[0]=[2]
        Groups[3]=[B]
            Captures[0]=[B]
..................此去省略一些结果
Match=[16N ]
    Capture=[16N ]
        Groups[0]=[16N ]
            Captures[0]=[16N ]
        Groups[1]=[16N]
            Captures[0]=[16N]
        Groups[2]=[16]
            Captures[0]=[16]
        Groups[3]=[N]
            Captures[0]=[N]
通过对上面的代码结合代码的分析，我们得出下面的结论，在((/d+)([a-z]))/s+这个正则表达式里总共包含了四个Group，即分组，按照默认的从左到右的匹配方式，其中Groups[0]代表了整个分组，其它的则是子分组，用示意图表示如下：

在上面的代码中是采用了Regex类的Match()方法，调用这种方法返回的是一个Match，要处理分析全部的字符串，还需要在while循环的中通过Match类的NextMatch()方法返回下一个可能成功的匹配（可通过Match类的Success属性来判断是否成功匹配）。上面的代码还可以写成如下形式：

/// <summary>
/// 使用Regex类的Matches方法所有所有的匹配
/// </summary>
public void Matches()
{
    //要匹配的字符串
    string text = "1A 2B 3C 4D 5E 6F 7G 8H 9I 10J 11Q 12J 13K 14L 15M 16N ffee80 #800080";
    //正则表达式
    string pattern = @"((/d+)([a-z]))/s+";
    //使用RegexOptions.IgnoreCase枚举值表示不区分大小写
    Regex r = new Regex(pattern, RegexOptions.IgnoreCase);
    //使用正则表达式匹配字符串，返回所有的匹配结果
    MatchCollection matchCollection = r.Matches(text);
    foreach (Match m in matchCollection)
    {
        //显示匹配开始处的索引值和匹配到的值
        System.Console.WriteLine("Match=[" + m + "]");
        CaptureCollection cc = m.Captures;
        foreach (Capture c in cc)
        {
            Console.WriteLine("/tCapture=[" + c + "]");
        }
        for (int i = 0; i < m.Groups.Count; i++)
        {
            Group group = m.Groups[i];
            System.Console.WriteLine("/t/tGroups[{0}]=[{1}]", i, group);
            for (int j = 0; j < group.Captures.Count; j++)
            {
                Capture capture = group.Captures[j];
                Console.WriteLine("/t/t/tCaptures[{0}]=[{1}]", j, capture);
            }
        }
    }
}

上面的这段代码和采用While循环遍历所有匹配的结果是一样的，在实际情况中有可能出现不需要全部匹配而是从某一个位置开始匹配的情况，比如从第32个字符处开始匹配，这种要求可以通过Match()或者Matches()方法的重载方法来实现，仅需要将刚才的实例代码中的MatchCollection matchCollection = r.Matches(text);改为MatchCollection matchCollection = r.Matches(text,48);就可以了。

输出结果如下：
Match=[5M ]
        Capture=[5M ]
                Groups[0]=[5M ]
                        Captures[0]=[5M ]
                Groups[1]=[5M]
                        Captures[0]=[5M]
                Groups[2]=[5]
                        Captures[0]=[5]
                Groups[3]=[M]
                        Captures[0]=[M]
Match=[16N ]
        Capture=[16N ]
                Groups[0]=[16N ]
                        Captures[0]=[16N ]
                Groups[1]=[16N]
                        Captures[0]=[16N]
                Groups[2]=[16]
                        Captures[0]=[16]
                Groups[3]=[N]
                        Captures[0]=[N]
注意上面的MatchCollection matchCollection = r.Matches(text,48)表示从text字符串的位置48处开始匹配，要注意位置0位于整个字符串的之前，位置1位于字符串中第一个字符之后第二个字符之前，示意图如下（注意是字符串“1A”与“2B”之间有空格）：

在text的位置48处正好是15M中的5处，因此返回的第一个Match是5M而不是15M。这里还继续拿出第一篇中的图来，如下：

从上图可以看出Capture、Group及Match类之间存在继承关系，处在继承关系顶端的Capture类中就定义了Index、Length和Value属性，其中Index表示原始字符串中发现捕获子字符串的第一个字符的出现位置，Length属性表示子字符串的长度，而Value属性表示从原始字符串中捕获的子字符串，利用这些属性可以实现一些比较复杂的应用。例如在现在还有很多论坛仍没有使用所见即所得的在线编辑器，而是使用了一种UBB编码的编辑器，使用所见即所得的编辑器存在着一定的安全风险，比如可以在源代码中嵌入js代码或者其它恶意代码，这样浏览者访问时就会带来安全问题，而使用UBB代码就不会代码这个问题，因为UBB代码包含了有限的、但不影响常规使用的标记并且支持UBB代码的编辑器不允许直接在字符串中出现HTML代码，也而就避免恶意脚本攻击的问题。在支持UBB代码的编辑器中输入的文本在存入数据库中保存的形式是UBB编码，显示的时候需要将UBB编码转换成HTML代码，例如下面的一段代码就是UBB编码：
[url]http://zhoufoxcn.blog.51cto.com[/url][url=http://blog.csdn.net/zhoufoxcn]周公的专栏[/url]
下面通过例子演示如何将上面的UBB编码转换成HTML代码：

下面通过例子演示如何将上面的UBB编码转换成HTML代码：
/// <summary>
/// 下面的代码实现将文本中的UBB超级链接代码替换为HTML超级链接代码
/// </summary>
public void UBBDemo()
{
    string text = "[url=http://zhoufoxcn.blog.51cto.com][/url][url=http://blog.csdn.net/zhoufoxcn]周公的专栏[/url]";
    Console.WriteLine("原始UBB代码：" + text);
    Regex regex = new Regex(@"(/[url=([ /S/t]*?)/])([^[]*)(/[//url/])", RegexOptions.IgnoreCase);
    MatchCollection matchCollection = regex.Matches(text);
    foreach (Match match in matchCollection)
    {
        string linkText = string.Empty;
        //如果包含了链接文字，如第二个UBB代码中存在链接名称，则直接使用链接名称
        if (!string.IsNullOrEmpty(match.Groups[3].Value))
        {
            linkText = match.Groups[3].Value;
        }
        else//否则使用链接作为链接名称
        {
            linkText = match.Groups[2].Value;
        }
        text = text.Replace(match.Groups[0].Value, "<a href="/" mce_href="/""" + match.Groups[2].Value + "/" target=/"_blank/">" + linkText + "</a>");
    }
    Console.WriteLine("替换后的代码："+text);
}

程序执行结果如下：

原始UBB代码：[url=http://zhoufoxcn.blog.51cto.com][/url][url=http://blog.csdn.net/zhoufoxcn]周公的专栏[/url]
替换后的代码：<a href="http://zhoufoxcn.blog.51cto.com" target="_blank">http://zhoufoxcn.blog.51cto.com</a><a href="http://blog.csdn.net/zhoufoxcn"target="_blank">周公的专栏</a>
上面的这个例子就稍微复杂点，对于初学正则表达式的朋友来说，可能有点难于理解，不过没有关系，后面我会讲讲正则表达式。在实际情况下，可能通过match.Groups[0].Value这种方式不太方便，就想在访问DataTable时写string name=dataTable.Rows[i][j]这种方式一样，一旦再次调整，这种通过索引的方式极容易出错，实际上我们也可以采用名称而不是索引的放来来访问Group分组，这个也会在以后的篇幅中去讲。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

C#判别系统版本以及Win10的识别办法发布时间：2022-07-10

本文利用C#和.NET提供的类来轻松创建一个抓取网页内容源代码的程序 ...发布时间：2022-07-10

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19128|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9972|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8317|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8686|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8626|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9643|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8611|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7991|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8641|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7527|2022-11-06

客服电话

电子邮件

C#正则表达式编程（三）：Match类和Group类用法

请发表评论

全部评论

上一篇：

下一篇：

krishnaik06/Machine-Learning-in-90-days

美元符号为什么是“$”

Mekolaos/Aternos-On-Discord: A Discord B

Matlab练习1

FNNDSC/matlab: Matlab Projects and Snipp

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053