• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

C#用正则表达式获取网页源代码标签的属性或值

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

1.有url获取到网页源代码:

using System.Web;
        using System.IO;
        using System.Net;
        private void GetHtmlinfo(string PageUrl)
        {
            WebRequest request = WebRequest.Create(PageUrl);
            WebResponse response = request.GetResponse();
            Stream resStream = response.GetResponseStream();
            StreamReader sr = new StreamReader(resStream, System.Text.Encoding.UTF8);
            string htmlinfo = sr.ReadToEnd();
            resStream.Close();
            sr.Close();       
           
        }

 

 

2.获取标签中的值:

 

using System.Text.RegularExpressions;
         /// 获取字符中指定标签的值  
      /// </summary>  
        /// <param name="str">字符串</param>  
        /// <param name="title">标签</param>  
        /// <returns></returns>  
        public static string GetTitleContent(string str, string title1, string title2)  
        {  
            string tmpStr = string.Format("<{0}[^>]*?>(?<Text>[^<]*)</ {1}>", title1, title2); //获取<title>之间内容  
  
            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);  
  
            string result = TitleMatch.Groups["Text"].Value;  
            return result;  
        }

 

 

Example:
 HTML 源文件:<span class="t1_tx">现排名:<b class="color1">20</b>

 Parameter: title1 = @"span class=""t1_tx"">现排名:<b class=""color1""";

                  title2 - "b";

3.获取标签中的属性:

/// 获取字符中指定标签的值  
      /// </summary>  
        /// <param name="str">字符串</param>  
        /// <param name="title">标签</param>  
        /// <param name="attrib">属性名</param>  
        /// <returns>属性</returns>  
        public static string GetTitleContent(string str, string title,string attrib)  
        {  
  
            string tmpStr = string.Format("<{0}[^>]*?{1}=(['\"\"]?)(?<url>[^'\"\"\\s>]+)\\1[^>]*>", title, attrib); //获取<title>之间内容  
  
            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);  
  
            string result = TitleMatch.Groups["url"].Value;  
            return result;  
        }

 


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
[C#]将NLog输出到RichTextBox,并在运行时动态修改日志级别过滤发布时间:2022-07-13
下一篇:
反射技术与工厂方法(usingC#)发布时间:2022-07-13
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap