• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

Asp.net解析HTML并利用XPATH分析提取内容

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

HTML解析器有很多种,最常用的是HtmlAgilityPack和SgmlReader(http://sourceforge.net/projects/dekiwiki/files/SgmlReader/)。

这里使用的是HtmlAgilityPack

下载地址:http://htmlagilitypack.codeplex.com

同时官网提供了一个自动生成xpath路径的工具HAP Explorer

关于XPATH表达式以及相关教程参见:XPath表达式精选[更新中...]

获取HTML的方式有很多种:

1.通过HttpWebRequest类可实现模拟登录并获取页面信息

2.用第三方控件模拟登录,参见:正在做简历搬家功能,分享一下研究过程

使用方法:

首先引用HtmlAgilityPack的DLL文件 using HtmlAgilityPack;

根据XPath提取内容的函数: 


     
/// <summary>

/// 根据XPATH获取筛选的字符串

/// </summary>

/// <param name="content">需要提取HTML的内容</param>

/// <param name="xpath">XPath表达式</param>

/// <param name="separ">分隔符</param>

/// <returns>提取后的内容</returns>

public static string GetStrByXPath(string content, string xpath, string separ)

{

HtmlDocument doc1
= new HtmlDocument();

doc1.LoadHtml(content);

HtmlNodeCollection repeatNodes
= doc1.DocumentNode.SelectNodes(xpath);

string text = "";

//循环节点

foreach (HtmlNode node in repeatNodes)

{

text
+= node.InnerText + separ;

}

return text;

}

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
Asp.Net登陆记住用户功能实现发布时间:2022-07-10
下一篇:
在ASP.NETWebAPI中防止跨站点请求伪造(CSRF)攻击发布时间:2022-07-10
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap