c#关于网页内容抓取，简单爬虫的实现。（包括动态，静态的） ...

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› C++›C++教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

整理一下最近做的几个项目。总结几个用到的知识点和关键部分代码，以供大家学习交流。
1、爬虫抓取网页内容信息。可以用System.Net.WebRequest、webclient等类来处理。
2、对于某些动态网页，生成页面信心由javascript动态生成链接信息的。也可以进行分析传值的方式，在post的时候将参数带进去（大多数网站的参数是有规则的）。实在不行也可以使用webbrowser控件，模拟点击。或传值。
以http://www.aslan.com.cn/Code.aspx网站为例。
部分代码如下：

//使用webbrowser访问指定网页。address为网页地址

private void Navigate(WebBrowser web,String address)
        {
            if (String.IsNullOrEmpty(address)) return;
            if (address.Equals("about:blank")) return;
            if (!address.StartsWith("http://")) address = "http://" + address;
            try
            {
                web.Navigate(new Uri(address));
            }
            catch (System.UriFormatException)
            {
                return;
            }

}

由于要抓取网页内容及在加载完毕后提交参数所以需要验证加载完毕即DocumentCompleted。而在实际使用过程当中，发现在一个页面的加载过程中可能会有多次DocumentCompleted，所以在这里采用+1、-1的方式来判断是否加载完毕。

首先在formload中绑定网页加载完毕事件。

private void getCode3webBrowser_Load(object sender, EventArgs e) { string address = "http://www.aslan.com.cn/Code.aspx"; this.Navigate(webBrowser1, address); webBrowser1.Navigated += new WebBrowserNavigatedEventHandler(webBrowser_Navigated); webBrowser1.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(webBrowser_DocumentCompleted); }

并且定义标示count

int count = 0;然后在每次导航后给标示+1
private void webBrowser_Navigated(object sender, WebBrowserNavigatedEventArgs e) { count++; }

在每次DocumentCompleted中给count-1，最后当count=0时即表示页面加载完毕。可以进行对页面信息的处理等操作了。

private void webBrowser_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e) { count = count - 1; string eventTarget = "dg_Code$ctl24$ctl"; if (0 == count && isComplete == false && j<=10) { eventTarget = eventTarget + getPage(j); if (!isLastPage(webBrowser1)) { InvokeScriptMethod(webBrowser1, eventTarget, ""); } else { MessageBox.Show("抓取完毕"); } postComplete = true; j++; } else if (postComplete == true) { dealWithByDOM(webBrowser1); postComplete = false; } else if (0 == count && isComplete) { System.Windows.Forms.HtmlDocument htdoc = webBrowser1.Document; for (int i = 0; i < htdoc.All.Count; i++) { if (htdoc.All[i].Name == "btn_search") { htdoc.All[i].InvokeMember("click");//引发”CLICK”事件 isComplete = false; break; } } } }

剩下的就是对html的分析，如何在茫茫多的html代码中找到我们需要的信息呢？在这里我是通过HtmlAgilityPack类来处理html内容提取的。

其中HtimlAgilityPack类是codeplex上的提供的一个类，下载地址http://htmlagilitypack.codeplex.com/用来处理html文件还是非常不错的（个人感觉挺好用）

private void dealWithByDOM(WebBrowser webBro) { HtmlAgilityPack.HtmlDocument htmlDoc = new HtmlAgilityPack.HtmlDocument(); htmlDoc.LoadHtml(webBro.DocumentText); HtmlNode Node1 = htmlDoc.GetElementbyId("dg_Code_ctl03_Label5"); HtmlNode Node2 = htmlDoc.GetElementbyId("dg_Code_ctl03_Label6"); HtmlNode Node3 = htmlDoc.GetElementbyId("dg_Code_ctl03_Label7"); HtmlNode Node4 = htmlDoc.GetElementbyId("dg_Code_ctl03_Label8"); HtmlNode Node5 = htmlDoc.GetElementbyId("dg_Code_ctl03_Label9"); DataRow dr = dt_finallyResult.NewRow(); dr["三字码"] = Node1.InnerText; dr["城市码"] = Node2.InnerText; dr["城市中文名"] = Node3.InnerText; dr["城市英文名"] = Node4.InnerText; dr["国家"] = Node5.InnerText; dt_finallyResult.Rows.Add(dr); dataGridView1.DataSource = dt_finallyResult; }

以上就是该程序的部分实现代码。最后效果图如下：（不过不到万不得已最好不要使用webbrowser的方式做爬虫，它的速度太慢了，我要抓取的信息只有286页，可是花了我将近10分钟的时间）

下面是程序运行效果图：（为了展示方便，左边为webBrowser控件导航到目标网站的结果，右边dataGridview为抓取后经过提取的所需信息。）

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

C#无视大小写比价字符串以及字符串大小写转换发布时间：2022-07-13

C++之匿名对象与析构函数的关系发布时间：2022-07-13

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19283|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：10018|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8343|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8712|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8657|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9686|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8646|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：8014|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8683|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7550|2022-11-06

客服电话

电子邮件

c#关于网页内容抓取，简单爬虫的实现。（包括动态，静态的） ...

请发表评论

全部评论

上一篇：

下一篇：

krishnaik06/Machine-Learning-in-90-days

armancodv/building-energy-model-matlab:

美元符号为什么是“$”

Delphi的按位运算详解-回复来宾"初学

FGRibreau/import-tweets-to-mastodon: How

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053

客服电话

电子邮件

c#关于网页内容抓取，简单爬虫的实现。（包括动态，静态的） ...

请发表评论

全部评论

上一篇：

下一篇：

krishnaik06/Machine-Learning-in-90-days

armancodv/building-energy-model-matlab:

美元符号为什么是“$”

Delphi的按位运算详解-回复来宾&quot;初学

FGRibreau/import-tweets-to-mastodon: How

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053

Delphi的按位运算详解-回复来宾"初学