[转]C#文章采集浅析

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› c#›C#教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

文/dirain 出处/博客园

以前写了篇“百度视频采集"的思路简介，看到唯一一个人留言希望我总结一下新闻采集。今天就拿博客园的热门文章采集做个例子。说明前我得声明一点，经过在博客园混了几个月后，发现博客园首页发布的文章一般都是高手，很有参考价值。可我是一个新手，我请大家此文章的任何质疑直接留言，因为您发现问题不说出来，可能我永远会认为自己写的是正确的。
下面进入正题。首先需要注意的是采集网页上数据的唯一方式是必须获取需要采集页面的源代码，这点想必大家很清楚。因为我们不知道对方网站的数据库服务器连接方式，我们只能在页面的源代码中找寻我们想要的东西。这无疑就是对大量字符串进行处理，那么我们如何处理这些含有大量html标记与内容的代码呢?可能解决问题的方式有很多种，但我认为用正则表达式来解决这个问题会很好。
通过上面的话，我谈到了两个知识点，我们来总结一下流程。
1.获取需要采集页面的源代码。
2.利用正则表达式处理这些代码中我们想要的内容。
下面做一些准备工作，写一个实体类存储文章的信息。例如：标题、作者、发布时间、浏览次数，等。
文章信息实体类

[copy to clipboard]

CODE:

using System;
using System.Collections.Generic;
using System.Text;

namespace Plug.Article.Entity
{
/**//// <summary>
/// 采集文章信息,部分属性可留空。标题与地址如为空则默认赋值时引发异常
/// </summary>
[Serializable]
public class Article
{
private string category;

/**//// <summary>
/// 文章类别
/// </summary>
public string Category
{
get { return category; }
set { category = value; }
}
private string url;
/**//// <summary>
/// 文章连接地址
/// </summary>
public string Url
{
get
{
return url;
}
set
{
if (value == "" || value.Length <= 0)
{
throw new ApplicationException("文章的连接地址不能为空!");
}
url = value;
}
}
private string title;
/**//// <summary>
/// 文章标题
/// </summary>
public string Title
{
get
{
return title;
}
set
{
if (value == "" || value.Length <= 0)
{
throw new ApplicationException("文章的标题不能为空!");
}
title = value;
}
}
private int views;
/**//// <summary>
/// 文章浏览次数
/// </summary>
public int Views
{
get
{
return views;
}
set
{
views = value;
}
}
private int replys;
/**//// <summary>
/// 文章评论次数
/// </summary>
public int Replys
{
get
{
return replys;
}
set
{
replys = value;
}
}
private string datatime;
/**//// <summary>
/// 文章发布日期
/// </summary>
public string Datatime
{
get
{
return datatime;
}
set
{
datatime = value;
}
}
private string author;
/**//// <summary>
/// 文章作者
/// </summary>
public string Author
{
get
{
return author;
}
set
{
author = value;
}
}
private string site;
/**//// <summary>
/// 文章作者网站、文章采集网站
/// </summary>
public string Site
{
get
{
return site;
}
set
{
site = value;
}
}
}
}

获取采集网页源代码的方式，也很简单，我单独做成了一个类。
获取网页源代码

[copy to clipboard]

CODE:

using System;
using System.Collections.Generic;
using System.Text;
using System.Net;

namespace Plug.Article
{
/**//// <summary>
/// 网页操作类
/// </summary>
public class HTML
{
/**//// <summary>
/// 获取网页源代码
/// </summary>
/// <param name="url">URL路径</param>
/// <returns></returns>
public string GetHTML(string url)
{
WebClient web = new WebClient();
byte[] buffer = web.DownloadData(url);
return Encoding.Default.GetString(buffer);
}
}
}

拿到源代码，该进入关键步骤了，写正则表达式采集数据。在采集之前我们需要了解网页源代码的特征，如果都不知道我们想要什么，恐怕无法写出正则表达式。我们要采集的页面是 http://www.cnblogs.com/TopPosts.aspx 这个页面，博客园文章阅读排行榜。今日阅读排行、昨日阅读排行等信息。但我们要得到的只是如下信息：

· 我在外资公司的2个月 (阅读:1909) (评论:21) (2008-6-25 13:44)	yesry
· 为什么尽量避免使用触发器？ (阅读:1490) (评论:15) (2008-6-25 03:35)	凉面
· Discuz!NT 系统架构分析 (阅读:1391) (评论:18) (2008-6-25 12:35)	韩龙
· 硬盘那点事儿 (阅读:1342) (评论:15) (2008-6-25 11:16)	李战

只需要得到标题、阅读次数、评论、时间、作者即可。那么我们就来分析一下关键信息的源代码特征。

[copy to clipboard]

CODE:

<tr>
<td style="width:80%">
· <a >(阅读:1909) (评论:21) (2008-6-25 13:44)</span>

</td>
<td height="20">
<a >yesry</a>
</td>
</tr>

这就是我们需要采集信息的源代码。在开始写正则表达式之前我需要说明一点，我们都知道，这些内容也是动态产生的。所以它们的格式肯定是固定的。这样我们就可以利用一个正则表达式正确的采集到该页面所有信息。我觉得没必要在这片文章中详细解释正则表达式的含义，因为这需要多练习。

[copy to clipboard]

CODE:

Regex regexarticles = new Regex(".+· <a\\s+id=\".+\" href=\"(?<url>.+)\"\\s+target=\"_blank\">(?<title>.+)</a> <span\\s+class=\".+\">\\(阅读:(?<views>\\d+)\\).*\\(评论:(?<reply>\\d+)\\).*\\((?<time>.+)\\)</span>\\s*</td>\\s*<td\\s+height=\"\\d+\">\\s+<a\\s+id=\".+\" href=\"(?<blog>.+)\">(?<author>.+)</a>");

这些让您可能阅读起来很吃力，但我想学过正则表达式的人会嘲笑我，因为我的正则写的不够灵活。我要为没有接触过正则表达式的朋友简单介绍下，我也只是刚入门。正则表达式就是通过描述字符串的特征来进行匹配。这也是我们为什么需要分析页面源代码的原因。至于怎么去匹配，其实也不难，我提供一些文章给各位参考。
正则表达式学习笔记：http://hedong.3322.org/archives/000244.html
正则表达式30分钟入门：http://unibetter.com/deerchao/zhengzhe-biaodashi-jiaocheng-se.htm

我就是通过这两篇文章入门，并利用正则表达式写出了我喜欢的程序。至于更多的文章可以去网络寻找。

上面说到的是关键的正则表达式，下面还需要说一下怎么去取。

采集关键代码

[copy to clipboard]

CODE:

//网页操作对象,我用来获取网页源码
HTML html = new HTML();

//对博客园每日排行数据进行采集
string htmlcode = html.GetHTML("http://www.cnblogs.com/TopPosts.aspx","utf-8");

//提取博客园排行文章信息的正则表达式
Regex regexarticles = new Regex(".+· <a\\s+id=\".+\" href=\"(?<url>.+)\"\\s+target=\"_blank\">(?<title>.+)</a> <span\\s+class=\".+\">\\(阅读:(?<views>\\d+)\\).*\\(评论:(?<reply>\\d+)\\).*\\((?<time>.+)\\)</span>\\s*</td>\\s*<td\\s+height=\"\\d+\">\\s+<a\\s+id=\".+\" href=\"(?<blog>.+)\">(?<author>.+)</a>");

//所有匹配表达式的内容
MatchCollection marticles = regexarticles.Matches(htmlcode);

/**////遍历匹配内容
foreach (Match m in marticles)
{
Entity.Article test = new Entity.Article();
test.Category = "博客园热门文章"; //设置分类
test.Title = m.Groups["title"].Value; //设置标题
test.Url = m.Groups["url"].Value; //设置连接
test.Views = int.Parse(m.Groups["views"].Value); //设置浏览次数
test.Replys = int.Parse(m.Groups["reply"].Value); //设置评论次数
test.Datatime = m.Groups["time"].Value; //设置发布时间
test.Author = m.Groups["author"].Value; //设置作者
test.Site = m.Groups["blog"].Value; //设置文章出处
list.Add(test);
}
MatchCollection marticles = regexarticles.Matches(htmlcode);

通过此句代码获取多个匹配的内容。

[copy to clipboard]

CODE:

foreach (Match m in marticles)

循环时需要用Match类取一条匹配内容，m.Groups["title"].Value 取出指定分组中的信息，这个分组是指(?<title>.+) ，“？<title>”这就是给匹配内容分组为title的代码。代码就是这样了，没有什么技术含量，来总结一下做采集的一个流程吧。
1.取指定页面的源代码
2.分析源代码中我们想要获得内容的特征
3.通过特征写出正则表达式进行匹配
4.遍历匹配内容装入集合

流程就是这样，我把整个案例的代码打包供大家参考，如有什么问题请留言。
源码下载：
采集出的数据可能与博客园显示顺序不太一致，因为是整个页面的文章，没有做分类处理。但数据绝对是一致的。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

C# Guid 16位唯一发布时间：2022-07-10

C#中判断某个值是否存在于枚举发布时间：2022-07-10

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19218|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9995|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8331|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8700|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8644|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9666|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8630|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：8004|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8662|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7538|2022-11-06

客服电话

电子邮件

[转]C#文章采集浅析

请发表评论

全部评论

上一篇：

下一篇：

Delphi中用Webbrowser加载百度地图滚轮失效

PacktPublishing/Python-Machine-Learning-

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

emersion/go-ostatus: An OStatus library

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053