聪明的程序员用Delphi，真正的程序员用C++，偷懒的程序员用PowerShell ...

原作者: [db:作者] 来自: [db:来源] 收藏邀请

感谢大家的支持，以及微软社区精英计划团队的肯定，我被邀请在微软MSDN网络建立个人主页，由于第一次建立主页的时候，需要提交相关博文的信息，为了实现该需求，我用PowerShell来完成博文的采集。本文讲述如何使用PowerShell来采集博客园上的博文信息。

需求

需要把提交的博文整理成一个表格，显示发布时间，内容标题，具体链结位置，技术分类和内容形式，入下表格。

发布时间	内容标题	具体链结位置	技术分类	内容形式
2010年07月22日	Windows Phone 7书托	http://www.cnblogs.com/procoder/archive/2010/07/22/Windows-Phone-7-Books.html	Windows Phone	博客

尽管文章列表的生成只是一次性的工作，可是Copy&Paste(拷贝粘贴)还是很annoying和error-prone（恼人和容易出错）的工作，这次继续使用PowerShell来简化工作。我承认我是一个偷懒的程序员。上次的文章讲述如何使用Powershell简化Windows Mobile和Windows Embedded CE的开发流程，可以参考如何使用PowerShell提升开发效率(以Windows Embedded CE为例)。

源代码

先上代码，然后再解析

#Global variables
$blogName = "procoder";
$articles = New-Object System.Collections.Generic.List``1[System.Object]

$OutputEncoding = New-Object -typename System.Text.UTF8Encoding;

$webClient = New-Object System.Net.WebClient;
$webClient.Encoding = [System.Text.Encoding]::UTF8;

$regex = New-Object System.Text.RegularExpressions.Regex('<a\s+;

下面是在PowerShell执行的截图，关于PowerShell的环境配置，请看上篇文章。

下面是生成的文章列表。

代码解析

$blogName = "procoder";

需要采集的博客名字，如果有需要可能把之改成自己博客的名字，这个也可以通过参数传递进来。

$articles = New-Object System.Collections.Generic.List``1[System.Object]

$articles是用于保存采集文章信息的容器。注意生成的时候格式有点怪，需要加上``1

$OutputEncoding = New-Object -typename System.Text.UTF8Encoding;

由于我使用的是英文的操作系统，所有需要把环境变量$OutputEncoding改成UTF8的编码方式。

$webClient = New-Object System.Net.WebClient;
$webClient.Encoding = [System.Text.Encoding]::UTF8;

使用WebClient进行采集，由于采集内容有中文，把编码改成UTF8.

$regex = New-Object System.Text.RegularExpressions.Regex('<a\s+>'http://www.cnblogs.com/\w+/archive/(?<year>\d+)/(?<month>\d+)/(?<day>\d+)/.+.html');

使用正则表达式来匹配采集的结果。正则表达式根据采集的内容来写，例如下面为采集到的HTML源码，根据其格式采集出题目，链接以及日期信息。

<a id="homepage1_HomePageDays_ctl00_DayList_ctl00_TitleUrl" class="postTitle2" href="http://www.cnblogs.com/procoder/archive/2010/05/17/Microsoft_Word_Save_As_PDF.html">[Office 2010 易宝典]怎样直接将Office文档保存为PDF格式？</a>

echo "Analysing Page $i ...";
$html = $webClient.DownloadString("http://www.cnblogs.com/" + $blogName +"/default.html?page=" + $i);

$matches = $regex.Matches($html);
if($matches.Count -eq 0)
{
    #No more pages
    $j = $i - 1;
    $count = $articles.Count;
    echo "Finished analysing, total $j pages and $count articles.";
break;
}

调用$webClient.DownloadString采集网页的内容，把HTML源码保存到字符串中。通过$regex.Matches($html);来匹配出标题，链接等信息。如果没有匹配，表示采集完成。

foreach ($match in $matches)
{
    $article = "" | select title, url, date, catalog, type;
    $article.title = $match.Groups["title"].Value;
    $article.url = $match.Groups["url"].Value;
    $article.catalog = "Windows Mobile`r`n Windows Embedded CE";
    $article.type = "博客";
    $date = $regexDate.Matches($article.url);
if($date.Count -gt 0)
    {
        $article.date = $date[0].Groups["year"].Value + "年" + $date[0].Groups["month"].Value + "月" + $date[0].Groups["day"].Value+ "日";
    }
else
{
        echo "Cannot find the date."
}
    $articles.Add($article);
}

匹配出年月日的信息，并且把所有匹配信息放到对象$artile中，最后存放到容器中。

# Generate the report
$head = '<style>
BODY{font-family:Verdana; background-color:lightblue;}
 TABLE{border-width: 1px;border-style: solid;border-color: black;border-collapse: collapse;}
 TH{font-size:1.3em; border-width: 1px;padding: 2px;border-style: solid;border-color: black;background-color:#FFCCCC}
 TD{border-width: 1px;padding: 2px;border-style: solid;border-color: black;background-color:white}
</style>'
$header = "<H1>博客文章列表</H1>"
$title = "博客文章列表"

$path = Get-Location;
$path = $path.Path + "/report.html";

$articles | 
  Select-Object date, title, url, catalog, type | 
  ConvertTo-HTML -head $head -body $header -title $title | 
  Out-File -FilePath $path -encoding "unicode";

最后使用ConvertTo-HTML把容器信息转换成HTML输出，然后使用Out-File导出到文件中，由于使用了中文，所有要指定编码为"unicode"。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Matlab--函数的编写和调用发布时间：2022-07-18

MATLAB FOR PROE - DoJustForFun发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19073|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9956|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8310|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8680|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8618|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9632|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8604|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7984|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8628|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7523|2022-11-06

客服电话

电子邮件

聪明的程序员用Delphi，真正的程序员用C++，偷懒的程序员用PowerShell ...

需求

源代码

代码解析

请发表评论

全部评论

上一篇：

下一篇：

PacktPublishing/Python-Machine-Learning-

微信小程序如何将6个独立页面包装成一个第

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

CVE-2022-34265

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053