C#使用Puppeteer

OStack程序员社区-中国程序员成长平台 › 门户 › 编程› c#›C#教程

原作者: [db:作者] 来自: [db:来源] 收藏邀请

Puppeteer

Puppeteer是一个Node.js库，它提供了高级API来通过DevTools协议(Chrome DevTools Protocol https://devtools.chrome.com)控制Chrome或Chromium。 Puppeteer默认情况下无头运行(headless)。

可以配置为运行完整的Chrome或Chromium，运行效果如下

Puppeteer具备以下功能：

1、页面截图和生成PDF

2、抓取动态网页内容

3、自动化表单提交，UI测试，键盘输入等

4、测试Chrome扩展程序

Puppeteer项目地址：

https://github.com/puppeteer/puppeteer

在C#中调用，是使用了Puppeteer的移植版本，puppeteer-sharp，项目地址：

https://github.com/hardkoded/puppeteer-sharp

Puppeteer-sharp是基于.Net Standard 2.0开发，所以可以运行于NET Framework 4.6.1+、 .NET Core 2.0+的版本上.

操作系统的要求是Windows 8+或Windows Server2012+。如果需要在Windows 7上运行Puppeteer-Sharp，则可以通过设置LaunchOptions.WebSocketFactory属性的值为System.Net.WebSockets.Client.Managed来实现。

对于前端开发人员来说，Puppeteer最大的用处应该就是自动化测试，而对于爬虫开发人员，Puppeteer最大的用处是可以很方便的抓取动态网页。Puppeteer就等于是一个人为操作的浏览器，你可以控制它抓取任何动态网页内容。

对比CEF

在前面的文章中，我使用了CEFSharp嵌入到界面中，来进行了动态页面的抓取(https://www.cnblogs.com/zhaotianff/p/9556270.html)，

使用Puppeteer也可以达到同样的效果，但它用起来会更加方便，因为它能以headless方式运行，不用显示在界面上。而且它封装了很多方便开发人员使用的函数。

本质上来说，Puppeteer是通过Chrome DevTools Protocol来控制Chromium浏览器，而CEF提供了Chromium浏览器本身，它是一个Web Browser控件。

抓取动态页面

1 await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
2 var browser = await Puppeteer.LaunchAsync(new LaunchOptions
3             {
4                 Headless = true
5             });
6 var page = await browser.NewPageAsync();
7 await page.GoToAsync("https://www.baidu.com");
8 var html = await page.GetContentAsync();

网页截图

 1   await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
 2   browser = await Puppeteer.LaunchAsync(new LaunchOptions
 3   {
 4                  Headless = true
 5   });
 6   var page = await browser.NewPageAsync();  //打开一个新标签
 7   await page.GoToAsync("https://www.baidu.com"); //访问页面
 8  
 9   
10  //设置截图选项
11  ScreenshotOptions screenshotOptions = new ScreenshotOptions();
12  //screenshotOptions.Clip = new PuppeteerSharp.Media.Clip() { Height = 0, Width = 0, X = 0, Y = 0 };//设置截剪区域
13  screenshotOptions.FullPage = true; //是否截取整个页面
14  screenshotOptions.OmitBackground = false;//是否使用透明背景，而不是默认白色背景
15  screenshotOptions.Quality = 100; //截图质量 0-100（png不可用）
16  screenshotOptions.Type = ScreenshotType.Jpeg; //截图格式
17 
18  await page.ScreenshotAsync("D:\\a.jpg",screenshotOptions);

截图效果如下：

保存网页为PDF

 1 await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
 2  browser = await Puppeteer.LaunchAsync(new LaunchOptions
 3  {
 4                   Headless = true
 5  });
 6 var page = await browser.NewPageAsync();  //打开一个新标签
 7 await page.GoToAsync("https://www.baidu.com"); //访问页面
 8 
 9 //设置PDF选项
10 PdfOptions pdfOptions = new PdfOptions();
11 pdfOptions.DisplayHeaderFooter = false; //是否显示页眉页脚
12 pdfOptions.FooterTemplate = "";   //页脚文本
13 pdfOptions.Format = new PuppeteerSharp.Media.PaperFormat(8.27m,11.69m);  //pdf纸张格式 英寸为单位 
14 pdfOptions.HeaderTemplate = "";   //页眉文本
15 pdfOptions.Landscape = false;     //纸张方向 false-垂直 true-水平 
16 pdfOptions.MarginOptions = new PuppeteerSharp.Media.MarginOptions() { Bottom = "0px", Left = "0px", Right = "0px", Top = "0px" }; //纸张边距，需要设置带单位的值，默认值是None
17 pdfOptions.Scale = 1m;            //PDF缩放，从0-1
18 await page.PdfAsync(path, pdfOptions);

保存出来的PDF效果并不怎么好，应该是文档宽高没控制好的原因。

重要说明：

Puppeteer需要先下载Chromium浏览器的相关文件，也就是下面这句代码执行的操作

1 await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);

可能会出现下载失败的情况，如下图：

可以从这里下载，并解压到程序运行目录。（推荐这种方式，因为出现了上面的异常，第二种方式中的链接你也访问不了）

也可以通过以下方式：

访问google chromium开源镜像网站，下载Chromium浏览器

https://commondatastorage.googleapis.com/chromium-browser-snapshots/index.html?prefix=Win_x64/

下载后解压到相应位置，然后通过指定Chromium路径来进行初始化

 1 LaunchOptions options = new LaunchOptions();
 2 options.Headless = true;
 3 options.DefaultViewport = null;
 4 //忽略证书错误
 5 options.IgnoreHTTPSErrors = true;
 6 
 7 //chromePath就是下载的Chromium浏览器解压的位置
11 options.ExecutablePath = chromePath;
12 
13 browser = await Puppeteer.LaunchAsync(options);

本文示例代码

https://github.com/zhaotianff/PuppeteerDemo

如果在使用过程中，遇到了问题，可以提个issue给我。

更加详细的Puppeteer使用教程以及爬虫相关知识，可以访问我的github

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

【C#】RBAC权限框架发布时间：2022-07-10

C#序列化与反序列化发布时间：2022-07-10

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：19157|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9981|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8320|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8690|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8632|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9649|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8615|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7994|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8647|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7530|2022-11-06

客服电话

电子邮件

C#使用Puppeteer

请发表评论

全部评论

上一篇：

下一篇：

喝醉了怎么解酒最快

PacktPublishing/Python-Machine-Learning-

sussillo/hfopt-matlab: A parallel, cpu-b

鲁东大学一米网:Win7系统USB驱动器RAM的操

emersion/go-ostatus: An OStatus library

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053