• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

PageSpider: 一个简单的页面爬虫工具,适用爬取不太复杂的网页中的图片和文本。 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

PageSpider

开源软件地址:

https://gitee.com/zxhm/PageSpider

开源软件介绍:

页面爬虫工具

一个简单的页面爬虫工具,适用爬取不太复杂的网页中的图片和文本。

技术

  • .Net Framework 4.5.2
  • .CefSharp 67 程序中的浏览器控件
  • .AngleSharp Dom解析

参数说明:

  • 主页URL:要爬取的主页面地址,必填
  • 主页选择器:主页面中要爬去取的内容的选择器或者导航到子页面的链接的选择器,必填
  • 标题选择器:主页面中要爬取的内容的标题或者导航到子页面的标题要素选择器,必填
  • 下页选择器:主页面中下一页链接的选择器,与主页翻页数配合使用
  • 次页选择器:子页面中要抓取的内容的选择器,如果有次页选择器,则主页选择器只是链接,不抓取内容
  • 次标选择器:子页面中标题要素的选择器
  • 次下选择器:子页面中下一页链接的选择器
  • 文件名前缀:抓取的图片或者txt文件的文件名前缀
  • 保存文件夹:抓取的文件保存的根文件夹
  • 主页翻页数:与下页选择器配合使用,如果翻页数是1,则不需要下页选择器

示例

发现中国

  • 运行参数:image
  • 结果文件夹:image
  • 结果文件:!image

小众软件

  • 运行参数:image
  • 结果文件夹:image
  • 结果文件:image

妹子图

  • 运行参数:image
  • 结果文件夹:image
  • 结果文件:image

待完善

  • 软件只支持结构比较简单的页面抓取,太复杂的会出问题
  • 代码目前做的错误处理不完善
  • html内容转成文本文件时对html标签特别是js代码的处理不够干净

鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap