jy-spider: 惊讶网站的垂直爬取网页程序，提供UI来管理爬取的网站和爬取文章内容的规 ...

原作者: [db:作者] 来自: 网络收藏邀请

开源软件名称：

jy-spider

开源软件地址：

https://gitee.com/yuejing/suyunyou-spider

开源软件介绍：

速云优网络爬虫 - 功能简介

速云优网站的垂直爬取网页程序，提供UI来管理爬取的网站和爬取文章内容的规则。通过jsoup来获取标题和内容，主要是通过选择器获取。链接的提取通过正则表达式来匹配，[如：http://www.runoob.com/java/[\w|\d|-]+.html] 代表匹配java/后面的任意字符的html结尾的地址。标题选择器：#content>h1，代表获取内容里ID为content，并找到下面的h1标签的内容为标题内容选择器：#content，代表获取内容里ID为content的内容为内容爬取的内容会保存到数据库中[具体表为page_info]。如果需要更多的提取页面内容规则可以在[com.suyunyou.spider.plugins.page]包下写自己的插件，在SpiderUtil.addSiteFetcherPage(...)方法中添加使用。如果需要更多的提取内容的链接的规则可以在[com.suyunyou.spider.plugins.link]包下写自己的插件。提取微信公众号信息，通过LinkWeixinPlugin插件提炼链接

初始程序

初始程序，先执行创建数据库名称spider、用户名root密码root，表结构会在程序启动时自动创建。数据库链接在[application.properties]文件中修改。启动redis，修改resources下的application.properties文件中的redis配置的信息。然后执行测试爬虫的初始数据的脚本[doc/init.sql]。

登录地址：http://127.0.0.1:6080/账户：admin密码：123456

爬取网站的维护页面爬取网站管理

网站爬取页面规则管理的页面

爬取到的链接管理的页面

爬取的内容管理的页面

已完成

开发链接管理功能，要可以批量删除链接等将文章和域名关联起来开发提取网站的内容列表预览开发网页管理，添加提取的网站定义提取内容的链接的规则定义提取内容的格式根据提供的链接分析改链接下面的字连接，同时下载对应的页面到内存中。

待完成

分布式需要处理的地方	重置爬虫	爬取网页的地址的分配

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

thinkphp5-restfulapi: thinkphp5 restfulAPI 基于tp5的restful风格接口，带简单的oa ...发布时间：2022-03-23

JAreaSelect-js省市区级联选择插件: javascript 区域选择器，省市区三级联动，做了se ...发布时间：2022-03-23

139-2527-9053

在线客服（服务时间 9:00～18:00）

在线QQ客服

地址：深圳市南山区西丽大学城创智工业园

电邮：jeky_zhao#qq.com

移动电话：139-2527-9053

客服电话

电子邮件

jy-spider: 惊讶网站的垂直爬取网页程序，提供UI来管理爬取的网站和爬取文章内容的规 ...

开源软件名称：

开源软件地址：

开源软件介绍：

速云优网络爬虫 - 功能简介

初始程序

已完成

待完成

请发表评论

全部评论

上一篇：

下一篇：

关于我们

产品与服务

解决方案

139-2527-9053