• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

SpiderV: java编写的带有web管理后台的抓取程序,自动生成搜索URL,简单实现数据抽取 ...

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

SpiderV

开源软件地址:

https://gitee.com/daqiangge/SpiderV

开源软件介绍:

#SpiderV简介:应用用来抓取垂直网站数据,系统经过简单配置即可完成典型的“条件选择”--》“搜索”--》“列表数据”这总结构的数据抓取,抽取部分通过JSOUP自己写一个实现即可。实现类要求放到(com/yzq/os/spider/v/service/spider/impl)系统支持集群模式,所有服务器代码统一,可自动化同步管理,通过数据库中的配置标识唯一主机,主机负责一些日常初始化及清理动作。每台服务器可以分别设定自动抓取任务。系统根据搜索参数配置自动生成搜索URL组合,并可以通过一次运行后,将有结果数据的搜索URL备份,下次从备份URL中取出运行,减少不必要的搜索条件提交;手动运行一次如果正常后可以设定定时任务,每天定时运行;系统采用maven管理,应用采用UTF-8编码。

软件要求:linux jdk 1.6 tomcat6+ mysql 5.5+ (InnoDB引擎,数据库编码UTF-8)

安装部署及运行:1、首先下载项目源代码;2、根据自己情况修改properties文件;3、运行maven打包war;4、部署到tomcat webapps目录下5、创建mysql账号,并执行/scripts/create_database.sql 和/scripts/init.sql(需要根据自身情况修改)6、分析要抓取的网站。可以通过WebSiteCrawlTest类来进行(收集配置数据)7、配置搜索引擎、搜索引擎参数、列表页面配置8、可选择实现数据抽取类,参考com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask9、初始化搜索URL参数http://localhost:8080/SpiderVertical/admin/createurl/form10、执行抓取http://localhost:8080/SpiderVertical/admin/spider/form11、查看运行进度http://localhost:8080/SpiderVertical/admin/statis12、运行完查看数据结果http://localhost:8080/SpiderVertical/admin/spider/view_tables

注意:使用系统请遵守Robots协议有问题请发送mail到:[email protected]


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap