在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:SpiderV开源软件地址:https://gitee.com/daqiangge/SpiderV开源软件介绍:#SpiderV简介:应用用来抓取垂直网站数据,系统经过简单配置即可完成典型的“条件选择”--》“搜索”--》“列表数据”这总结构的数据抓取,抽取部分通过JSOUP自己写一个实现即可。实现类要求放到(com/yzq/os/spider/v/service/spider/impl)系统支持集群模式,所有服务器代码统一,可自动化同步管理,通过数据库中的配置标识唯一主机,主机负责一些日常初始化及清理动作。每台服务器可以分别设定自动抓取任务。系统根据搜索参数配置自动生成搜索URL组合,并可以通过一次运行后,将有结果数据的搜索URL备份,下次从备份URL中取出运行,减少不必要的搜索条件提交;手动运行一次如果正常后可以设定定时任务,每天定时运行;系统采用maven管理,应用采用UTF-8编码。 软件要求:linux jdk 1.6 tomcat6+ mysql 5.5+ (InnoDB引擎,数据库编码UTF-8) 安装部署及运行:1、首先下载项目源代码;2、根据自己情况修改properties文件;3、运行maven打包war;4、部署到tomcat webapps目录下5、创建mysql账号,并执行/scripts/create_database.sql 和/scripts/init.sql(需要根据自身情况修改)6、分析要抓取的网站。可以通过WebSiteCrawlTest类来进行(收集配置数据)7、配置搜索引擎、搜索引擎参数、列表页面配置8、可选择实现数据抽取类,参考com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask9、初始化搜索URL参数http://localhost:8080/SpiderVertical/admin/createurl/form10、执行抓取http://localhost:8080/SpiderVertical/admin/spider/form11、查看运行进度http://localhost:8080/SpiderVertical/admin/statis12、运行完查看数据结果http://localhost:8080/SpiderVertical/admin/spider/view_tables 注意:使用系统请遵守Robots协议有问题请发送mail到:[email protected] |
请发表评论