在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:easycrawl开源软件地址:https://gitee.com/mountFuji/easycrawl开源软件介绍:esay介绍基于webmagic的通用爬虫抓取应用,核心在于简单易用,搭建好后轻松抓取数据 在线演示地址在线演示地址: http://easycrawl.lomoye.top/(在线演示地址第一次打开有点慢,请耐心等待) 教程文档教程文档地址: http://blog.lomoye.top/index.php/archives/15/ 前端代码https://gitee.com/mountFuji/easy-crawl-front 近期目标
软件架构软件架构说明
安装教程
使用说明
联系方式
FAQ
页面预览参与贡献
最近待修复问题最近完成功能1.创建修改爬虫时增加爬虫字段的测试爬取功能2.支持动态js渲染的页面爬取 待优化1.字段长度有些可能偏长,现在默认最多存储255个字节,应该提供用户选择字段长度2.可以定义字段的类型,比如图片链接,这样在显示的时候可以直接根据图片属性显示出图片 待修复的bug已修复的bug1.解决豆瓣爬取报403的问题,403不是因为豆瓣防爬,而是因为0.7.3版本的webmagic的SSL协议只支持TLSv1.0,自己重写了逻辑,可以支持TLSv1.22.在jdk下的jre/lib/security/java.security文件里面有一个配置项为jdk.tls.disabledAlgorithms,最好把这个给注释了,不然版本新一点的jdk可能会因为这个请求https的url会报错 码云特技
|
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13
请发表评论