在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:MongooCrawler开源软件地址:https://gitee.com/coliza/MongooCrawler开源软件介绍:MongooCrawler一款开源分布式爬虫软件,如果喜欢这个项目记得加star哈。 MongooCrawler的优势1、分布式 参考[Spiderman](http://git.oschina.net/l-weiwei/Spiderman2)的实现正是基于redis的,但是这样redis就成为一个单点问题,那么如果网络出问题,或者redis服务器宕机会造成部分数据无法爬取这样降低用户体验,mongoocrawler参照redis cluster实现真集群部署,节点之间可以相互通讯,当部分节点无法访问时也不影响爬虫的可用性。 2、验证码 这些框架并没有提供验证码的解决方案,MongooCrawler会根据作者的亲身经历提供一些解决方案 3、cookie cookie提供自动跟踪的开关,流行的部分开源爬虫框架并不能有效解决sso单点登录中跨域携带cookie的问题,MongooCrawler会提供解决方案。 4、反爬策略 流行的部分爬虫框架没有提供简单易用的访问频次的控制,必须依赖用户手动硬编码调用函数控制。user-agent等头信息也没提供简单易用的管理接口,完全依赖用户硬编码。 5、高性能 流行的部分爬虫框架并没有实现弹性控制,没有根据不同节点的性能差异有效利用不同节点的硬件资源,没有做熔断机制和监控,这些都是MongooCrawler会做的 ### 更新说明 2017-07-02 增加对数据库连接池druid的支持,提高mysql数据库存储效率 下一步计划1、部署到服务器上试运行演示网站 2、集群支持(未开发) |
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13
请发表评论