• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

zongtui-webcrawler: 基于hadoop思维的分布式网络爬虫。

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

zongtui-webcrawler

开源软件地址:

https://gitee.com/zongtui/zongtui-webcrawler

开源软件介绍:

#zongtui-webcrawler

众推,基于机器学习和深度学习的开源项目,主要处理网络爬虫、文本挖掘等相关的内容!

1)实现基于hadoop思维的分布式网络爬虫,在完善和深入。2)实现各种包括去重分析、关键字提取、情感分析、文本分类处理等。

核心设计思路是可以接入任何一种爬虫,并且可以针对此种爬虫的问题进行扩展。

欢迎加入讨论:众推 194338168

rule是规则解析core是核心调度plugin是插件sourceer是数据源,也就是爬虫store是存储

以下为爬虫列表:http://www.oschina.net/search?scope=project&q=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB

项目中所用的编译版本为JDK1.7。

大数据博客整理:https://github.com/jxqlovejava/PopularBlogSites/blob/master/README.md


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap