• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

Scavenger: Hadoop job 监控&清洗&报告

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称:

Scavenger

开源软件地址:

https://gitee.com/wangjiankui/Scavenger

开源软件介绍:

#Scavenger

#wiki

*项目介绍和使用说明http://git.oschina.net/wangjiankui/Scavenger/wikis/%E9%A1%B9%E7%9B%AE%E4%BB%8B%E7%BB%8D%E5%92%8C%E4%BD%BF%E7%94%A8%E8%AF%B4%E6%98%8E%EF%BC%88%E4%B8%AD%E6%96%87%EF%BC%89

#使用背景:

Hadoop 集群中会运行很多个Job, Job可能来源于MR脚本、Hive SQL 、Pig 脚本等, 最初公司的集群没有管理Job, 有些mapper数过大的Job会抢占所有的资源,造成其他Job进程的阻塞。而最初都是看JobTracker(50030)时发现再人工kill, 非常不够智能。所以就有了本项目的设想,监控JobTracker上的job,发现超过设定好的最大Mapper数或最长时间则kill 掉,然后邮件报告出来。

#其他:

  1. 很早的一个项目设想,虽然通过Hadoop的调度器可以规避本项目处理的问题,但是还是想自己写一下玩玩。
  2. 代码写的很烂,但是我会一点点完善,欢迎各路大神留言指教 :)
  3. 项目目前私有,初版完成后会公开
  4. GitHub有同一项目,更新慢于git@osc
  5. 部分代码仅适合笔者公司环境,使用时请修改,如kill job部分
  6. 例行执行参考,crontab方案:*/2 * * * * cd ~/git-osc/Scavenger/; . env.sh; python scavenger.py >> /tmp/sca.log 2>&1 &

test0722:我是新来的打工小妹


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap