• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    公众号

Hadoop 教程

RSS
  • Hadoop 编程
    Hadoop 编程
    MapReduce - 编程处理select:直接分析输入数据,取出需要的字段数据即可where: 也是对输入数据处理的过程中进行处理,判断是否需要该数据aggregation:min, max, sumgroup by: 通过Reducer实现sortjoin: map join,_ ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:245 | 回复:0
  • Hadoop IO
    Hadoop IO
    Hadoop - IO输入文件从HDFS进行读取.输出文件会存入本地磁盘.Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件.使用Reducer实例从本地磁盘回读数据.Reducer输出- 回传到HDFS.序列化序列化是指将结构化 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:232 | 回复:0
  • Hadoop 测试
    Hadoop 测试
    Hadoop 测试MRUnit单元测试Mapper和Reducer类在内存上独立运行, PipelineMapReduceDriver单线程运行.LocalJobRunner单线程运行, 且仅有一个 Reducer能够启动conf.set(mapred.job.tracker, local_来自Hadoop 教程 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:245 | 回复:0
  • Hadoop 安装
    Hadoop 安装
    Hadoop安装下载Hadoop安装包Hadoop官网:http://hadoop.apache.org/解压Hadoop安装包(只在master做)确保 network 网络已经配置好,使用Xftp等类似工具进行上传,把 hadoop-2.7.5.tar.gz 上传到 /opt/hadoop_来自Ha ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:241 | 回复:0
  • Hadoop 配置
    Hadoop 配置
    配置hadoop之前做好准备工作1.修改主机名称,我这里创建了三个虚拟主机,分别命名node-1,node-2,node-3,进入 network 文件删掉里面的内容直接写上主机名就可以了vi /etc/sysconfig/network2.映射 IP 和主机名,之 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:223 | 回复:0
  • Hadoop 监控
    Hadoop 监控
    Hadoop 监控Log yarn.log-aggregation-enable=true如果显示错误,则日志存储在节点管理器运行节点上。当聚集启用时所有日志进行汇总,任务完成后转移到HDFS。 Hadoop集群性能监控Ganglia, Nagios使用Hadoop工具 Amba ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:231 | 回复:0
  • Hadoop 参考
    Hadoop 参考
    Hadoop - 参考Yahoo教程细细品味HadoopHDFS 原理、架构与特性介绍Hadoop MapReduce开发最佳实践MapReduce的Shuffle阶段Hadoop的最佳实践和反模式Hadoop读split_来自Hadoop 教程 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:276 | 回复:0
  • Hadoop 拓展教程
    Hadoop 拓展教程
    //www.w3cschool.cn/hadoop/hadoop_big_data_overview.html_来自Hadoop 教程……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:28 | 阅读:246 | 回复:0
  • Hadoop NodeManager
    Hadoop NodeManager
    YARN - NodeManagerNode节点下的Container管理启动时向ResourceManager注册并定时发送心跳消息,等待ResourceManager的指令监控Container的运行,维护Container的生命周期,监控Container的资源使用情况启动或停止Co ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:215 | 回复:0
  • Hadoop ApplicationMaster
    Hadoop ApplicationMaster
    YARN - ApplicationMaster单个作业的资源管理和任务监控具体功能描述:计算应用的资源需求,资源可以是静态或动态计算的,静态的一般是Client申请时就指定了,动态则需要ApplicationMaster根据应用的运行状态来决定 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:210 | 回复:0
  • Hadoop Container
    Hadoop Container
    YARN - Container基本的资源单位(CPU、内存等)Container可以加载任意程序,而且不限于Java一个Node可以包含多个Container,也可以是一个大的ContainerApplicationMaster可以根据需要,动态申请和释放Container_来 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:241 | 回复:0
  • Hadoop Failover
    Hadoop Failover
    YARN - Failover失败类型程序问题进程崩溃硬件问题失败处理任务失败运行时异常或者JVM退出都会报告给ApplicationMaster通过心跳来检查挂住的任务(timeout),会检查多次(可配置)才判断该任务是否失效一个作业的任务 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:226 | 回复:0
  • Hadoop MapReduce
    Hadoop MapReduce
    Hadoop - MapReduce简介一种分布式的计算方式指定一个Map(映#x5C04;)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组Patternmap: ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:203 | 回复:0
  • Hadoop 读取数据
    Hadoop 读取数据
    MapReduce - 读取数据通过InputFormat决定读取的数据的类型,然后拆分成一个个InputSplit,每个InputSplit对应一个Map处理,RecordReader读取InputSplit的内容给MapInputFormat决定读取数据的格式,可以是文件或数据 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:213 | 回复:0
  • Hadoop Mapper
    Hadoop Mapper
    MapReduce - Mapper主要是读取InputSplit的每一个Key,Value对并进行处理public class MapperKEYIN, VALUEIN, KEYOUT, VALUEOUT { /** * 预处理,仅在map task启动时运行_来自Hadoop 教程 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:220 | 回复:0
  • Hadoop Shuffle
    Hadoop Shuffle
    MapReduce - Shuffle对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽量减少结果的大小 每个Map完成后 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:27 | 阅读:209 | 回复:0
  • Hadoop HDFS
    Hadoop HDFS
    Hadoop - HDFS简介Hadoop Distributed File System,分布式文件系统架构Block数据块;基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:26 | 阅读:201 | 回复:0
  • Hadoop 写文件
    Hadoop 写文件
    HDFS - 写文件1.客户端将文件写入本地磁盘的 HDFS Client 文件中2.当临时文件大小达到一个 block 大小时,HDFS client 通知 NameNode,申请写入文件3.NameNode 在 HDFS 的文件系统中创建一个文件,并把该 block id ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:26 | 阅读:202 | 回复:0
  • Hadoop 读文件
    Hadoop 读文件
    HDFS - 读文件客户端向NameNode发送读取请求NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点)客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:26 | 阅读:209 | 回复:0
  • Hadoop ResourceManager
    Hadoop ResourceManager
    YARN - ResourceManager负责全局的资源管理和任务调度,把整个集群当成计算资源池,只关注分配,不管应用,且不负责容错资源管理以前资源是每个节点分成一个个的Map slot和Reduce slot,现在是一个个Container,每个 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:26 | 阅读:225 | 回复:0
  • Hadoop 可靠性
    Hadoop 可靠性
    HDFS - 可靠性 HDFS 的可靠性主要有以下几点: 冗余副本策略 机架策略 心跳机制 安全模式_来自Hadoop 教程 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:26 | 阅读:199 | 回复:0
  • Hadoop 命令工具
    Hadoop 命令工具
    HDFS - 命令工具fsck: 检查文件的完整性start-balancer.sh: 重新平衡HDFShdfs dfs -copyFromLocal 从本地磁盘复制文件到HDFS_来自Hadoop 教程……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:26 | 阅读:210 | 回复:0
  • Hadoop YARN
    Hadoop YARN
    HadoopHadoop - YARN旧的MapReduce架构JobTracker: 负责资源管理,跟踪资源消耗和可用性,作业生命周期管理(调度作业任务,跟踪进度,为任务提供容错)TaskTracker: 加载或关闭任务,定时报告任务状态此架构会有以 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:26 | 阅读:210 | 回复:0
  • Hadoop 关于
    Hadoop 关于
    Hadoop主要记录了Hadoop各个组件的基本原理,处理过程和关键的知识点等,包括HDFS、YARN、MapReduce等。本教程内容来源于 PennyWong更新日期更新内容2015-5-7Hadoop文档铺垫人产生数据的速度越来越快,机器则更加快 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:25 | 阅读:216 | 回复:0
  • Hadoop 简介
    Hadoop 简介
    Hadoop - 简介Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点特别适合写一次,读多次的场景适合大规模数据流式数据(写一次,读多次)商用硬件(一般硬件)不适合低延时的数据访问大量的 ...……
    作者:菜鸟教程小白 | 时间:2022-2-3 15:25 | 阅读:212 | 回复:0
热门推荐
专题导读
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap