在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细。为了方便,本人使用三台的虚拟机系统是Ubuntu-12。设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试。单机和集群安装相差不多,先说单机然后补充集群的几点配置。 第一步,先安装工具软件 复制代码 代码如下: sudo apt-get install vim ssh服务器: openssh,先安装ssh是为了使用远程终端工具(putty或xshell等),这样管理虚拟机就方便多了。 复制代码 代码如下: sudo apt-get install openssh-server 第二步,一些基本设置 复制代码 代码如下: sudo vim /etc/network/interfaces 加入以下内容: iface eth0 inet static address 192.168.0.211 gateway 192.168.0.222 netmask 255.255.255.0 修改机器名,我这里指定的名字是:hadoopmaster ,以后用它做namenode 复制代码 代码如下: sudo vim /etc/hostname 修改hosts,方便应对IP变更,也方便记忆和识别 复制代码 代码如下: sudo vim /etc/hosts 加入内容: 192.168.0.211 hadoopmaster 第三步,添加一个专门为hadoop使用的用户 复制代码 代码如下: sudo addgroup hadoop sudo adduser -ingroup hadoop hadoop 设置hadoop用户的sudo权限 复制代码 代码如下: sudo vim /etc/sudoers 在 root ALL=(ALL:ALL) 下面加一行 hadoop ALL=(ALL:ALL) 切换到hadoop用户 su hadoop 第四步,解压安装JDK,HADOOP,PIG(顺便把PIG也安装了) 复制代码 代码如下: sudo tar zxvf ./jdk-7-linux-i586.tar.gz -C /usr/local/jvm/ sudo tar zxvf ./hadoop-1.0.4.tar.gz -C /usr/local/hadoop sudo tar zxvf ./pig-0.11.1.tar.gz -C /usr/local/pig 修改解压后的目录名并且最终路径为: 复制代码 代码如下: jvm: /usr/local/jvm/jdk7 hadoop: /usr/local/hadoop/hadoop (注意:hadoop所有节点的安装路径必须相同) pig: /usr/local/pig 设置目录所属用户 复制代码 代码如下: sudo chown -R hadoop:hadoop jdk7 sudo chown -R hadoop:hadoop hadoop sudo chown -R hadoop:hadoop pig 设置环境变量, 编辑~/.bashrc 或 ~/.profile 文件加入 复制代码 代码如下: export JAVA_HOME=/usr/local/jvm/jdk7 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH export HADOOP_INSTALL=/usr/local/hadoop/hadoop export PATH=${HADOOP_INSTALL}/bin:$PATH source ~/.profile 生效 第五步,.ssh无密码登录本机,也就是说ssh到本机不需要密码 复制代码 代码如下: ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 如果不起作用请修改权限: 复制代码 代码如下: chmod 700 ~/.ssh chmod 600 ~/.ssh/authorized_keys authorized_keys相当于白名单,id_rsa.pub是公钥,凡是在authorized_keys有请求者机器的公钥时ssh服务器直接放行,无需密码! 第六步,Hadoop必要设置 复制代码 代码如下: <property> <name>fs.default.name</name> <value>hdfs://hadoopmaster:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> </property> 3、mapred-site.xml 复制代码 代码如下: <property> <name>mapred.job.tracker</name> <value>hadoopmaster:9001</value> </property> 4、hdfs-site.xml 复制代码 代码如下: <property> <name>dfs.name.dir</name> <value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value> </property> <property> <name>dfs.data.dir</name> <value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> 5、文件masters 和 文件slaves, 单机写 localhost 即可 第七步,启动Hadoop 复制代码 代码如下: hadoop namenode -format 执行Hadoop启动脚本,如果是集群的话在master上执行,其他slave节点Hadoop会通过ssh执行: 复制代码 代码如下: start-all.sh 执行命令 jps 如果显示有: Namenode,SecondaryNameNode,TaskTracker,DataNode,JobTracker等五个进程表示启动成功了! 第八步,集群的配置 设置ssh,让master能够不要密码登录到其他slaves上,主要用来启动slaves 复制代码 代码如下: 复制hadoopmaster下id_rsa.pub到子结点: scp ./ssh/id_rsa.pub hadoopnode1:/home/hadoop/.ssh/id_master scp ./ssh/id_rsa.pub hadoopnode2:/home/hadoop/.ssh/id_master 分别在子结点~/.ssh/目录下执行: masters文件,添加作为secondarynamenode或namenode的主机名,一行一个。 集群写master名如:hadoopmaster slaves文件,添加作为slave的主机名,一行一个。 集群写子结点名:如 hadoopnode1、hadoopnode2 Hadoop管理 参数说明: |
请发表评论