Hadoop集群安装

2024-06-10 01:36:01
开发
8

集群规划

192.168.190.160
192.168.190.161
192.168.190.162

1、安装常用工具：

yum install -y epel-release
yum install -y net-tools
yum install -y rsync
yum install -y vim

2、修改主机名：hostnamectl set-hostname hadoop162

设置vim /etc/hosts
192.168.190.160       hadoop160
192.168.190.161       hadoop161
192.168.190.162       hadoop162
systemctl stop firewalld #关闭防火墙
systemctl disable firewalld #禁用防火墙

### 注意，本地Windows也要配置域名映射：否则浏览器无法浏览和下载文件
192.168.190.160 hadoop160
192.168.190.161 hadoop161
192.168.190.162 hadoop162

3、克隆linux修改主机名、IP

4、配置hadoop_home环境变量vi /etc/profile

export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
刷新环境变量：source /etc/profile

5.1、创建hadoop用户：

useradd hadoop
passwd hadoop
su hadoop
5.2 ssh免密登录
ssh localhost   #生成本机的ssh目录
ssh-keygen -t rsa   #生成秘钥
#后面是想要免密登录的节点主机名
ssh-copy-id hadoop160
ssh-copy-id hadoop161
ssh-copy-id hadoop162
chown -R hadoop:hadoop /opt/hadoop
5.3 hadoop增加suso权限，root下编辑vim /etc/sudoers
在root下面的wheel增加：hadoop ALL=(ALL)       NOPASSWD:ALL

6、编辑etc/hadoop/hadoop-env.sh

vim /opt/hadoop/hadoop-env.sh
#添加如下内容
export JAVA_HOME=/usr/local/java
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export HADOOP_PID_DIR=${HADOOP_HOME}/pid

依次编辑hadoop-env.sh、mapred-env.sh、yarn-env.sh这三个文件，确保它们的内容中都有JAVA_HOME的正确配置：
export JAVA_HOME=/usr/local/java

9、=====================编辑etc/hadoop/yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
       <description>让MR走shuffle</description>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
   <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>hadoop161</value>
   </property>
       <property>
       <name>yarn.log-aggregation-enable</name>
       <value>true</value>
   </property>
       
   <property>
       <name>yarn.log.server.url</name>
       <value>http://hadoop161:19888/jobhistory/logs/</value>
   </property>
   
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

   
   <property>
   <name>yarn.resourcemanager.am.max-attempts</name>
   <value>4</value>
   <description>The maximum number of application master execution attempts.</description>
   </property>
   


   <property>
   <name>yarn.nodemanager.pmem-check-enabled</name>
   <value>false</value>
   </property>

   <property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
   </property>

</configuration>

10、=====编辑etc/hadoop/mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
       <description>指定MapReduce jobs.运行在yarn上 Can be one of local,classic or yarn.</description>
</property>
   
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop160:10020</value>
</property>
   
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop160:19888</value>
</property>

<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
</configuration>
分发文件，-r代表覆盖，【注意】如果两个节点目录相同时,目标目录要比源目录少一层目录才会覆盖，否则不覆盖。
scp -r /opt/hadoop/etc hadoop161:/opt/hadoop
scp -r /opt/hadoop/etc hadoop162:/opt/hadoop

11、编辑etc/hadoop/workers

hadoop160
hadoop161
hadoop162

12、启动hadoop集群

hdfs namenode -format #格式化namenode
【注意：格式化NameNode会产生新的集群id，导致DataNode中记录的的集群id和刚生成的NameNode的集群id不一致，
DataNode找不到NameNode。所以，格式化NameNode时，一定要先删除每个节点的data目录和logs日志，
然后再格式化NameNode,一般只在搭建初期执行这一次。】

13、在node1执行（namenode节点）

/opt/hadoop/sbin/start-all.sh   # 启动集群,resourcemanager需要单独在对应服务器上启动
/opt/hadoop/sbin/stop-all.sh   # 停止集群
===单独启动命令：
/opt/hadoop/sbin/start-dfs.sh   # 启动hdfs
/opt/hadoop/sbin/start-yarn.sh   #启动yarn
# 停止
/opt/hadoop/sbin/stop-dfs.sh
/opt/hadoop/sbin/stop-yarn.sh
单个启动namenode的指令如下   sbin/hadoop-daemon.sh start namenode
单个启动Datanode的指令如下   sbin/hadoop-daemon.sh start datanode
启动yarn命令：yarn --daemon start resourcemanager / nodemanager
历史服务启停   mapred --daemon start historyserver

=====如果resourceManager无法启动，可以查看logs目录下的报错信息，
netstat -tuln | grep <端口号>

14、在配置的162机器启动历史服务：

mapred --daemon start historyserver
15、*****每个节点使用jps命令验证进程是否正确*****
访问NN的webUI地址 http://192.168.190.160:9870
访问YARN的webUI 地址：http://192.168.190.161:8088
访问历史服务http://192.168.190.160:19888

至此搭建完成，可使用Hadoop自带的脚本测试wordcount
hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar wordcount /hadoop/input /hadoop/output
在output目录查看计算结果

原文地址:https://blog.csdn.net/sl4379/article/details/139435077 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1799857999230144512.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部