【Hadoop】下载安装及伪分布式集群搭建教程

mkdir ./input
cp /etc/*.xml ./input
 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar  grep ./input/ ./output 'dfs[a-z.]+'
 cat ./output/*

搭建伪分布式集群：

hadoop的配置文件所在路径：

<安装路径>/etc/hadoop

core-site.xml:

<configuration
        <property>
                <name>hadoop.tmp.version</name>
                <value>file:/usr/local/hadoop/tmp</value>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
        </property>
</configuration>

hdfs-site.xml：

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

配置好配置文件后，下一步是什么？当然是格式化namenode了，这一步会根据配置文件去初始化好namenode节点：

 ./bin/hdfs namenode -format

格式化成功后的提示：

配置环境：

按道理说配置完配置文件后直接启动即可了对吧，但是在hadoop 3.1.3这个版本有个hadoop的环境配置文件etc/hadoop/hadoop-env.sh。这个配置里面要指定JAVA_HOME的路径已经可以启动Hadoop的用户，不然的话启动会报用户没有启动权限或者JAVA_HOME找不到。这是一个小坑以下是作者的配置：

JAVA_HOME=/jdk/jdk8/

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

启动:

./sbin/start-dfs.sh

启动完成后：

3.2.伪分布式集群

HDFS做了资源隔离，要使用HDFS的前提是先在HDFS中为用户创建用户目录。

./bin/hdfs dfs -mkdir -p /user/root

在/user/root/下创建一个input目录：

./bin/hdfs dfs -mkdir input

把测试数据拷贝过去：

 ./bin/hdfs dfs -put ./etc/hadoop/*.xml input

这不是报错，不用管：

跑计算任务的demo：

跑demo的jar包的时候可以指定输入输出路径和一个正则表达式来指定匹配规则，下面的正则表达式会匹配dfs开头后面是a-z的字符的所有单词。

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

查看结果：

3.3.注意事项

下次再进行测试的时候一定要将output文件夹删掉，不然冲突会报错。

4.Hadoop集群的组成

伪分布式的hadoop集群其实就两大核心组件构成：

HDFS
MapReduce

回顾一下上面启动hadoop后我们用JDK的JPS命令看到的JAVA进程：

可以看到一共有三个东西：

secondNameNode
DataNode
NameNode

这三个东西是属于HDFS的，dataNode是具体存放数据的节点，nameNode用来记录所有dataNode的信息，secondNameNode是nameNode的备份：

以上是节点在HDFS维度扮演的角色，除此之外节点还在MapReduce维度扮演有角色，MapReduce在跑一个大的任务的时候会把节点分为两类：

jobTracker，负责总的来协调位于不同节点的小任务，将多个小任务的计算结果汇成最终的结果。
taskTracker，dataNode节点上跑的小任务。

原文地址:https://blog.csdn.net/Joker_ZJN/article/details/137698000 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1778899416409837568.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部