Linux（centos7）部署spark

2024-04-04 11:00:01
开发
34

Spark部署模式主要有4种：Local模式（单机模式）、Standalone模式（使用Spark自带的简单集群管理器）、Spark On Yarn模式（使用YARN作为集群管理器）和Spark On Mesos模式（使用Mesos作为集群管理器）。

下面介绍Local模式（单机模式）、跟Spark On Yarn模式（使用YARN作为集群管理器）的简单部署。

提前环境：已经部署好hadoop\hive\yarn等。

1、安装anaconda
清华镜像源下载地址：
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
选择想要安装的版本下载，然后通过Linux客户端Xshell等上传到主机。
在这里插入图片描述
执行安装命令：

sh Anaconda3-2023.03-Linux-x86_64.sh

一路回车，输入yes即可。
安装后创建.condarc文件：

vim ~/.condarc

更换地址源：

annels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

保存后退出，创建环境：

conda create -n pyspark python=3.10

激活环境：

conda activate pyspark

anaconda3安装完成。

2、安装spark
下载上传主机指定路径
解压：

tar -zxvf spark-3.2.4-bin-hadoop3.2.tzg

软连接：

ln -s /usr/local/apps/spark-3.2.4-bin-hadoop3.2 spark

修改文件配置：
进入到spark的conf目录：

cd spark/conf/

新建环境变量配置文件spark-env.sh：

vim spark-env.sh

填入配置信息：

## 设置JAVA安装目录
JAVA_HOME=/usr/local/apps/jdk

## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/usr/local/apps/hadoop/etc/hadoop
YARN_CONF_DIR=/usr/local/apps/hadoop/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=node1
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的 webui端口
SPARK_MASTER_WEBUI_PORT=8080

# worker cpu可用核数
SPARK_WORKER_CORES=2
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的 webui地址
SPARK_WORKER_WEBUI_PORT=8081

## 设置历史服务器
# 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true";

保存退出。
由于配置日志输出路径，需要在hdfs新建日志目录：

hdfs dfs -mkdir /sparklog

配置系统环境变量：

vim /etc/profile

填入：

# 配置spark环境变量
export SPARK_HOME=/usr/local/apps/spark
export PYSPARK_PYTHON=/usr/local/apps/anaconda3/envs/pyspark/bin/python # python路径即为刚才新建的conda环境pyspark的路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

刷新使得系统环境变量生效：

source /etc/profile

再配置用户环境变量：

vim ~/.bashrc

添加：

# 配置spark环境变量
export JAVA_HOME=/usr/local/apps/jdk
export PYSPARK_PYTHON=/usr/local/apps/anaconda3/envs/pyspark/bin/python # python路径即为刚才新建的conda环境pyspark的路径

分发到其他主机重复配置即可。

3、启动pyspark
cd到spark目录，启动pyspark:

bin/pyspark # local模式

在这里插入图片描述
yarn集群模式，必须先启动yarn集群：

bin/pyspark --master yarn

在这里插入图片描述
spark on local模式以及spark on yarn模式部署完成。

原文地址:https://blog.csdn.net/LLMUZI123456789/article/details/137334188 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1775719947339698176.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

Linux（centos7）部署spark

相关推荐

最近更新

热门阅读