Spark deploy-mode

在将Spark任务提交到集群(YARN, Spark集群为主)的时候,提供两种提交部署方案: client模式 , cluster模式
        

本质区别:  Spark程序中Driver程序运行在什么位置上
    

client模式:  Driver程序运行在执行spark-submit所在节点上, 默认就是client模式
好处:由于Driver是运行在客户端, 当执行完成后, 需要查看结果, 此时executor会将结果返回给Driver, Driver在客户端, 直接应答, 我们直接在客户端看到执行结果 (方便测试)
弊端:由于Driver和executor有可能不在同一个环境中,会导致中间网络传输效率比较低, 从而影响整体的效率


在客户端模式下, 不存在Driver的日志, 因为日志是直接输出客户端
            
        
        此种方式一般在生产环境中不使用, 主要使用在测试环境
    
    cluster模式: Driver程序运行在提交集群所在的某一个节点上
        好处: Driver程序和executor都在同一个集群环境中, 在进行传输数据的时候, 可以更大利用内部网络带宽优势, 提升效率
            
        弊端:不方便测试, Driver运行在集群环境中,所有的内容全部都会记录到日志文件中, 无法会给提交的客户端, 所以客户端想要查看结果, 需要看日志
        
       此种方式一般用于生产环境.
    

                                                                        图解区别
    如何使用两种模式呢?
        格式:
            cd /export/server/spark/bin
            ./spark-submit \
            --master yarn \
            --deploy-mode client | cluster \        
            --conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
            --conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
            /export/data/workspace/bigdata60_parent/_01_pyspark_base/src/_02_pyspark_wd.py

client 可以在客户端看到结果
        演示cluster:  
            cd /export/server/spark/bin
            ./spark-submit \
            --master yarn \
            --deploy-mode cluster \
            --conf "spark.pyspark.driver.python=/root/anaconda3/bin/python3" \
            --conf "spark.pyspark.python=/root/anaconda3/bin/python3" \
            /export/data/workspace/bigdata60_parent/_01_pyspark_base/src/_02_pyspark_wd.py

cluster 在客户端看不到输出结果

相关推荐

  1. sql_mode

    2024-03-23 16:30:01       16 阅读
  2. Pytohn data mode plt

    2024-03-23 16:30:01       34 阅读
  3. 策略模式(Strategy mode

    2024-03-23 16:30:01       20 阅读
  4. make SGX_MODE=SW

    2024-03-23 16:30:01       13 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-23 16:30:01       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-23 16:30:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-23 16:30:01       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-23 16:30:01       20 阅读

热门阅读

  1. AI辅助研发

    2024-03-23 16:30:01       20 阅读
  2. 【Linux】编译器-gcc/g++使用

    2024-03-23 16:30:01       23 阅读
  3. 数据结构链表实现多项式相加代码实现(c语言)

    2024-03-23 16:30:01       23 阅读
  4. 【C语言基础】位运算

    2024-03-23 16:30:01       23 阅读