PySpark开发环境搭建常见问题及解决

PySpark环境搭建常见问题及解决



本文主要收录PySpark开发环境搭建时常见的一些问题及解决方案,并收集一些相关资源

1、winutils.exe问题


在这里插入图片描述

报错摘要:

WARN Shell: Did not find winutils.exe: {
   }
java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
......

原因1:缺少Hadoop的Windows支持环境:hadoop.dllwinutils.exe

详见官网:https://cwiki.apache.org/confluence/display/hadoop/WindowsProblems

原因2:已经下载hadoop.dllwinutils.exe,并配置了环境变量,但未将hadoop.dllwinutils.exe可不用)文件拷贝到C:\Windows\System32目录中(重启电脑才能生效)

解决:下载Hadoop的Windows支持环境:hadoop.dllwinutils.exe,配置环境变量,并将hadoop.dll文件拷贝到C:\Windows\System32目录中,重启电脑

PShadoop.dllwinutils.exe各版本下载链接见文末附录

2、SparkURL问题


在这里插入图片描述

报错摘要:

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/12/05 14:50:09 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Invalid Spark URL: spark://HeartbeatReceiver@***
......

原因:主机名带了下划线_或点.导致

解决:

方式1:添加配置:spark.driver.host=localhost

方式2:修改本机hosts文件:添加主机名与IP映射:

主机名 127.0.0.1

然后添加配置:spark.driver.bindAddress=127.0.0.1

Spark属性配置官方文档:https://spark.apache.org/docs/3.1.2/configuration.html

3、set_ugi()问题


在这里插入图片描述

报错摘要:

23/12/05 15:13:10 WARN NativeIO: NativeIO.getStat error (3): ϵͳ�Ҳ���ָ����·����
 -- file path: tmp/hive
23/12/05 15:13:21 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped
23/12/05 15:13:22 WARN metastore: set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.
org.apache.thrift.transport.TTransportException
......

可能原因:权限问题

解决:首先配置屏蔽:spark.executor.processTreeMetrics.enabled=false,然后尝试如下方式:

方式1:修改hdfs-site.xml

# 在集群服务器的hdfs-site.xml文件中添加跳过权限验证
# 注意修改配置前先停止集群,配置结束之后,重启集群即可。经测试只需要修改NameNode上的配置文件即可
<property>
    <name>dfs.permissions.enabled</name>
    <value>false</value>
</property>

方式2:修改hive-site.xml

# 新客户端与旧服务器通信,hive-site.xml与服务器不同步
# 在hive-site.xml中添加以下内容:
<property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
</property>

================== 附录资源 ==================


hadoop.dll和winutils.exe各版本下载https://github.com/cdarlint/winutils/tree/master/hadoop-3.1.2

Hadoop各版本下载https://archive.apache.org/dist/hadoop/common/

Spark各版本下载http://archive.apache.org/dist/spark/


相关推荐

  1. QT 5.14.2 Android环境问题解决

    2023-12-06 11:02:04       45 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-06 11:02:04       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-06 11:02:04       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-06 11:02:04       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-06 11:02:04       18 阅读

热门阅读

  1. Flink源码解析零之重要名词的理解

    2023-12-06 11:02:04       38 阅读
  2. c++ 函数模板详细介绍

    2023-12-06 11:02:04       36 阅读
  3. 3.1 Ansible 的使用和配置管理

    2023-12-06 11:02:04       28 阅读
  4. Ansible的module_defaults

    2023-12-06 11:02:04       37 阅读
  5. skynet学习笔记(12/05未完待续)

    2023-12-06 11:02:04       43 阅读
  6. 2312skia,15vulkan及技巧

    2023-12-06 11:02:04       40 阅读
  7. oracle sql 把2023/05/06格式化为20230506

    2023-12-06 11:02:04       42 阅读
  8. history路由解决刷新出现404的问题

    2023-12-06 11:02:04       36 阅读
  9. 1. 使用poll或epoll创建echo服务器

    2023-12-06 11:02:04       36 阅读
  10. Django大回顾 - 1之Web应用、HTTP协议,Web框架

    2023-12-06 11:02:04       44 阅读
  11. element UI之 el-date-picker 无法选择当前日期

    2023-12-06 11:02:04       31 阅读
  12. [cocos creator] Label设置为RESIZE_HEIGHT,获取height

    2023-12-06 11:02:04       28 阅读
  13. flask学习笔记-01-传送dict信息

    2023-12-06 11:02:04       42 阅读
  14. 一个使用Rust开发的MQTT Broker

    2023-12-06 11:02:04       39 阅读
  15. 专栏测试1--日后删除

    2023-12-06 11:02:04       34 阅读