举例说明 如何通过SparkUI和日志定位任务莫名失败?

有一个Task OOM:

在这里插入图片描述

  • 通过概览信息,发现Stage 10的Task 36失败了4次导致Job失败。概览信息中显示最后一次失败的退出代码(exit code)是143,意味着发生了内存溢出(OOM,即Out of Memory)。
    可以点击Stage链接,查看为什么导致了Executor OOM(Out of Memory)。

  • 通过上述图片发现,大部分Task都成功了,只有一个失败了,这高度怀疑是数据倾斜问题。

    • 如果是Driver逻辑失败导致App失败(例如输入路径不存在、Driver OOM等),应直接查看Driver日志。
    • 如果Driver OOM,可能需要查看Yarn UI。
  • 通过Task日志进一步确认,发现日志中打印的这个Task拉取远程的Shuffle数据远超过上述成功的Task的最大值。明确失败原因为数据倾斜。
    在这里插入图片描述
    在这里插入图片描述

Driver fail

  • Driver逻辑导致失败的可能原因包括:

    • 路径没有权限
    • 读取路径为空
    • SparkContext初始化失败
    • 作业代码自己抛出异常等
  • 首先,Spark UI上没有显示失败的Job。

在这里插入图片描述

转而查看Driver log:
在这里插入图片描述
可以从Driver日志中看到访问目录没有权限:

在这里插入图片描述

相关推荐

  1. 如何在Vue中使用指令举例

    2024-06-16 19:52:02       10 阅读
  2. 举例自然语言(NLP)技术

    2024-06-16 19:52:02       33 阅读
  3. 逆运动学IK原理举例

    2024-06-16 19:52:02       8 阅读
  4. 举例计算机视觉(CV)技术的优势挑战

    2024-06-16 19:52:02       40 阅读
  5. 举例计算机视觉(CV)技术的优势挑战。

    2024-06-16 19:52:02       42 阅读
  6. 举例计算机视觉(CV)技术的优势挑战

    2024-06-16 19:52:02       26 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-16 19:52:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-16 19:52:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-16 19:52:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-16 19:52:02       20 阅读

热门阅读

  1. python安装及环境配置相关问题记录

    2024-06-16 19:52:02       7 阅读
  2. 设计模式-迭代器模式

    2024-06-16 19:52:02       7 阅读
  3. redis大key优化

    2024-06-16 19:52:02       6 阅读
  4. 借报告Team ID错误谈谈Mac app文件签名与公证

    2024-06-16 19:52:02       7 阅读
  5. node环境常见问题

    2024-06-16 19:52:02       4 阅读
  6. 【杂记-浅谈SNMP网络管理标准协议】

    2024-06-16 19:52:02       10 阅读
  7. Azure OpenAI 服务

    2024-06-16 19:52:02       9 阅读
  8. LeetCode 0521.最长特殊序列 Ⅰ:脑筋急转弯

    2024-06-16 19:52:02       10 阅读
  9. Qt进程间通信QLocalSocket客户端无法接收消息

    2024-06-16 19:52:02       7 阅读
  10. Eclipse 内容辅助

    2024-06-16 19:52:02       10 阅读
  11. Redis数据结构之字符串(sds)

    2024-06-16 19:52:02       5 阅读
  12. c语言中的宏是什么?

    2024-06-16 19:52:02       7 阅读