【经验01】spark执行离线任务的一些坑

项目背景:

目前使用spark跑大体量的数据,效率还是挺高的,机器多,120多台的hadoop集群,还是相当的给力的。数据大概有10T的量。

最近在出月报数据的时候发现有一个任务节点一直跑不过去,已经超过失败次数的阈值,报警了。

预警很让人头疼,不能上班摸鱼了。

经过分析发现报错日志如下:

逻辑处理也很简单,两张表做关联,做聚合预算(聚合字段有30多个)相当于一个宽表了。

DWD层的dwd_temp

最近更新

  1. TCP协议是安全的吗?

    2024-05-09 11:56:06       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-09 11:56:06       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-09 11:56:06       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-09 11:56:06       20 阅读

热门阅读

  1. 数据结构(二)关于空间的使用

    2024-05-09 11:56:06       8 阅读
  2. 基于微信小程序的网上购物系统的设计与实现

    2024-05-09 11:56:06       11 阅读
  3. TS学习-类的继承

    2024-05-09 11:56:06       11 阅读
  4. 图搜索算法详解-概述

    2024-05-09 11:56:06       8 阅读
  5. centos常用命令介绍

    2024-05-09 11:56:06       10 阅读