Hive面试问题

1.hive如何自定义函数

2.hive优化

3.hive数据倾斜

        1.数据倾斜的表现

        数据倾斜是由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点的现象。 主要表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面Yarn(8088),发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大于平均时长。

        2.出现的原因

        1)数据类型不一致造成数据倾斜

        2)数据中出现大量的null值

        3)单表group by 出现数据倾斜

                第一种方案:使用参数优化

                第二种方案:增加Reduce数量

        4)多表join出现数据倾斜

                解决方案一:使用参数解决

                解决方案二:大小表join

                解决方案三:大表大表join

4.hive中的mapjoin、commonjoin、smbjoin

5.datax同步数据的策略

相关推荐

  1. Hive面试问题

    2024-06-08 19:34:03       7 阅读
  2. [hive面试必备]-hive如何解决数据倾斜问题

    2024-06-08 19:34:03       24 阅读
  3. Hive面试重点

    2024-06-08 19:34:03       19 阅读
  4. Hive 面试题(三)

    2024-06-08 19:34:03       8 阅读
  5. Hive 面试题(六)

    2024-06-08 19:34:03       11 阅读
  6. Hive 面试题(九)

    2024-06-08 19:34:03       10 阅读
  7. Hive 面试题(十)

    2024-06-08 19:34:03       10 阅读
  8. Hive 面试题(七)

    2024-06-08 19:34:03       7 阅读
  9. hive问题记录

    2024-06-08 19:34:03       34 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-08 19:34:03       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-08 19:34:03       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-08 19:34:03       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-08 19:34:03       18 阅读

热门阅读

  1. VRRP简介

    2024-06-08 19:34:03       8 阅读
  2. 2024.6.7力扣刷题记录-链表篇学习记录

    2024-06-08 19:34:03       13 阅读
  3. dsp开发与arm开发有什么区别,应用差别

    2024-06-08 19:34:03       9 阅读
  4. Linux 字体管理

    2024-06-08 19:34:03       6 阅读
  5. nginx

    nginx

    2024-06-08 19:34:03      8 阅读
  6. UG12编程怎么没有:深度解析与困惑探寻

    2024-06-08 19:34:03       10 阅读
  7. 《青少年编程与数学》课程方案:3、课程形式

    2024-06-08 19:34:03       6 阅读