【大数据架构】基于流式数据的大数据架构升级

背景

团队在升级大数据架构,摒弃了原来基于hadoop的架构,因此抛弃了hive,hdfs,mapreduce这一套,在讨论和摸索中使用了新的架构。

后端使用kafka流式数据通过rest catalog写入iceberg,存储于minio。在写入iceberg的时候,首先是写data数据文件,然后再写iceberg的metadata文件,分两步走,在kafka中有两个topic,一个负责些data数据文件,一个负责些iceberg的metadata文件。

当然这样会产生大量的小文件,那么我们还有一个程序使用网易的amro来监控数据库表的data目录,设置好参数实时的去合并这些小文件,总体效果不错。

前端使用trino查询,对trino也进行了很多优化,目前测试来看,运行还算稳定,但是不可避免的trino的任务总会出现失败的情况。原来的架构是trino失败后去跑hive,而hive是跑mapreduce依赖于hadoop,新架构摒弃了hadoop,当然也没法用hive跑了,因此目前看较好的办法是使用spark sql来替代。

参考我另一边文章

【kyuubi-spark】从0-

相关推荐

  1. 数据架构基于数据数据架构升级

    2024-06-08 11:28:03       30 阅读
  2. 数据架构

    2024-06-08 11:28:03       38 阅读
  3. 数据」Kappa架构

    2024-06-08 11:28:03       39 阅读
  4. 数据」Lambda架构

    2024-06-08 11:28:03       36 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-08 11:28:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-08 11:28:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-08 11:28:03       82 阅读
  4. Python语言-面向对象

    2024-06-08 11:28:03       91 阅读

热门阅读

  1. MakeDown语法详解

    2024-06-08 11:28:03       29 阅读
  2. myEclipse新手使用教程

    2024-06-08 11:28:03       36 阅读
  3. HO-3D 数据集

    2024-06-08 11:28:03       32 阅读
  4. Kafka

    Kafka

    2024-06-08 11:28:03      29 阅读
  5. Vue2学习(05)

    2024-06-08 11:28:03       41 阅读
  6. flutter image_picker 执行拍照的图片怎么保存到本地

    2024-06-08 11:28:03       35 阅读
  7. Mybatis最全学习文档

    2024-06-08 11:28:03       24 阅读
  8. TypeScript记

    2024-06-08 11:28:03       19 阅读
  9. 每台云服务器最多可支持几块硬盘

    2024-06-08 11:28:03       31 阅读
  10. 篇3:Mapbox Style Specification

    2024-06-08 11:28:03       30 阅读
  11. selenium中,怎么进行浏览器的上下滚动

    2024-06-08 11:28:03       31 阅读
  12. 什么是PyTorch?PyTorch在生产环境中的部署策略

    2024-06-08 11:28:03       20 阅读