【大数据架构】基于流式数据的大数据架构升级

2024-06-08 11:28:03
开发
29

背景

团队在升级大数据架构，摒弃了原来基于hadoop的架构，因此抛弃了hive，hdfs，mapreduce这一套，在讨论和摸索中使用了新的架构。

后端使用kafka流式数据通过rest catalog写入iceberg，存储于minio。在写入iceberg的时候，首先是写data数据文件，然后再写iceberg的metadata文件，分两步走，在kafka中有两个topic，一个负责些data数据文件，一个负责些iceberg的metadata文件。

当然这样会产生大量的小文件，那么我们还有一个程序使用网易的amro来监控数据库表的data目录，设置好参数实时的去合并这些小文件，总体效果不错。

前端使用trino查询，对trino也进行了很多优化，目前测试来看，运行还算稳定，但是不可避免的trino的任务总会出现失败的情况。原来的架构是trino失败后去跑hive，而hive是跑mapreduce依赖于hadoop，新架构摒弃了hadoop，当然也没法用hive跑了，因此目前看较好的办法是使用spark sql来替代。

参考我另一边文章

【kyuubi-spark】从0-

原文地址:https://blog.csdn.net/w8998036/article/details/139539445 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1799282213016178688.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

【大数据架构】基于流式数据的大数据架构升级

2024-06-08 11:28:03 30 阅读
【大数据】Doris 架构

2024-06-08 11:28:03 61 阅读
大数据技术架构

2024-06-08 11:28:03 75 阅读
大数据架构

2024-06-08 11:28:03 38 阅读
大数据架构设计

2024-06-08 11:28:03 46 阅读
大数据架构

2024-06-08 11:28:03 38 阅读
大数据架构

2024-06-08 11:28:03 30 阅读
大数据技术架构

2024-06-08 11:28:03 35 阅读
「大数据」Kappa架构

2024-06-08 11:28:03 39 阅读
「大数据」Lambda架构

2024-06-08 11:28:03 36 阅读

最近更新

题解 - 序列

2024-06-08 11:28:03 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-06-08 11:28:03 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-06-08 11:28:03 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-06-08 11:28:03 100 阅读
NoSQL之Redis非关系型数据库

2024-06-08 11:28:03 101 阅读
2024.7.22 作业

2024-06-08 11:28:03 97 阅读
GDB调试正在运行的程序

2024-06-08 11:28:03 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-06-08 11:28:03 85 阅读
在Django里面运行非项目文件

2024-06-08 11:28:03 82 阅读
SSD基本架构与工作原理

2024-06-08 11:28:03 87 阅读
在誉天学习完HCIE就业吗？

2024-06-08 11:28:03 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-06-08 11:28:03 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-06-08 11:28:03 85 阅读
go 协程池的实现

2024-06-08 11:28:03 88 阅读
Shell脚本循环语句与函数

2024-06-08 11:28:03 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-06-08 11:28:03 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-06-08 11:28:03 85 阅读
四大引用——强软弱虚

2024-06-08 11:28:03 86 阅读
Python语言-面向对象

2024-06-08 11:28:03 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-06-08 11:28:03 85 阅读
网站安全-CDN篇

2024-06-08 11:28:03 88 阅读

热门阅读

Freetype 介绍和使用

2024-06-08 11:28:03 24 阅读
MakeDown语法详解

2024-06-08 11:28:03 29 阅读
myEclipse新手使用教程

2024-06-08 11:28:03 36 阅读
HO-3D 数据集

2024-06-08 11:28:03 32 阅读
docker 部署kafka，zokeeper，快速开发模式

2024-06-08 11:28:03 27 阅读
Kafka

2024-06-08 11:28:03 29 阅读
Vue2学习(05)

2024-06-08 11:28:03 41 阅读
flutter image_picker 执行拍照的图片怎么保存到本地

2024-06-08 11:28:03 35 阅读
Mybatis最全学习文档

2024-06-08 11:28:03 24 阅读
【MMU】——页表映射示例

2024-06-08 11:28:03 29 阅读
C# MemoryCache 缓存应用

2024-06-08 11:28:03 35 阅读
TypeScript记

2024-06-08 11:28:03 19 阅读
每台云服务器最多可支持几块硬盘

2024-06-08 11:28:03 31 阅读
【C++进阶】深入STL之list：模拟实现深入理解List与迭代器

2024-06-08 11:28:03 31 阅读
Selenium时间等待_显示等待

2024-06-08 11:28:03 28 阅读
Selenium三种等待方式的使用！

2024-06-08 11:28:03 36 阅读
R可视化：可发表的热图

2024-06-08 11:28:03 27 阅读
UI 自动化分布式测试 -Docker Selenium Grid

2024-06-08 11:28:03 28 阅读
移动端 UI 风格，魅力无限

2024-06-08 11:28:03 30 阅读
篇3：Mapbox Style Specification

2024-06-08 11:28:03 30 阅读
【Python】Selenium WebDriver 中 `expected_conditions`（预期条件）模块

2024-06-08 11:28:03 30 阅读
selenium中，怎么进行浏览器的上下滚动

2024-06-08 11:28:03 31 阅读
U盘未安全退出后提示格式化：原因分析与数据恢复策略

2024-06-08 11:28:03 32 阅读
什么是PyTorch？PyTorch在生产环境中的部署策略

2024-06-08 11:28:03 20 阅读
Android音频架构

2024-06-08 11:28:03 28 阅读
pytorch-nn.Module

2024-06-08 11:28:03 30 阅读
crossover软件安装程序怎么安装 Crossover for Mac切换Windows系统 crossover软件怎么样

2024-06-08 11:28:03 26 阅读
电机专用32位MCU PY32MD310，Arm® Cortex-M0+内核

2024-06-08 11:28:03 28 阅读
自养号测评防关联的关键点解析, 确保店铺权重和买家账号的安全稳定

2024-06-08 11:28:03 30 阅读
人工智能数学与代码实现--聚类分析

2024-06-08 11:28:03 23 阅读