目录
一、架构设计与技术栈
(一)数仓架构设计
(二)所用技术栈
Hadoop 3.3.4
Zookeeper 3.7.1
Kafka 3.3.1
Hbase 2.4.11
Redis 6.0.8
Flink 1.17.0
Clickhouse
Spring
Sugar
(三)最终效果
二、关于离线与实时的相关概念
物流
业务
离线
批处理
在处理数据前,数据是固定的
处理数据量大
处理时间长
T + 1
实时
流处理
在处理数据前,数据是不确定的,在处理的过程中,数据源源不断地进来
处理数据量小
处理时间短
T + 0
数仓
采集、存储、分析
三、实时数仓设计思路
业务数据保存在mysql中,通过flink-CDC采集到kafka主题中作为ODS层;在通过flink-CDC判断ODS层的数据哪些是维度表,哪些是事实表,维度数据DIM层写到Hbase中,事实数据DWD层写到新的kafka主题中;再将DIM层数据和DWD层数据进行关联,做一个轻度聚合形成DWS层,写到OLAP数据库中,即clickhouse中,形成宽表;指标统计与统计结果通过Springboot数据接口服务写到sugar进行可视化展示,也就是ADS层。
物流实时数仓架构设计图
物流离线数仓架构设计图