架构设计:
离线数仓
实时数仓
湖仓一体
数据治理:数据质量管理、元数据管理、安全管理(Kerberos)、
数据仓库:面向主题的、集成的、相对稳定的、反应历史数据变化的数据集合、数仓中的数据时候有组织的存储数据集合、用于对管理决策过程的支持
大数据架构演进:
离线数仓大:
lambda架构(离线处理+实时链路)
lambda架构(离线数仓+实时数仓)
Kappa架构
实时数仓(流批一体)
湖仓一体实时架构
数据库与数据仓库的区别:
数据库是OLTP、数据仓库是OLAP
数据范围:数据库;当前状态数据、数据仓库:存储完整、反应历史数据变化的数据
数据变化:数据库:支持频繁的增删改、数据仓库:可增加、查询、无更新、删除操作,一般是T+1的数据,
应用场景:数据库:面向业务交易 数据仓库:面向分析、侧重决赛分析
处理数据量:数据库:频繁、小批次、高并发、低延迟;数据仓库:非频繁、大批量、高吞吐、有延迟