数据仓库平台,ETL是很重要一环,看ETL的发展史,最初使用表格,人工从系统下载,在excel匹配,然后加载到数据仓库平台,到后来开始出现ETL工具,大概分为两个派别,以ETL架构的datastage,informatica,以ELT为代表的ODI,再到后来的批处理方式,SQL编码方式,但是其本质还是抽取数据,处理,再加载到目标平台,常用的方式:
1.初始化:当我们建立数仓平台时候,一开始会涉及到同步历史数据问题,那么就有两种 策略:
- 全量同步明细数据:把历史数据,每条明细记录抽取到目标平台
- 同步最新的YTD数据:忽略明细,只同步汇总后的数据
2.后续加载策略:
- 全删重新插入
- 插入新增数
3.数据处理过程
- 映射
- 组合
- 拆分