Doris的3种数据模型详解和数据仓库每一层的模型选用

2024-03-23 06:40:02
开发
36

Apache Doris是一个用于离线数据仓库开发的分布式SQL查询和分析引擎。在使用Doris进行离线数据仓库开发时，可以采用三种不同的数据模型：Duplicate模型、Aggregate模型和Unique模型。每种模型都有其适用的场景和特点，同时也对于不同层次的数据仓库有着不同的使用建议。

Duplicate模型

Duplicate模型适合任意维度的Ad-hoc查询，在这种模型下，数据完全按照导入文件中的数据进行存储，不会有任何聚合。即使两行数据完全相同也都会保留。该模型不受聚合模型的约束，可以发挥列存模式的优势，只需读取相关列，而不需要读取所有Key列。当创建表的时候没有指定Unique、Aggregate或Duplicate时，会默认创建一个Duplicate模型的表，并自动指定排序列。因此，对于一些不需要聚合的多维分析场景，Duplicate模型能够满足需求。

在数仓开发中，DWD层需要保存原始明细数据，同时需要保存历史数据，可以保存为Duplicate模型。ADS层考虑任意维度聚合时，也可以采用Duplicate模型。并且创建dt为动态分区。表结构如下图：

CREATE TABLE `dwd_financial` (
  `financial_id` bigint(20) NOT NULL COMMENT '金融机构ID', 
  `financial_name` varchar(1275) NULL,  
  `create_time` datetime NULL,
  `update_by` varchar(320) NULL,
  `update_time` datetime NULL,
  `del_flag` char(1) NULL DEFAULT &

原文地址:https://blog.csdn.net/linweidong/article/details/136923140 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1771305866180562944.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-03-23 06:40:02 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-03-23 06:40:02 108 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-03-23 06:40:02 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-03-23 06:40:02 106 阅读
NoSQL之Redis非关系型数据库

2024-03-23 06:40:02 108 阅读
2024.7.22 作业

2024-03-23 06:40:02 104 阅读
GDB调试正在运行的程序

2024-03-23 06:40:02 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-03-23 06:40:02 90 阅读
在Django里面运行非项目文件

2024-03-23 06:40:02 87 阅读
SSD基本架构与工作原理

2024-03-23 06:40:02 94 阅读
在誉天学习完HCIE就业吗？

2024-03-23 06:40:02 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-03-23 06:40:02 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-03-23 06:40:02 92 阅读
go 协程池的实现

2024-03-23 06:40:02 93 阅读
Shell脚本循环语句与函数

2024-03-23 06:40:02 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-03-23 06:40:02 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-03-23 06:40:02 90 阅读
四大引用——强软弱虚

2024-03-23 06:40:02 92 阅读
Python语言-面向对象

2024-03-23 06:40:02 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-03-23 06:40:02 91 阅读
网站安全-CDN篇

2024-03-23 06:40:02 93 阅读

热门阅读

学习添加03（优惠卷）

2024-03-23 06:40:02 44 阅读
北京中科富海低温科技有限公司确认出席2024第三届中国氢能国际峰会

2024-03-23 06:40:02 38 阅读
AES，DES

2024-03-23 06:40:02 40 阅读
工程信号的去噪和（分类、回归和时序）预测

2024-03-23 06:40:02 43 阅读
SQL运维_Unix下MySQL-8.0.18配置文件示例

2024-03-23 06:40:02 42 阅读
Linux：权限的概念与理解

2024-03-23 06:40:02 42 阅读
力扣hot100题解（python版91-95题）

2024-03-23 06:40:02 38 阅读
P2799 国王的魔镜

2024-03-23 06:40:02 45 阅读
程序设计基础--C语言【三】

2024-03-23 06:40:02 40 阅读
cloudflare 应用例子几则

2024-03-23 06:40:02 37 阅读
Linux mkswap命令教程：如何设置Linux交换区（附实例详解和注意事项）

2024-03-23 06:40:02 50 阅读
数据分析基础

2024-03-23 06:40:02 40 阅读
大鱼来客实景无人直播系统源码开发部署---支持OEM贴牌-无限开户

2024-03-23 06:40:02 48 阅读
美团到店-后端开发一面

2024-03-23 06:40:02 41 阅读
苍穹外卖-day02

2024-03-23 06:40:02 37 阅读
Spring Web MVC入门(6)

2024-03-23 06:40:02 40 阅读
【C语言_数组_复习篇】

2024-03-23 06:40:02 36 阅读
unbantu Apache的基本配置与配置静态资源访问

2024-03-23 06:40:02 44 阅读
专为智能设备安全打造 | 基于ACM32 MCU的智能断路器方案

2024-03-23 06:40:02 42 阅读
Fiddler Classic安装使用

2024-03-23 06:40:02 35 阅读
比一比gitee、gitlab、github

2024-03-23 06:40:02 40 阅读
*Python的数据类型有哪些？

2024-03-23 06:40:02 39 阅读
dbscan算法实现鸢尾花聚类(python实现)

2024-03-23 06:40:02 43 阅读
博世全球首个高阶智能驾驶项目量产，由腾讯云提供专有云支持

2024-03-23 06:40:02 32 阅读
面试问答示范

2024-03-23 06:40:02 37 阅读
网络仿真3-NS2协议修改和移植

2024-03-23 06:40:02 39 阅读
全国大学生数学建模大赛备赛——相关系数的求解（皮尔逊（pearson）、斯皮尔曼（spearman）、肯德尔（kendall）相关系数）

2024-03-23 06:40:02 37 阅读
day6 Arm 串口实验基于串口点灯

2024-03-23 06:40:02 32 阅读
Linux自身就有自动关机的命令那就是利用shutdown命令

2024-03-23 06:40:02 42 阅读
ARM中断实验

2024-03-23 06:40:02 50 阅读