一文读懂OLAP常用优化技术

概述

OLAP在推动企业数字化转型、提高决策分析效率等场景占了举足轻重的作用。市场上数仓选型非常多,升级后往往也越来越像。因为OLAP底层技术有很多共通之处,本文将揭秘其中一些常用的技术手段。期望能帮助读者更好地进行技术选型和数仓设计。

笔者将常用手段总结成了优化IO和计算,有些手段可能同时用到,图中暂不标注。

  • IO优化:随着CPU的发展,现在瓶颈一般在IO。而IO有个特点“离CPU越远,访问越慢”,我们可以借用这些特性,减少IO或远程访问量,来提高OLAP查询效率。
  • 优化计算:通过优化计算复杂度、借用分布式的算力等,提高查询效率。

图:OLAP常用优化手段

图:存储访问性能

优化IO

索引


对数据进行索引,快速定位到所查询数据,减少无用数据扫描,提高查询性能。如Mysql等中用到B+树作为索引提高查询性能。

常用应用场景:

①Hive等中利用日期进行分区,可以减少查询数据量

②Doris、Kylin中编排数据时,将常用字段放在前面,充分利用前缀索引来提高查询性能

常用技术选型:MySQL、Elasticsearch等

图:B+树

图:前缀索引

缓存

将常用中间数据缓存起来,减少磁盘等的访问,提高查询性能。

常用应用场景:公司的准实时即席查询平台中,中间封装一层Alluxio,提高查询性能
常用技术选型:SparkSQL(替换了HIVE)、Alluxio等

图:借用Alluxio加速数仓分析效率

列式存储

以数据列为逻辑单元管理数据,相邻的数据都是具有相同类型的数据。

  • 数据压缩:因为类似数据存储在一起,能提高提高压缩率,节省成本
  • 按需取数:我们往往只需要其中几列数据,相比行存储能避免扫描全量数据,降低磁盘I/O,降低查询响应时间。

常用应用场景:即席查询
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等

图:行列存储对比

向量化引擎


对内存中的列式数据,一个batch调用一次SIMD指令(而非每一行调用一次),不仅减少了函数调用次数、降低了cache miss,而且可以充分发挥SIMD指令的并行能力,大幅缩短了计算耗时。
常用技术选型:Clickhouse等,

协处理器

在计算和存储分离场景,常规方式是取数回来,进行计算分析,而这往往有大量的网络IO。通过HBASE等提供的协处理器技术,可以将一些算子在远程执行,如filter、sum等,然后OLAP引擎将数据取回做进一步计算,这样能大幅降低网络IO,提高查询性能。

常用应用场景:Kylin查询数据时,利用Hbase提供的协处理器能力,提高查询性能
常用技术选型:Kylin,Hbase等

优化计算

MPP


采用分而治之的思路,在整体计算复杂度不变的请看下,通过增加计算资源(多线程或者分布式)来缩短计算耗时,整体快速返回用户查询结果。
常用应用场景:当前即席查询技术用到了大量MPP架构的特点。
常用技术选型:SPARKSQL+列式存储,IMPALA+列式存储等,

图:MPP示意图

近似计算


在算UV、分位数等指标时,因为每次计算需要全局数据,需要较大计算资源。在很多分析场景,往往不需要100%的准确性。有一些近似计算的选型,我们可以借助这些库(或者算法)并结合真实应用场景,小成本的快速响应业务查询分析需求

  • 素描:部分库通过提供较高精准度、较少的计算资源、较快的运算速度,来计算UV、分位数等指标,如HyperLogLog、TDigest等
  • 抽样:对于较大规模的原始数据,随机(如将用户ID基于MurmurHash分桶)抽取一定比例数据进行分析,能降低整体的计算量,也能保障较高的精准度

常用应用场景:DMP人群的快速筛选、实时异常监控分析等
常用技术选型:Apache DataSketches、SparkSQL、ElasticSearch等

图:DataSketches上的近似计算

预计算


将可能的结果预先计算出来,以空间换时间,提高查询性能。
常用应用场景:
①报表加速:将所有可能查询结果计算出来以提高查询性能
②上卷表:部分数据库导入一些中间表或者明细表之后,为常用的查询场景,构建上卷表,可以提高查询性能。
常用技术选型:Kylin、Druid、Doris等

相关推荐

  1. :工业信号隔离器

    2024-03-25 21:20:04       34 阅读
  2. c++ 容器

    2024-03-25 21:20:04       33 阅读
  3. 485通讯协议

    2024-03-25 21:20:04       12 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-25 21:20:04       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-25 21:20:04       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-25 21:20:04       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-25 21:20:04       18 阅读

热门阅读

  1. 数据库

    数据库

    2024-03-25 21:20:04      16 阅读
  2. GAN 生成式对抗网络介绍

    2024-03-25 21:20:04       19 阅读
  3. C#使用ASP.NET Core Razor Pages构建网站(二)

    2024-03-25 21:20:04       21 阅读
  4. c++小游戏《荒岛求生》

    2024-03-25 21:20:04       22 阅读
  5. typeScript3(数组类型)

    2024-03-25 21:20:04       18 阅读
  6. 【58. 最后一个单词的长度】

    2024-03-25 21:20:04       21 阅读
  7. 面对数据集不平衡的分类任务怎么办?

    2024-03-25 21:20:04       16 阅读