Kappa架构介绍

Kappa 架构是由 LinkedIn 的前首席工程师杰伊·克雷普斯(Jay Kreps)提出的一种架构思想。克雷普斯是几个著名开源项目(包括 Apache Kafka 和 Apache Samza 这样的流处理系统)的作者之一。
Kappa ,不同于Lambda同时计算流计算和批处理并合并视图,Kappa 只会通过流计算一条的数据链路计算并产生视图。Kappa 同样采用了重新处理事件的原则,对于历史数据分析类的需求,Kappa 要求数据的长期存储能够以有序日志流的方式重新流入流计算引擎,重新产生历史数据的视图。

Kappa 本质上就是通过改进 Lambda 架构中的Speed Layer,使它既能够进行实时数据处理,同时也有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据。

总结
Kappa架构的原理是:在Lambda 的基础上进行了优化,删除了 Batch Layer 的架构,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

Kappa 方案通过精简链路解决了数据写入和计算逻辑复杂的问题,但它依然没有解决存储和展示的问题,特别是在存储上,使用类似Kafka的消息队列存储长期日志数据,数据无法压缩,存储成本很大,绕过方案是使用支持数据分层存储的消息系统(如Pulsar,支持将历史消息存储到云上存储系统),但是分层存储的历史日志数据仅能用于Kappa backfill作业,数据的利用率依然很低。

相关推荐

  1. Kappa架构介绍

    2024-06-11 11:34:02       10 阅读
  2. 「大数据」Kappa架构

    2024-06-11 11:34:02       13 阅读
  3. 数据仓库之Kappa架构

    2024-06-11 11:34:02       10 阅读
  4. 深入解析Lambda架构Kappa架构

    2024-06-11 11:34:02       22 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-11 11:34:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-11 11:34:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-11 11:34:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-11 11:34:02       18 阅读

热门阅读

  1. Eureka和Nacos有哪些区别?

    2024-06-11 11:34:02       9 阅读
  2. idea使用和了解

    2024-06-11 11:34:02       10 阅读
  3. 04-4.2.2 KMP 算法

    2024-06-11 11:34:02       10 阅读
  4. .Net 使用 MongoDB

    2024-06-11 11:34:02       9 阅读
  5. 配置yum源

    2024-06-11 11:34:02       8 阅读
  6. 什么是主数据?

    2024-06-11 11:34:02       6 阅读
  7. 深度学习中2D分割

    2024-06-11 11:34:02       7 阅读