Kafka为什么这么快?

kafka高效读写数据的原理


1)Kafka 本身是分布式集群,可以采用分区技术,并行度高

2)读数据采用稀疏索引,可以快速定位要消费的数据

 

  1. 按照二分法找到小于 offset 的 segment 的.log 和.index
  2. 用目标 offset 减去文件名中的 offset 得到消息在这个 segment 中的偏移量。
  3. 再次用二分法在 index 文件中找到对应的索引。
  4. 到 log 文件中,顺序查找,直到找到 offset 对应的消息。

3)顺序写磁盘

Kafka 的 producer 生产数据,要写入到 log 文件中,写的过程是一直追加到文件末端,为顺序写。官网有数据表明,同样的磁盘,顺序写能到 600M/s,而随机写只有 100K/s。这与磁盘的机械机构有关,顺序写之所以快,是因为其省去了大量磁头寻址的时间。

4)页缓存 + 零拷贝技术

零拷贝技术:减少用户态/内核态的切换次数以及CPU拷贝的次数

 

 

 

sendfilemmap 是零拷贝的两种不同实现,在 kafka 中也对应两种不同场景。针对 producer 往 broker 上写入消息,使用的是 mmap,consumer 从 broker 上拉取数据,使用的是 sendfile。

producer 往 broker 发消息:对应消息文件从网卡-->磁盘。这个文件在写入过程中是会动态“变化”的,假设使用 sendfile 的方式就是直接把文件从网卡 copy 到 socket buffer 之后,然后直接落到磁盘,中间是【不能有变更操作的】,这显然不符合写入的要求。

再说 consumer 从 broker 拉消息:对应消息文件从磁盘-->网卡。这个过程中使用的是 sendfile。这个过程中【对消息这个文件是不需要有任何变更操作的】,将文件从磁盘 copy 到 readBuffer 之后,直接发送到网卡了,这中间没有经过 socketBuffer。

看一遍就理解:零拷贝原理详解 - 知乎

5)批量传输与压缩消息

 

相关推荐

  1. kafka为什么

    2024-03-11 15:18:01       48 阅读
  2. Kafka为什么速度

    2024-03-11 15:18:01       26 阅读
  3. 【Redis】为什么是单线程?为什么这么呢?

    2024-03-11 15:18:01       29 阅读
  4. Clickhouse 为什么

    2024-03-11 15:18:01       64 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-11 15:18:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-11 15:18:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-11 15:18:01       82 阅读
  4. Python语言-面向对象

    2024-03-11 15:18:01       91 阅读

热门阅读

  1. 游戏玩家.

    2024-03-11 15:18:01       42 阅读
  2. Flutter第三弹:常用的Widget

    2024-03-11 15:18:01       39 阅读
  3. LightDB支持 no_expand hint【24.1】【oracle兼容】

    2024-03-11 15:18:01       39 阅读
  4. 嵌入式学习35-网络通信UDP聊天及TCP

    2024-03-11 15:18:01       39 阅读
  5. ARM GNU 汇编 “每日读书“

    2024-03-11 15:18:01       40 阅读
  6. flink是什么

    2024-03-11 15:18:01       36 阅读
  7. 使用docker搭建s-pdf

    2024-03-11 15:18:01       45 阅读
  8. 《Effective Modern C++》- 极精简版 30-35条

    2024-03-11 15:18:01       44 阅读
  9. 力扣爆刷第91天之hot100五连刷41-45

    2024-03-11 15:18:01       45 阅读
  10. 【Django】聚合查询

    2024-03-11 15:18:01       42 阅读
  11. 数据的处理包括哪些内容

    2024-03-11 15:18:01       37 阅读