大数据开发面试题【Flume篇】

79、介绍下Flume以及架构

是一个开源的日志系统,是一个分布式。可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据
Agent:是一个jvm进程,他以时间的形式将数据从源头送至目的地、Agent 主要有 3 个部分组成,Source、Channel、Sink。
Source:负责接收数据到flume的agent的组件,可以处理avro、thrift、exec、jms…一系列日志类型
Sink:sink不断轮询channel中的事件并且批量地移除他们,写入到存储系统或者另一个flume agent
channel:是位于source和sink之间的缓冲区,有基于文件的fliechannel和基于内存的memorychannel(一个安全但是慢,一个快但是不安全)
Event:是flume的基本传输单元,以event的形式将数据从源头送至目的地,event由header和body组成

80、Flume事务机制

flume的事务机制类似数据库的事务机制:要么都成功,要么都失败
一个事务负责从source到channel,另一个事务负责从channel到sink
在这里插入图片描述

81、Flume采集数据会丢失吗?

flume是不可能丢失数据的,内部由完善的事务机制,两个环节的事务性保证
flume不会丢失数据,但是可能造成数据的重复,
flume作为高容量并行采集系统次啊用的是at-least-once,造成每个source产生的事件至少到达sink一次,又可能会造成重复

82、flume的拦截器

是设置在source和channel之间,source接收到的事件event,拦截器可以进行转换或者删除

相关推荐

  1. 数据开发面试【Zookeeper

    2024-05-26 05:58:22       10 阅读
  2. 数据开发(Hadoop面试

    2024-05-26 05:58:22       18 阅读
  3. 数据开发(Kafka面试

    2024-05-26 05:58:22       20 阅读
  4. 数据开发(Spark面试

    2024-05-26 05:58:22       19 阅读
  5. 数据开发(Hive面试

    2024-05-26 05:58:22       21 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-05-26 05:58:22       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-26 05:58:22       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-26 05:58:22       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-26 05:58:22       20 阅读

热门阅读

  1. Scala的简单学习二

    2024-05-26 05:58:22       10 阅读
  2. vue中实现动态点击事件名

    2024-05-26 05:58:22       11 阅读
  3. Docker打包nginx镜像丢失挂载的配置文件

    2024-05-26 05:58:22       15 阅读
  4. Leetcode704_二分查找

    2024-05-26 05:58:22       11 阅读
  5. StringMVC

    StringMVC

    2024-05-26 05:58:22      9 阅读
  6. 【MySQL精通之路】SQL优化(1)-查询优化

    2024-05-26 05:58:22       10 阅读
  7. 前端后端是什么

    2024-05-26 05:58:22       12 阅读
  8. SpringBoot配置优先级

    2024-05-26 05:58:22       10 阅读
  9. 第三章 Web Services和 Web Clients简介 - SOAP 标准

    2024-05-26 05:58:22       9 阅读
  10. 类脑计算和量子计算、人工智能的关系

    2024-05-26 05:58:22       12 阅读
  11. 二叉树的链式实现

    2024-05-26 05:58:22       12 阅读
  12. node-nass安装踩坑

    2024-05-26 05:58:22       14 阅读
  13. 作业39 sqrt应用

    2024-05-26 05:58:22       17 阅读
  14. leetcode 409. 最长回文串

    2024-05-26 05:58:22       13 阅读
  15. JVM之回收策略的详细解析

    2024-05-26 05:58:22       11 阅读