2024.2.19 阿里云Flink

一 、Flink基本介绍

Spark底层是微批处理 , Flink底层则是实时流计算

流式计算特点:

        数据是源源不断产生,两大问题,乱序和延迟

Stateful:有状态

Flink的三个部分

Source:Transactions , logs ,iot ,clicks

Transformation: 事件驱动 , ETL , 批处理
Sink : 输出 HDFS ,Kafka 

Flink的特性

支持高吞吐, 低延迟,高性能的流处理
支持带有事件时间的窗口操作。
支持有状态计算的exactly-once语义
支持Checkpoint实现容错
支持具有Backpressure背压功能的持续流模型
支持流处理和批处理
在JVM内部实现了内存管理

四大基石:

time,window,checkpoint,容错

二、 Flink基础架构

Flink作业运行流程

课上记录:

JobManger:管理众多TaskManager。

TaskManger:执行具体的任务,定时向JobManager汇报心跳,任务执行状态。

Slot槽位:物理资源,任务运行的具体场所

      

用户提交Flink程序得到jobclient,经过jobclient处理,解析,优化提交到jobManager,最后由TaskManager运行task.

JobClient是Flink程序与JobManager交互的桥梁,主要负责接收程序,解析程序的执行计划,优化程序的执行计划,然后提交计划到JobManager,在Flink中主要有三类计划Operator.

        Source  : 数据源操作,比如文件,socket,Kafka等.

        Transformation: 数据转换操作,比如map, flatmap, reduce等算子.

        Sink : 数据存储操作, 数据存储到HDFS,Mysql,Kafka等.

 

Flink模块

核心:DataStream API

FlinkSQL:  SQL

图计算:Gelly

机器学习:FlinkML

Flink可以运行在多种集群下:

  • Local(本地)

一个进程模拟主节点和从节点。

  • Standalone(独立)

主节点和从节点是两个进程,他们是独立的。

  • Flink on Yarn(生产使用)

Flink专注于任务的分配和任务的管理,Yarn专注于资源的分配

Spark:cluster、client,Driver进程运行的地方不一样。

Flink On Yarn有三种模式,分别是:

session模式:session,会话,因此也称之为会话模式(Spark中没有的模式)。开发测试使用,生产不能用

per-job模式:Job分离模式(类似于Spark中的Client模式)。

application模式:application,应用,也称之为应用模式(类似于Spark中的Cluster模式)。

会话模式,就是在Yarn会动态初始化一个Flink集群(Flink Yarn-session),这个集群会随着会话的存在而存在,会随着会话的停止而消失。

也就是说,如果我们要启动一个session的话,要分为2步

也称Job分离模式,和Spark的client类似。

在提交任务的时候,Yarn会创建一个Flink集群,这个集群是这个任务专属的。待任务运行完之后,集群就会销毁。

所有任务提交都一样。

相关推荐

  1. 阿里公有平台

    2024-02-20 06:24:06       49 阅读
  2. 阿里腾讯

    2024-02-20 06:24:06       59 阅读
  3. 阿里docker加速

    2024-02-20 06:24:06       52 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-20 06:24:06       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-20 06:24:06       106 阅读
  3. 在Django里面运行非项目文件

    2024-02-20 06:24:06       87 阅读
  4. Python语言-面向对象

    2024-02-20 06:24:06       96 阅读

热门阅读

  1. chatgpt的大致技术原理

    2024-02-20 06:24:06       41 阅读
  2. 网络安全威胁杂谈

    2024-02-20 06:24:06       52 阅读
  3. https 为什安全

    2024-02-20 06:24:06       46 阅读
  4. Kafka的介绍

    2024-02-20 06:24:06       53 阅读
  5. zip解压缩

    2024-02-20 06:24:06       50 阅读
  6. 如何在 Linux 系统中查看系统日志

    2024-02-20 06:24:06       54 阅读
  7. effective c++ 笔记 条款18-25

    2024-02-20 06:24:06       50 阅读
  8. Linux ----防火墙值SNAT与DNAT

    2024-02-20 06:24:06       55 阅读
  9. 计算机网络常考面试题——PING命令

    2024-02-20 06:24:06       50 阅读
  10. Day10-Linux系统打包和时间命令及案例精讲

    2024-02-20 06:24:06       51 阅读
  11. 图数据库 之 Neo4j - 应用场景2 - 实时推荐引擎(7)

    2024-02-20 06:24:06       41 阅读