大数据 - Spark系列《十二》- 名词术语理解

2024-03-11 09:54:02
开发
39

Spark系列文章：

大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进-CSDN博客

大数据 - Spark系列《二》- 关于Spark在Idea中的一些常用配置-CSDN博客

大数据 - Spark系列《三》- 加载各种数据源创建RDD-CSDN博客

大数据 - Spark系列《四》- Spark分布式运行原理-CSDN博客

大数据 - Spark系列《五》- Spark常用算子-CSDN博客

大数据 - Spark系列《六》- RDD详解-CSDN博客

大数据 - Spark系列《七》- 分区器详解-CSDN博客

大数据 - Spark系列《八》- 闭包引用-CSDN博客

大数据 - Spark系列《九》- 广播变量-CSDN博客

大数据 - Spark系列《十》- rdd缓存详解-CSDN博客

大数据 - Spark系列《十一》- Spark累加器详解-CSDN博客

目录

1. 🥙Task（任务描述）和Task实例（真正运行）

2. 🥙Stage（阶段）

3.🥙TaskSet和Task

5. 🥙Driver端

6. 🥙Executor

8.🥙Application(应用)

？Spark面试题总结：

1. 🧀什么是闭包引用？

2. 🧀什么是广播变量？

3. 🧀什么是累加器？

4. 🧀有哪些常见的分区器？

5. 🧀spark的coalesce和repartition的区别

6. 🧀spark的cache和persist的区别

7. 🧀说一下宽依赖和窄依赖

1. 🥙Task（任务描述）和Task实例（真正运行）

Task（任务描述）指的是由Driver程序发送给Executor程序的逻辑单元，用于执行作业中的某个阶段。
Task实例（任务实例）是指Executor上真正运行的任务，它们根据Task描述执行相应的计算逻辑。

每个Task实例在Executor上运行时，会按照Task描述中的逻辑，处理相应的数据分区，并且执行对应的计算操作。一个Task描述可以有多个Task实例并行执行，每个Task实例独立处理数据分区，最终将计算结果返回给Driver程序。

Task在spark内部共有2种： shuffleMapTask 和 resultTask

最后一个stage所产生的task，是resultTask , 最后后一个阶段为ResultStage

其他stage所产生的task，都属于shuffleMapTask , 其他的阶段为ShuffleMapStage

2. 🥙Stage（阶段）

以shuffle为分界线，将DAG转换逻辑从整体划分成段，每一段就称之为一个Stage
一个阶段对应一个TaskSet
task任务的个数和阶段的最后一个rdd的分区数一致

3.🥙TaskSet和Task

一个阶段对应一个TaskSet
最后一个rdd有四个分区，则会创建4个task实例。这4个task实例会放在这个TaskSet里面。
Task: 执行计算的任务单元

4. 🥙DAG

DAG(Directed Acyclic Graph)叫做有向无环图，是的一系列RDD转换关系的描述，阶段的描述

5. 🥙Driver端

提交程序的客户端
初始化作业的客户端（阶段的划分，DAG的创建，任务的创建，任务的调度都是在Driver端执行的）

6. 🥙Executor

执行具体Task的远程端口

7.🥙job

具体的任务作业

一个行动算子就触发了一个job（此说法：直观但不精确）

有些行动算子，可能触发多个job，比如take( ) ；

有些transformation算子，也可能会触发job，比如sortByKey（）算子[因为它要用rangepartitioner]

一个job就是一个dag的运算流程（触发了一次sc.runJob() 就是一次job）

8.🥙Application(应用)

创建一个sparkContext，就生成了一个application

目前Spark系列文章已经更新到第十二篇，Spark第二阶段学习也已经完成。对此，特对知识点做了一个汇总如下

对于第一阶段面试题的整理可参考如下链接：

大数据 - Spark系列《四》- Spark分布式运行原理_spark的哪些操作是分布式并行的,哪些是串行的,如何知道-CSDN博客

？Spark面试题总结：

1. 🧀什么是闭包引用？

算子使用了一个算子外的变量，这就是闭包引用

2. 🧀什么是广播变量？

它是spark共享数据的一种机制，它会在整个集群中缓存一份数据，每个节点去复制一份，不需要在每个task实例中创建数据对象，从而提升数据的传输效率。

3. 🧀什么是累加器？

它是一个全局的共享可写变量。它可以在每一个任务实例中进行计数，然后进行汇总，最后输出在driver端

4. 🧀有哪些常见的分区器？

常见的分区器包括HashPartitioner和RangePartitioner等。

5. 🧀spark的coalesce和repartition的区别

repartition一般用于增加rdd的分区数量，它通过shuffle对数据重新进行分区

coalesce一般用于减少rdd的分区数量，它可以在不触发shuffle的情况下，将数据从多个分区合并成较少的分区。

6. 🧀spark的cache和persist的区别

cache()：
- cache()是RDD的一个方法，用于将RDD缓存到内存中。它是persist()方法的一种特殊情况，使用默认的存储级别MEMORY_ONLY。
- cache()方法是一个懒加载操作，调用后并不会立即触发计算，而是等到第一次调用action操作时才会执行。
persist()：
- persist()方法是RDD的通用持久化方法，它允许指定不同的存储级别（如MEMORY_ONLY、MEMORY_AND_DISK、MEMORY_ONLY_SER等）。
- 与cache()方法不同，persist()方法是一个动作，调用后会立即触发计算，并将计算结果持久化到指定的存储级别。

7. 🧀说一下宽依赖和窄依赖

窄依赖

上游RDD的任意一个分区的数据只会被下游某一个分区引用

宽依赖

会产生shuffle,上游RDD的任意一个分区的数据可能会被下游所有分区引用

原文地址:https://blog.csdn.net/weixin_40968325/article/details/136610246 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1767006032967634944.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-03-11 09:54:02 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-03-11 09:54:02 109 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-03-11 09:54:02 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-03-11 09:54:02 106 阅读
NoSQL之Redis非关系型数据库

2024-03-11 09:54:02 108 阅读
2024.7.22 作业

2024-03-11 09:54:02 106 阅读
GDB调试正在运行的程序

2024-03-11 09:54:02 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-03-11 09:54:02 90 阅读
在Django里面运行非项目文件

2024-03-11 09:54:02 87 阅读
SSD基本架构与工作原理

2024-03-11 09:54:02 94 阅读
在誉天学习完HCIE就业吗？

2024-03-11 09:54:02 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-03-11 09:54:02 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-03-11 09:54:02 92 阅读
go 协程池的实现

2024-03-11 09:54:02 93 阅读
Shell脚本循环语句与函数

2024-03-11 09:54:02 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-03-11 09:54:02 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-03-11 09:54:02 90 阅读
四大引用——强软弱虚

2024-03-11 09:54:02 92 阅读
Python语言-面向对象

2024-03-11 09:54:02 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-03-11 09:54:02 91 阅读
网站安全-CDN篇

2024-03-11 09:54:02 93 阅读

热门阅读

【数据结构】排序

2024-03-11 09:54:02 34 阅读
【FreeRTOS任务调度机制学习】

2024-03-11 09:54:02 37 阅读
MySQL-----存储过程

2024-03-11 09:54:02 38 阅读
在 Windows 10/11 上哪里可以找到已删除的文件

2024-03-11 09:54:02 35 阅读
Linux文本编辑器vi

2024-03-11 09:54:02 42 阅读
Linux--文件类型与权限

2024-03-11 09:54:02 44 阅读
职场成功的关键：积极主动，勇于担当

2024-03-11 09:54:02 40 阅读
【数据结构初阶 9】内排序

2024-03-11 09:54:02 37 阅读
opencv解析系列 - 基于DOM提取大面积植被（如森林）

2024-03-11 09:54:02 39 阅读
C++高级面试题：什么是 C++ 中的逻辑常量（Logical Constants）？

2024-03-11 09:54:02 36 阅读
【C语言基础】：深入理解指针(终篇)

2024-03-11 09:54:02 35 阅读
免费、好用、强大的轻量级笔记软件评测

2024-03-11 09:54:02 50 阅读
Leetcode算法题

2024-03-11 09:54:02 48 阅读
归并排序

2024-03-11 09:54:02 47 阅读
前端架构: 脚手架通用框架封装之添加测试框架(教程六)

2024-03-11 09:54:02 43 阅读
Linux之selinux详解

2024-03-11 09:54:02 39 阅读
微信小程序-wxml语法

2024-03-11 09:54:02 50 阅读
Keepalived工具的基本介绍（原理：VRRP协议）

2024-03-11 09:54:02 43 阅读
MongoDB聚合运算符：$dayOfYear

2024-03-11 09:54:02 48 阅读
探索Web自动化利器：Selenium库

2024-03-11 09:54:02 47 阅读
【npm】node包管理工具npm的介绍和基础使用

2024-03-11 09:54:02 46 阅读
开发程序员转金融finance、量化quant的解决方案（含CPA、CFA、CQF等证书要求）

2024-03-11 09:54:02 40 阅读
selenium等待机制

2024-03-11 09:54:02 40 阅读
selenium启用MS Edge浏览器/下载MS Edge WebDriver

2024-03-11 09:54:02 43 阅读
vue3+ts项目创建使用npm create vue@latest

2024-03-11 09:54:02 37 阅读
静态路由--添加路由表，实现非直连网段的通信

2024-03-11 09:54:02 49 阅读
华为数通方向HCIP-DataCom H12-821题库(多选题：121-140)

2024-03-11 09:54:02 48 阅读
【数据结构】哈希

2024-03-11 09:54:02 42 阅读
TransDecoder安装与使用-TransDecoder-v5.7.1（bioinfomatics tools-008）

2024-03-11 09:54:02 39 阅读
【大厂AI课学习笔记NO.76】人工智能人才金字塔

2024-03-11 09:54:02 47 阅读