spark知识点总结(1)

Spark(web:默认值是8080,但是这个端口号容易被占用,顺势+1;提交任务端口号:7077)

一、RDD

RDD是spark最底层的核心抽象,叫做弹性分布式数据集。

特点:不可变,可分区,里面的元素可以并行计算的集合。

二、lineage(血统)

RDD与RDD之间的依赖关系,依赖的就是血统。

三、DAG有向无环图

本质上描述的就是RDD的执行流程。

四、依赖关系

在spark当中,依赖关系分为两类:一类是窄依赖(NarrowDependency);一类叫做宽依赖(ShuffleDependency)。

窄依赖:父RDD当中的一个分区只能被子RDD当中的一个分区所依赖。类似于独生子女。

宽依赖:父RDD当中的一个分区会被子RDD当中的多个分区所依赖。类似于超生子女。

五、代码当中的本地模式

local:表示本地开启一个线程模拟集群运行。

local[N]:N代表的是一个具体的数,表示本地开始N个线程模拟集群运行。

local[*]:表示本地有多大资源就用多大资源去模拟运行。

六、函数式编程算子

map:映射。针对列表当中的每一个元素进行操作,操作完成后返回一个新的列表,操作之前是多少个元素,操作之后还是多少个元素,不会增加,不会减少。

七、分区方式

spark当中一共有两种分区方式:一种是hash,一种是range。

非key,value对的数据分区方式为None;key,value对的数据分区方式默认也为None,但是可以指定分区方式。

相关推荐

  1. spark知识总结1

    2024-04-25 09:52:05       37 阅读
  2. Spark-core面试知识

    2024-04-25 09:52:05       33 阅读
  3. spark的相关知识

    2024-04-25 09:52:05       21 阅读
  4. CV 面试指南—深度学习知识总结1

    2024-04-25 09:52:05       36 阅读
  5. 【SpringBoot】知识总结

    2024-04-25 09:52:05       63 阅读
  6. JVM知识总结

    2024-04-25 09:52:05       58 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-04-25 09:52:05       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-04-25 09:52:05       100 阅读
  3. 在Django里面运行非项目文件

    2024-04-25 09:52:05       82 阅读
  4. Python语言-面向对象

    2024-04-25 09:52:05       91 阅读

热门阅读

  1. 组合总和III(Lc216)——剪枝+回溯

    2024-04-25 09:52:05       24 阅读
  2. L2-4 吉利矩阵(优化剪枝版)

    2024-04-25 09:52:05       31 阅读
  3. 作为前端工程师如何SEO优化

    2024-04-25 09:52:05       31 阅读
  4. Unity 温度显示

    2024-04-25 09:52:05       34 阅读
  5. C# 预处理器指令详解与示例

    2024-04-25 09:52:05       33 阅读
  6. 【数据结构】顺序表

    2024-04-25 09:52:05       38 阅读
  7. 前端vue+xgVIdeo集成rstp流播放

    2024-04-25 09:52:05       28 阅读
  8. 【spring mvc】配置默认Servlet处理器

    2024-04-25 09:52:05       33 阅读