【大数据面试题】023 Spark RDD 是什么?

一步一个脚印,一天一道面试题

RDD 是什么?

首先,RDD 全称是 Resilient Distribute Dataset 弹性分布式数据集。 是整个 Spark 的基础,核心概念。是我们用Spark 时的基础数据单位。

RDD 是不可变,可分区,里面元素可并行计算的数据集合。

不可变:在下面的示例代码中,rdd1 是不会变的,而我们 rdd.map 后,会得到一个的rdd2

val rdd2 = rdd1.map(x => x + "_str")

分布式: Spark 有多个节点,往往不是单节点运行,是集群中多个节点里都有数据。

并行计算:由于是分布式的,所以可以做到每个节点都计算一部分数据,最后分别输出或汇总输出。

Spark 设立RDD 这个概念是为了让我们少去考虑数据的大数据量下的并行计算问题。简化我们需要的操作量。

我是近未来,祝你变得更强!

相关推荐

  1. 数据面试023 Spark RDD 什么

    2024-04-10 09:48:01       15 阅读
  2. 数据面试024 Spark 3 升级了些什么

    2024-04-10 09:48:01       14 阅读
  3. 数据面试】004 Flink状态后端什么

    2024-04-10 09:48:01       31 阅读
  4. 数据什么数据

    2024-04-10 09:48:01       8 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-10 09:48:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-10 09:48:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-10 09:48:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-10 09:48:01       18 阅读

热门阅读

  1. List接口(2)| Vector

    2024-04-10 09:48:01       12 阅读
  2. hcs部署场景

    2024-04-10 09:48:01       11 阅读
  3. UVA10935 Throwing cards away I 卡片游戏 解题报告

    2024-04-10 09:48:01       9 阅读
  4. 【蓝桥杯每日一题】4.9网络分析(代码详解版)

    2024-04-10 09:48:01       13 阅读
  5. vue 和 react 的区别

    2024-04-10 09:48:01       10 阅读
  6. 19、Lua 调试(Debug)

    2024-04-10 09:48:01       12 阅读
  7. 【御控物联】 1、物联网介绍

    2024-04-10 09:48:01       10 阅读
  8. Jeecg的Dict注解的用法

    2024-04-10 09:48:01       11 阅读