SparkCore

一、RDD详解

1.1 什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。

  • Dataset:一个数据集合,用于存放数据的。
  • Distributed:RDD中的数据是分布式存储的,可用于分布式计算。
  • Resilient:RDD中的数据可以存储在内存中或者磁盘中。

 

1.2 RDD的五大特征

前三个特征每个RDD都具备的,后两个特征可选的

1.2.1 RDD是有分区的

RDD的分区是RDD数据存储最小单位

相关推荐

  1. <span style='color:red;'>SparkCore</span>

    SparkCore

    2023-12-26 08:06:02      29 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-26 08:06:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-26 08:06:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-26 08:06:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-26 08:06:02       20 阅读

热门阅读

  1. python 图像处理ORB算法

    2023-12-26 08:06:02       45 阅读
  2. flutter项目从创建到运行,以及一些常用的命令

    2023-12-26 08:06:02       36 阅读
  3. [HADOOP]数据倾斜的避免和处理

    2023-12-26 08:06:02       41 阅读
  4. Hadoop——分布式计算

    2023-12-26 08:06:02       27 阅读
  5. 支持向量机(SVM)

    2023-12-26 08:06:02       31 阅读
  6. KafkaLog4jAppender

    2023-12-26 08:06:02       36 阅读
  7. Lukelabs OJ刷题——Z1013

    2023-12-26 08:06:02       32 阅读
  8. hive中struct相关函数总结

    2023-12-26 08:06:02       43 阅读