SparkCore
- 开发
- 28
-
一、RDD详解
1.1 什么是RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
- Dataset:一个数据集合,用于存放数据的。
- Distributed:RDD中的数据是分布式存储的,可用于分布式计算。
- Resilient:RDD中的数据可以存储在内存中或者磁盘中。
![](https://img-blog.csdnimg.cn/direct/b9cc8a4f880746d29ac60243e718eff3.png)
![](https://img-blog.csdnimg.cn/direct/2a745fb5b73a48eca0e44f21f4626b4c.png)
1.2 RDD的五大特征
前三个特征每个RDD都具备的,后两个特征可选的
1.2.1 RDD是有分区的
RDD的分区是RDD数据存储最小单位
![](https://img-blog.csdnimg.cn/direct/b43ba1ee484b4fd6b692fbebf1add787.png)
原文地址:https://blog.csdn.net/weixin_50458070/article/details/135202516
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:https://www.suanlizi.com/kf/1739437374636691456.html
如若内容造成侵权/违法违规/事实不符,请联系《酸梨子》网邮箱:1419361763@qq.com进行投诉反馈,一经查实,立即删除!