一文详解pyspark常用算子与API

2024-01-01 09:32:01
开发
45

rdd.glom()

对rdd的数据进行嵌套，嵌套按照分区来进行

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出：[[1,2,3,4],[5,6,7,8,9]]

参考

PySpark基础入门（2）：RDD及其常用算子_spark rdd 随机抽样-CSDN博客

原文地址:https://blog.csdn.net/qq_32862515/article/details/135316156 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1741633342094315520.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

一文详解pyspark常用算子与API

2024-01-01 09:32:01 46 阅读
一文详解pyspark中sql的join

2024-01-01 09:32:01 33 阅读
Optional详解和常用API

2024-01-01 09:32:01 6 阅读
详解 HBase 的常用 API

2024-01-01 09:32:01 5 阅读
十一、常用API——爬虫

2024-01-01 09:32:01 33 阅读
十一、常用API——练习

2024-01-01 09:32:01 34 阅读
npm常用命令详解（一）

2024-01-01 09:32:01 11 阅读
一文详解Spring与JDK注入

2024-01-01 09:32:01 9 阅读
常用查找算法(一)

2024-01-01 09:32:01 15 阅读
Linux常用命令详解与示例

2024-01-01 09:32:01 37 阅读