一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐

  1. 详解pyspark算子API

    2024-01-01 09:32:01       46 阅读
  2. 详解pyspark中sql的join

    2024-01-01 09:32:01       33 阅读
  3. Optional详解API

    2024-01-01 09:32:01       6 阅读
  4. 详解 HBase 的 API

    2024-01-01 09:32:01       5 阅读
  5. npm命令详解

    2024-01-01 09:32:01       11 阅读
  6. 查找算法()

    2024-01-01 09:32:01       15 阅读
  7. Linux命令详解示例

    2024-01-01 09:32:01       37 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-01 09:32:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-01 09:32:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-01 09:32:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-01 09:32:01       18 阅读

热门阅读

  1. 八股文打卡day16——计算机网络(16)

    2024-01-01 09:32:01       31 阅读
  2. 元旦假期的第二天:干家务

    2024-01-01 09:32:01       32 阅读
  3. git常用命令详解

    2024-01-01 09:32:01       34 阅读
  4. Debian安装k8s记录

    2024-01-01 09:32:01       31 阅读
  5. MySQL数据表加密字段支持模糊查询的方案

    2024-01-01 09:32:01       45 阅读
  6. 云原生Kubernetes系列 | Liveness和Readiness使用

    2024-01-01 09:32:01       37 阅读
  7. Prpmetheus监控rabbitmq

    2024-01-01 09:32:01       31 阅读
  8. 139. Word Break

    2024-01-01 09:32:01       54 阅读
  9. Hive自定义函数详解

    2024-01-01 09:32:01       40 阅读