spark shell

1.进行shell命令行

        spark-shell

2.创建RDD

2.1 读取文件创建RDD

        2.1.1读取linux文件系统的文件创建RDD

        --需要保证每一个worker中都有该文件

        val data1 = sc.textFile("file:/opt/file/word.txt")

        

        2.1.2读取hdfs文件系统上的文件创建RDD

        val data2=sc.textFile("hdfs:/word.txt")

2.2使用Parallelize创建RDD

·        val array1=Array(1,2,3,4,5,6)

        val data3 = sc.parallelize(array1)

2.3从其他的RDD中创建新的RDD

        val data4=data3.map(num =>(num*2))

3.对RDD进行操作

--统计RDD中的数据记录表

data1.count()

--对RDD中的数据进行过滤操作

--过滤数据,保留每行中含有hello的数据

val filterRDD=data1.filter(line => line.contains("hello"))

filterRDD.count()

--读取RDD的第一条数据

filterRDD.first()

--读取中的N条数据

filterRDD.take(2)

4.实现wordcount

val wordcount=data1.flatMap(line=>line.split(" ")).map(word=>(word,1)).reduceByKey(_+_)

 

将RDD中的数据写到hdfs上

wordcount.saveAsTextFile("hdfs:/out")

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-19 20:18:07       70 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-19 20:18:07       74 阅读
  3. 在Django里面运行非项目文件

    2024-07-19 20:18:07       62 阅读
  4. Python语言-面向对象

    2024-07-19 20:18:07       72 阅读

热门阅读

  1. 聚类数优化:探索Sklearn中的策略与实践

    2024-07-19 20:18:07       25 阅读
  2. 微信小程序:登录,获取用户信息及手机号详解

    2024-07-19 20:18:07       18 阅读
  3. 【玩转python】入门篇day10-python运算符详解

    2024-07-19 20:18:07       18 阅读
  4. ios CCSystem.m

    2024-07-19 20:18:07       18 阅读
  5. MySql的运用

    2024-07-19 20:18:07       20 阅读
  6. 使用 tcpdump 进行网络流量捕获与分析

    2024-07-19 20:18:07       19 阅读
  7. 挂马病毒是什么

    2024-07-19 20:18:07       18 阅读
  8. 深入理解并使用 MySQL 的 SUBSTRING_INDEX 函数

    2024-07-19 20:18:07       20 阅读
  9. 【无标题】

    2024-07-19 20:18:07       21 阅读
  10. z-fighting多视锥方案缺失depth information的思考

    2024-07-19 20:18:07       14 阅读
  11. 代码随想录打卡第二十九天

    2024-07-19 20:18:07       19 阅读
  12. 产品经理的样板

    2024-07-19 20:18:07       14 阅读
  13. 关于二进制和八进制

    2024-07-19 20:18:07       18 阅读
  14. Linux 和 Unix 系统中非常流行文本处理工具awk

    2024-07-19 20:18:07       16 阅读