spark相关知识

1.Spark的特点
Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成了一套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。
运行速度快,易使用,强大的技术栈,集成性好
2.Spark与Hive
Hive的缺点
表达能力有限,磁盘IO开销大,延迟高,
3.Spark-streaming与Flink
微批处理,准实时系统
4.Spark的运行架构
Driver向集群管理器申请资源,启动Executor,并向Executor发送程序代码和文件,在Executor上执行任务,执行结果返回任务控制节点或写到HDFS和其他数据库
5.hive on spark和spark on hive
前者只有计算引擎是Spark,前期解析,转换,优化等步骤都是Hive完成。
后者只有元数据用了Hive,对SQL的解析,转换,优化等都是Spark完成。
6.宽窄依赖之间的区别
窄依赖表现为一个父RDD的分区对应于一个子RDD的分区,或多个父RDD的分区对应于一个子RDD的分区
宽依赖则表现为存在一个父RDD的一个分区对应一个子RDD的多个分区
7.RDD运行过程
(1)创建RDD对象;
(2)SparkContext负责计算RDD之间的依赖关系,构建DAG;
(3)DAGScheduler负责把DAG图分解成多个阶段,每个阶段中包含了多个任务,每个任务会被任务调度器分发给各个工作节点(Worker Node)上的Executor去执行。
8.Spark三种部署方式
包括standalone、Spark on Mesos和Spark on YARN
9.广播变量和累加器
Spark中的两个重要抽象是RDD和共享变量
广播变量允许开发人员在每个机器上缓存一个只读的变量,而不是为每个机器的每个任务都生成一个副本
val broadcastVar = sc.broadcast(Array(1, 2, 3))
broadcastVar.value
10.转换算子和行动算子
转换:map,filter,groupByKey,reduceByKey
行动:collect,foreach,count,reduce
键值对:groupByKey,reduceByKey,sortByKey,keys,values,mapValues,join
11.自定义udf和udaf
udf 直接spark.udf.register(“”,函数)
udaf 需继承UserDefinedAggregateFunction 实现父类的8个方法
12.RDD与DataFrame的区别
RDD是分布式的 Java对象的集合
DataFrame是一种以RDD为基础的分布式数据集,也就是分布式的Row对象的集合(每个Row对象代表一行记录)

相关推荐

  1. spark相关知识

    2024-06-06 08:16:03       7 阅读
  2. spark相关

    2024-06-06 08:16:03       40 阅读
  3. Spark SizeTrackingAppendOnlyMap 相关源代码分析

    2024-06-06 08:16:03       16 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-06 08:16:03       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-06 08:16:03       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-06 08:16:03       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-06 08:16:03       18 阅读

热门阅读

  1. arm系统中双网卡共存问题

    2024-06-06 08:16:03       12 阅读
  2. Transformer的Encoder和Decoder之间的交互

    2024-06-06 08:16:03       11 阅读
  3. MyBatis二、搭建 MyBatis

    2024-06-06 08:16:03       9 阅读
  4. 介绍 TensorFlow 的基本概念和使用场景

    2024-06-06 08:16:03       9 阅读
  5. Oracle数据库启动时必需开启的后台服务有哪些

    2024-06-06 08:16:03       11 阅读
  6. 24个数学符号大小写读法及中文注音

    2024-06-06 08:16:03       9 阅读
  7. 统一返回响应

    2024-06-06 08:16:03       9 阅读