Spark一:Spark介绍、技术栈与运行模式

一、Spark简介

Spark官网 https://spark.apache.org/

1.1 Spark是什么

Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。
是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎。

1.2 Spark作用

  • 中间结果输出
    Spark的Job中间输出结果可以保存在内存中,从而不再需要读写HDFS
  • MapReduce的替代方案
    Spark比MapReduce平均快10倍以上的计算速度;因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

1.3 Spark特点

  • 速度快
    跟MapReduce对比速度更快
  • 易用性
    支持多种开发语言
  • 通用性
    • 一栈式解决方案:批处理、交互式查询、实时流处理、图计算及机器学习
    • 多种运行模式
    • YARN、 Mesos、 EC2、 Kubernetes、 Standalone(独立模式)、 Local(本地模式)

二、Spark技术栈

在这里插入图片描述

Spark Core:实现了 Spark 的基本功能,包含 RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。

Spark SQL:Spark 用来操作结构化数据的程序包。通过 Spark SQL,我们可以使用 SQL 操作数据。

Spark Streaming:Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。

Spark MLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。

GraphX(图计算):Spark 中用于图计算的 API,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法。

集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。

Structured Streaming:处理结构化流,统一了离线和实时的 API。

三、Spark运行模式

3.1 Local本地模式(单机模式)–学习测试使用

分为 local 单线程和 local-cluster 多线程

3.2 standalone 独立集群模式–学习测试使用

典型的 Mater/slave 模式。

3.3 standalone-HA 高可用模式–生产环境使用

基于 standalone 模式,使用 zk 搭建高可用,避免 Master 是有单点故障的。

3.4 on-yarn 集群模式–生产环境使用

运行在 yarn 集群之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。
好处:计算资源按需伸缩,集群利用率高,共享底层存储,避免数据跨集群迁移。

3.5 on mesos 集群模式–国内使用较少

运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算.

3.6 on cloud 集群模式–中小公司未来会更多的使用云服务

参考链接:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ

相关推荐

  1. 介绍spark中的模型选择验证技术

    2024-01-02 18:54:03       27 阅读
  2. Spark大数据 Spark运行架构原理

    2024-01-02 18:54:03       32 阅读
  3. spark学习-------------------Spark算子最详细介绍

    2024-01-02 18:54:03       50 阅读
  4. spark(零)】spark技术概览

    2024-01-02 18:54:03       36 阅读
  5. 大数据技术2023:Apache Hadoop和Spark实战

    2024-01-02 18:54:03       28 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-02 18:54:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-02 18:54:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-02 18:54:03       82 阅读
  4. Python语言-面向对象

    2024-01-02 18:54:03       91 阅读

热门阅读

  1. 1303:鸣人的影分身

    2024-01-02 18:54:03       54 阅读
  2. 预编译仓库中的 Helm Chart

    2024-01-02 18:54:03       66 阅读
  3. Bye~ 2023

    2024-01-02 18:54:03       62 阅读
  4. 注解@Slf4j的使用

    2024-01-02 18:54:03       57 阅读
  5. SpringBoot统一标准响应格式及异常处理

    2024-01-02 18:54:03       47 阅读
  6. Leetcode 1022. Sum of Root To Leaf Binary Numbers (树遍历题)

    2024-01-02 18:54:03       64 阅读
  7. openwrt源码编译

    2024-01-02 18:54:03       63 阅读
  8. 抓取数据技巧全解析

    2024-01-02 18:54:03       70 阅读
  9. pandas数据结构Series, DataFrame的索引方式总结

    2024-01-02 18:54:03       60 阅读
  10. Elasticsearch 优化常用思路

    2024-01-02 18:54:03       58 阅读