spark为什么比mapreduce快？

2024-02-21 06:38:04
开发
25

spark为什么比mapreduce快？

首先澄清几个误区：

1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的

2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，所以shuffle次数不能减少

所以总结spark比mapreduce快的原因有以下几点：

1：DAG相比hadoop的mapreduce在大多数情况下可以减少磁盘I/O次数

因为mapreduce计算模型只能包含一个map和一个reduce,所以reduce完后必须进行落盘，而DAG可以连续shuffle的，也就是说一个DAG可以完成好几个

mapreduce，所以dag只需要在最后一个shuffle落盘，就比mapreduce少了，总shuffle次数越多，减少的落盘次数就越多

2：spark shuffle 的优化

mapreduce在shuffle时默认进行排序，spark在shuffle时则只有部分场景才需要排序（bypass技师不需要排序），排序是非常耗时的，这样就可以加快shuffle速度

3：spark支持将需要反复用到的数据进行缓存

所以对于下次再次使用此rdd时，不再再次计算，而是直接从缓存中获取，因此可以减少数据加载耗时，所以更适合需要迭代计算的机器学习算法

4：任务级别并行度上的不同

mapreduce采用多进程模型，而spark采用了多线程模型，多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间，即mapreduce的map task 和reduce task是进程级别的，都是jvm进程，每次启动都需要重新申请资源，消耗不必要的时间，而spark task是基于线程模型的，通过复用线程池中的线程来减少启动，关闭task所需要的开销（多线程模型也有缺点，由于同节点上所有任务运行在一个进行中，因此，会出现严重的资源争用，难以细粒度控制每个任务占用资源）

作者：京东零售吴化斌

来源：京东云开发者社区转载请注明来源

原文地址:https://blog.csdn.net/JDDTechTalk/article/details/136192431 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1760071345552625664.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

spark为什么比mapreduce快？

2024-02-21 06:38:04 26 阅读
Spark 为什么比 Hive 快

2024-02-21 06:38:04 11 阅读
大数据之 Spark 比 MapReduce 快的原因

2024-02-21 06:38:04 32 阅读
Vite为什么比Webpack快

2024-02-21 06:38:04 16 阅读
Vite为什么比Webpack快

2024-02-21 06:38:04 20 阅读
Vite 为什么比 Webpack 快？

2024-02-21 06:38:04 19 阅读
为什么 FPGA 比 CPU 和 GPU 快？

2024-02-21 06:38:04 32 阅读
Vite为什么比Webpack快得多？

2024-02-21 06:38:04 17 阅读
面试常问：为什么 Vite 速度比 Webpack 快？

2024-02-21 06:38:04 20 阅读
面试常问：为什么 Vite 速度比 Webpack 快

2024-02-21 06:38:04 19 阅读