【大数据】MapReduce

2024-05-16 15:18:18
开发
17

文章目录

@[toc]

海量数据分流技术

传统Hash

一致性Hash（Consistent Hashing）

MapReduce执行流程

InputFormat

Shuffle

Partitioner

Spill

Combiner

MapReduce两个重要的进程

JobTracker

TaskTracker

MapReduce物理配置

查看系统资源限制

设置合适的slot

Hadoop Streaming

Streaming选项

因上努力

个人主页：丷从心·

系列专栏：大数据

果上随缘

海量数据分流技术

传统Hash

Hash(key) % max

一致性Hash（Consistent Hashing）

将哈希值映射到一个哈希环上
每个节点通过哈希函数映射到这个环上一个或多个点
数据项也通过哈希函数映射到环上的某个点，然后按照顺时针方向查找到第一个节点，这个节点就是该数据项存储的地方

MapReduce执行流程

InputFormat

$M a pR e d u ce$ 框架基础类之一，进行 $\ Split$ 数据分割和 $\ Read$ 记录读取
$Bl oc k$ 是底层的文件块， $M a p$ 无法直接读取，需要将 $Bl oc k$ 转换为内部可以识别的 $R ecor d$
'\n'保证每条记录在数据切割时不被切散，实际上每个 $Spl i t$ 包含后一个 $Bl oc k$ 中开头部分的数据，解决 $R ecor d$ 跨 $Bl oc k$ 问题
$\ Reader$ 每读取一条 $R ecor d$ ，就调用一次 $M a p$ 函数

Shuffle

$M a p$ 任务的输出到 $R e d u ce$ 任务的输入之间的过程

Partitioner

决定数据由哪个 $R e d u ce$ 处理，从而分区
$P a r t i t i o n$ 在一个环形内存缓冲区中进行，每个缓冲区大小默认 $100 M$ ，溢写阈值为 $100M \times 80\% = 80 M$ ，缓冲区中的数据为 $(p a r t i t i o n, k ey, v a l u e)$ 三元组

Spill

在内存缓冲区达到阈值时， $Sp i ll$ 溢写线程会锁住 $80 M$ 的缓冲区，开始将数据写到本地磁盘上，然后释放内存
每次溢写都生成一个数据文件
数据溢写前会对 $k ey$ 进行快速排序以及 $C o mbin e$

Combiner

将相同的 $k ey$ 的数据的 $v a l u e$ 进行合并
减少数据量，提高数据传输效率

MapReduce两个重要的进程

JobTracker

主进程，负责接收 $Cl i e n t$ 作业提交，调度任务到从节点上运行
监控工作节点状态及任务进度
利用一个线程池来同时处理心跳和用户请求

TaskTracker

由 $J o b T r a c k er$ 指派任务，实例化用户程序，在本地执行任务
通过周期性的心跳来通知 $J o b T r a c k er$ 其当前的健康状态，每 $3$ 秒心跳一次，每一次心跳包含了可用的 $M a p$ 和 $R e d u ce$ 任务数目、占用的数目以及运行中的任务详细信息

MapReduce物理配置

查看系统资源限制

ulimit -a

设置合适的slot

mapred.tasktracker.map.tasks.maximum默认值为 $2$
mapred.tasktracker.reduce.tasks.maximum默认值为 $2$

Hadoop Streaming

$M a p$ 和 $R e d u ce$ 只需要从 $s t d in$ 读和写到 $s t d o u t$
$St re amin g$ 默认只能处理文本数据，如果对二进制数据进行处理，比较好的方法是将二进制的 $k ey$ 和 $v a l u e$ 进行 $ba se 64$ 的编码转换，得到文本

Streaming选项

-cacheFile选项指定一个文件，需要上传到 $HD FS$
-cacheArchive选项指定一个目录结构，需要上传到 $HD FS$
-file选项将本地文件分发到计算节点上
-jobconf选项
- mapred.job.priority表示作业优先级
- mapred.job.map.capacity表示最多同时运行的 $M a p$ 任务数
- mapred.job.reduce.capacity表示最多同时运行的 $R e d u ce$ 任务数
- mapred.task.timeout表示任务未响应的最大时间

原文地址:https://blog.csdn.net/from__2024_04_11/article/details/138949906 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1791005234752000000.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部