Hadoop3:MapReduce之InputFormat数据输入过程整体概览(0)

一、MapReduce中数据流向

在这里插入图片描述

二、MapTask并行度

1、原理概览

数据块:BlockHDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位,一个切片会对应启动一个MapTask

1)一个JobMap阶段并行度由客户端在提交Job时的切片数决定
2)每一个Split切片分配一个MapTask并行实例处理
3)默认情况下,切片大小=BlockSize
4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

所以,会开启几个MapTask线程并发处理任务,是由切片数量决定的。
一般,切片大小的设置要与Block大小保持一致。这样性能最优。

2、相关配置

切片大小的配置
mapred-default.xml
最小切片大小配置
默认0,如果配置0,则代码层面分配是1

<property>
  <name>mapreduce.input.fileinputformat.split.minsize</name>
  <value>0</value>
  <description>The minimum size chunk that map input should be split
  into.  Note that some file formats may have minimum split sizes that
  take priority over this setting.</description>
</property>

在这里插入图片描述
最大切片大小配置
默认不配置,所以代码获取不到,代码给予Long.MAX_VALUE
mapreduce.input.fileinputformat.split.maxsize
在这里插入图片描述


BlockSize的配置
hdfs-default.xml

<property>
  <name>dfs.blocksize</name>
  <value>134217728</value>
  <description>
      The default block size for new files, in bytes.
      You can use the following suffix (case insensitive):
      k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),
      Or provide complete size in bytes (such as 134217728 for 128 MB).
  </description>
</property>

相关推荐

  1. Hadoopmapreduce参数大全-3

    2024-06-06 07:26:02       42 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-06 07:26:02       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-06 07:26:02       106 阅读
  3. 在Django里面运行非项目文件

    2024-06-06 07:26:02       87 阅读
  4. Python语言-面向对象

    2024-06-06 07:26:02       96 阅读

热门阅读

  1. PSOPT在Ubuntu22.04下的安装

    2024-06-06 07:26:02       29 阅读
  2. flask项目结构心得

    2024-06-06 07:26:02       24 阅读
  3. #职场发展#其他

    2024-06-06 07:26:02       27 阅读
  4. git命令

    2024-06-06 07:26:02       34 阅读
  5. 分布式搜索引擎ElasticSearch学习笔记

    2024-06-06 07:26:02       22 阅读
  6. 数据流图要点和难点实际应用

    2024-06-06 07:26:02       26 阅读
  7. Python函数式编程

    2024-06-06 07:26:02       29 阅读
  8. cv2 视频UDP传输

    2024-06-06 07:26:02       28 阅读
  9. Python命令行参数处理:详解argparse模块

    2024-06-06 07:26:02       31 阅读