hdfs中的小知识(hadoop hdfs hive)

FileinputFormat切片机制

(1)简单地按照文件的内容长度进行切片

(2)切片大小 ,默认等于block大小

(3)切片时不考虑数据集整体 ,而是逐个针对每一个文件单独切片

自定义InputFormat流程

(1)自定义一个类继承FileInputFormat

(2)改写RecordReader ,实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量?

1)map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2)reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

***  inputformat 是在mapreduce中产生的

相关推荐

  1. hdfs知识(hadoop hdfs hive)

    2024-05-14 07:54:08       11 阅读
  2. hadoophdfsfsimage文件与edits文件

    2024-05-14 07:54:08       13 阅读
  3. hdfs Map Tas工作机制(Hadoop,hive,hdfs

    2024-05-14 07:54:08       12 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-05-14 07:54:08       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-14 07:54:08       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-14 07:54:08       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-14 07:54:08       20 阅读

热门阅读

  1. springboot 注解(持续更新中)

    2024-05-14 07:54:08       15 阅读
  2. uniapp外部scss文件使用scss语法不生效.

    2024-05-14 07:54:08       9 阅读
  3. 文心一言指令:引领语言模型的创新之路

    2024-05-14 07:54:08       11 阅读
  4. git自用随笔

    2024-05-14 07:54:08       8 阅读
  5. Php简易留言

    2024-05-14 07:54:08       10 阅读
  6. MySQL索引设计遵循一系列原则

    2024-05-14 07:54:08       13 阅读