hdfs中的小知识（hadoop hdfs hive）

2024-05-14 07:54:08
开发
10

FileinputFormat切片机制

（1）简单地按照文件的内容长度进行切片

（2）切片大小，默认等于block大小

（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

自定义InputFormat流程

（1）自定义一个类继承FileInputFormat

（2）改写RecordReader ，实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量？

1）map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2）reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

*** inputformat 是在mapreduce中产生的

原文地址:https://blog.csdn.net/m0_62008384/article/details/138802830 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1790168681976827904.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

hdfs中的小知识（hadoop hdfs hive）

2024-05-14 07:54:08 11 阅读
C语言中关于#include的一些小知识

2024-05-14 07:54:08 26 阅读
hadoop中hdfs的fsimage文件与edits文件

2024-05-14 07:54:08 13 阅读
大数据中的HDFS读写流程（namenode,datanode）

2024-05-14 07:54:08 15 阅读
小白必须知道的 ZooKeeper 知识

2024-05-14 07:54:08 33 阅读
HDFS的超级用户

2024-05-14 07:54:08 26 阅读
【基础知识】大数据组件HDFS简述

2024-05-14 07:54:08 36 阅读
hdfs 中 Map Tas工作机制（Hadoop，hive，hdfs）

2024-05-14 07:54:08 12 阅读
C语言中关于分支与循环的那些小知识------switch语句

2024-05-14 07:54:08 33 阅读
【C#小知识】c#中的delegate（委托）和event（事件）

2024-05-14 07:54:08 31 阅读