Hadoop3：HDFS存储优化之小文件归档

2024-07-18 19:52:01
开发
19

一、情景说明

我们知道，NameNode存储一个文件元数据，默认是150byte大小的内存空间。
那么，如果出现很多的小文件，就会导致NameNode的内存占用。

但注意，存储小文件所需要的磁盘容量和数据块的大小无关。
例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB。

二、解决方案

HDFS存档文件或HAR文件来优化这个问题
具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。
在这里插入图片描述
它的底层，其实是一个MR程序。
你可以简单理解为，它就是一个压缩程序。

三、案例

将/input目录下的文件归档成input.har文件，并存于根目录。
在这里插入图片描述
归档文件

hadoop archive -archiveName input.har -p /input /output

在这里插入图片描述
查看归档文件内容

hadoop fs -ls /output/input.har
hadoop fs -ls har:///output/input.har

在这里插入图片描述

解压归档文件中所有文件

hadoop fs -cp har:///output/input.har/*    /

解压归档文件中一个文件

hadoop fs -cp har:///output/input.har/hello.txt /

在这里插入图片描述

原文地址:https://blog.csdn.net/Brave_heart4pzj/article/details/140484145 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813904554199224320.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

Hadoop3：HDFS存储优化之小文件归档

2024-07-18 19:52:01 20 阅读
Hadoop3：HDFS-存储优化之纠删码

2024-07-18 19:52:01 21 阅读
Hadoop集成对象存储和HDFS磁盘文件存储

2024-07-18 19:52:01 55 阅读
Hadoop之HDFS分布式文件系统

2024-07-18 19:52:01 27 阅读
Hadoop——分布式存储HDFS

2024-07-18 19:52:01 42 阅读
【Hadoop-HDFS-S3】HDFS 和存储对象 S3 的对比

2024-07-18 19:52:01 43 阅读
大数据 - Hadoop系列《五》- HDFS文件块大小及小文件问题

2024-07-18 19:52:01 25 阅读
Hadoop之HDFS 详细教程

2024-07-18 19:52:01 30 阅读
笔记1-Hadoop之HDFS

2024-07-18 19:52:01 37 阅读
Hadoop3：MR程序处理小文件的优化办法(uber模式)

2024-07-18 19:52:01 19 阅读

最近更新

题解 - 序列

2024-07-18 19:52:01 86 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-18 19:52:01 72 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-18 19:52:01 67 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-18 19:52:01 71 阅读
NoSQL之Redis非关系型数据库

2024-07-18 19:52:01 74 阅读
2024.7.22 作业

2024-07-18 19:52:01 74 阅读
GDB调试正在运行的程序

2024-07-18 19:52:01 59 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-18 19:52:01 60 阅读
在Django里面运行非项目文件

2024-07-18 19:52:01 58 阅读
SSD基本架构与工作原理

2024-07-18 19:52:01 64 阅读
在誉天学习完HCIE就业吗？

2024-07-18 19:52:01 71 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-18 19:52:01 61 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-18 19:52:01 65 阅读
go 协程池的实现

2024-07-18 19:52:01 64 阅读
Shell脚本循环语句与函数

2024-07-18 19:52:01 66 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-18 19:52:01 70 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-18 19:52:01 62 阅读
四大引用——强软弱虚

2024-07-18 19:52:01 67 阅读
Python语言-面向对象

2024-07-18 19:52:01 69 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-18 19:52:01 64 阅读
网站安全-CDN篇

2024-07-18 19:52:01 64 阅读

热门阅读

2024Datawhale AI夏令营---基于术语词典干预的机器翻译挑战赛--学习笔记

2024-07-18 19:52:01 18 阅读
PyQt弹出式抽屉窗口

2024-07-18 19:52:01 18 阅读
kibana中的数据晚8个小时

2024-07-18 19:52:01 22 阅读
基于SpringBoot+Vue的广场舞团系统(带1w+文档)

2024-07-18 19:52:01 21 阅读
Python 实现股票指标计算——BIAS

2024-07-18 19:52:01 19 阅读
【驱动程序】霍尔编码器电机_CubeMX_HAL库

2024-07-18 19:52:01 24 阅读
leetcode102.二叉树的层序遍历

2024-07-18 19:52:01 20 阅读
正则表达式

2024-07-18 19:52:01 19 阅读
框架

2024-07-18 19:52:01 19 阅读
深度学习根据代码可视化模型结构图的方法

2024-07-18 19:52:01 23 阅读
QT CNA上位机报错解决方案

2024-07-18 19:52:01 19 阅读
使用ChatGPT完成论文写作全流程提示词分享！

2024-07-18 19:52:01 19 阅读
9 Docker实践_安装JDK

2024-07-18 19:52:01 22 阅读
$逻辑回归（Logistic Regression，LR）$

逻辑回归（Logistic Regression，LR）

2024-07-18 19:52:01 20 阅读
C语言的五个库函数的模拟实现

2024-07-18 19:52:01 21 阅读
opencv—常用函数学习_“干货“_5

2024-07-18 19:52:01 24 阅读
【LLM】基于ColossalAI-0.3.6对llama2-7B-Chat做全参数微调

2024-07-18 19:52:01 18 阅读
2、如何发行自己的数字代币（truffle智能合约项目实战）

2024-07-18 19:52:01 18 阅读
AJAX知识点（详解）

2024-07-18 19:52:01 23 阅读
经纬恒润全新第二代行泊一体域控制器成功量产

2024-07-18 19:52:01 23 阅读
C语言 do while循环语句练习下

2024-07-18 19:52:01 17 阅读
C++ Qt 登录界面 Login

2024-07-18 19:52:01 23 阅读
光伏储能剑指何方

2024-07-18 19:52:01 20 阅读
在 Electron 中，主进程和渲染进程之间有多种通信方式

2024-07-18 19:52:01 19 阅读
从挑战到实战！TDengine 新能源行业研讨会要点回顾

2024-07-18 19:52:01 22 阅读
单例模式单例模式在多线程中是否线程安全，如何保证线程安全。

2024-07-18 19:52:01 19 阅读
【C++修炼之路第三章】内存管理：new 与 delete

2024-07-18 19:52:01 22 阅读
记录些MySQL题集（12）

2024-07-18 19:52:01 18 阅读
VS2019+CMake+Vtk9.3.0+Qt5.14.2 配置

2024-07-18 19:52:01 20 阅读
【C++】C++设计远程桌面软件的技术详解

2024-07-18 19:52:01 25 阅读