Hadoop中的副本、校验和(数字指纹)、block

2024-07-10 11:08:05
开发
21

1.副本：为了系统容错，文件系统会对所有的数据块进行副本复制

1.副本生成和数量

在数据块被写入HDFS的过程中，NameNode会根据副本策略决定每个数据块的副本数量和存储位置，Hadoop默认副本数量是3，每个数据块的副本会被存放在不同的DataNode节点上，以确保数据的高可用和容错性。

第一个副本，如果客户端是集群外的一台机器，就会随机存放在一个DataNode节点上（系统会避免存放在太忙碌的节点）

第二个副本，存放在不同机架上的随机DataNode节点

第三个副本，存放在与第二个副本相同的机架但是不同的DataNode节点上

2.校验和（Checksum）

在数据块被写入HDFS的过程中，客户端会将输入的文件按照block块的大小切分为多个数据块，对于每个数据块，客户端会计算其校验和，并将这些校验和一起存储在一个单独的校验和文件中，这些校验和文件和实际的数据块被一起存放在DataNode中，用于后续的数据完整性的校验。

当客户端从HDFS中下载数据时，NameNode会提供数据块的位置（包括副本的位置），客户端会根据这些位置从DataNode中下载数据块和校验和文件

客户端逐个读取数据块，并计算每个数据块的校验和，将计算得到的校验和与从校验和文件中读取的校验和进行比较，如果校验和匹配，说明这个数据快是完整且未被篡改的

如果校验和不匹配，客户端会从其他的DataNode中下载该数据块的副本，并重新进行校验。

3.block块

数据块，磁盘读写的基本单位，hadoop2.0默认大小是128M

块增大可以减少寻址时间，但是也不宜过大，块过大会导致整体任务数量过小，降低作业处理速度

原文地址:https://blog.csdn.net/limenghao2002/article/details/140288760 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1810873600648024064.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-10 11:08:05 125 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-10 11:08:05 115 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-10 11:08:05 99 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-10 11:08:05 107 阅读
NoSQL之Redis非关系型数据库

2024-07-10 11:08:05 110 阅读
2024.7.22 作业

2024-07-10 11:08:05 108 阅读
GDB调试正在运行的程序

2024-07-10 11:08:05 90 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-10 11:08:05 94 阅读
在Django里面运行非项目文件

2024-07-10 11:08:05 90 阅读
SSD基本架构与工作原理

2024-07-10 11:08:05 98 阅读
在誉天学习完HCIE就业吗？

2024-07-10 11:08:05 101 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-10 11:08:05 93 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-10 11:08:05 96 阅读
go 协程池的实现

2024-07-10 11:08:05 96 阅读
Shell脚本循环语句与函数

2024-07-10 11:08:05 100 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-10 11:08:05 101 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-10 11:08:05 92 阅读
四大引用——强软弱虚

2024-07-10 11:08:05 93 阅读
Python语言-面向对象

2024-07-10 11:08:05 98 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-10 11:08:05 96 阅读
网站安全-CDN篇

2024-07-10 11:08:05 96 阅读

热门阅读

【前端速通系列|第二篇】Vue3前置知识

2024-07-10 11:08:05 27 阅读
Hadoop-YARN-Tutorial

2024-07-10 11:08:05 25 阅读
前端根据目录生成模块化路由routes

2024-07-10 11:08:05 26 阅读
Docker-compse的应用

2024-07-10 11:08:05 26 阅读
python开发prometheus exporter--用于hadoop-yarn监控

2024-07-10 11:08:05 28 阅读
大数据之Hadoop平台的搭建

2024-07-10 11:08:05 26 阅读
Xshell 和宝塔有啥区别

2024-07-10 11:08:05 30 阅读
【React】基础数据回填--useForm与setFieldsValue详解

2024-07-10 11:08:05 25 阅读
Oracle通过procedure调用webservice接口

2024-07-10 11:08:05 26 阅读
海南云亿商务咨询有限公司助力品牌快速崛起

2024-07-10 11:08:05 30 阅读
一些学习网站分享

2024-07-10 11:08:05 33 阅读
07-04 周四关于vLLM(LLMs_inference)源码安装过程问题与解决

2024-07-10 11:08:05 24 阅读
SD卡，laptop，启动ubtuntu

2024-07-10 11:08:05 26 阅读
侯捷C++面向对象高级编程（上）-12-委托相关设计

2024-07-10 11:08:05 20 阅读
解决npm与yarn痛点：幽灵依赖与依赖分身

2024-07-10 11:08:05 33 阅读
达梦数据库主备手动切换

2024-07-10 11:08:05 29 阅读
如何压缩pdf文件大小，怎么压缩pdf文件大小

2024-07-10 11:08:05 29 阅读
创建数据库表的语法定义包含了SQL Server、Mysql、PostgreSQL、SQLite的示例

2024-07-10 11:08:05 31 阅读
ffmpeg滤镜创建过程

2024-07-10 11:08:05 30 阅读
stm32使用单通道规则组ADC

2024-07-10 11:08:05 31 阅读
HTML 学习指南：从入门到精通

2024-07-10 11:08:05 29 阅读
经导管二尖瓣修复系统市场全面解析与未来展望

2024-07-10 11:08:05 28 阅读
MySQL运维实战之ProxySQL（9.5）proxysql和MySQL Group Replication配合使用

2024-07-10 11:08:05 25 阅读
MySQL中的DDL语句

2024-07-10 11:08:05 23 阅读
AIGC爬虫类代码示例：Scrapy和OpenAI API实现抓取内容并生成内容

2024-07-10 11:08:05 28 阅读
大众点评商家电话采集软件分享解析爬虫工具

2024-07-10 11:08:05 26 阅读
Blender新手入门笔记收容所（一）

2024-07-10 11:08:05 26 阅读
Python 使用正则提取字符串

2024-07-10 11:08:05 22 阅读
k8s record 20240708

2024-07-10 11:08:05 22 阅读
低代码研发项目管理流程优化：提效与创新的双重驱动

2024-07-10 11:08:05 26 阅读