大数据处理系统架构特征

2024-07-09 22:40:02
开发
19

Storm之父Nathan Marz在《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一书中，提出了他认为大数据系统应该具有的属性。

1.鲁棒性和容错性（Robust and Fault-tolerant）

对大规模分布式系统来说，机器是不可靠的，可能会宕机，但是系统需要是健壮、行为正确的，即使是遇到机器错误。除了机器错误，人更可能会犯错误。在软件开发中难免会有一些Bug，系统必须对有Bug的程序写入的错误数据有足够的适应能力，所以比机器容错性更加重要的容错性是人为操作容错性。对于大规模的分布式系统来说，人和机器的错误每天都可能会发生，如何应对人和机器的错误，让系统能够从错误中快速恢复尤其重要。

2.低延迟读取和更新能力（Low Latency Reads and Updates）

许多应用程序要求数据系统拥有几毫秒到几百毫秒的低延迟读取和更新能力。有的应用程序允许几个小时的延迟更新，但是只要有低延迟读取与更新的需求，系统就应该在保证鲁棒性的前提下实现。

3.横向扩容（Scalable）

当数据量或负荷增大时，可扩展性的系统通过增加更多的机器资源来维持性能。也就是常说的系统需要线性可扩展，通常采用scale out（通过增加机器的个数）而不是scale up（通过增强机器的性能）。

4.通用性（General）

系统需要支持绝大多数应用程序，包括金融领域、社交网络、电子商务数据分析等。

5.延展性（Extensible）

在新的功能需求出现时，系统需要能够将新功能添加到系统中。同时，系统的大规模迁移能力是设计者需要考虑的因素之一，这也是可延展性的体现。

6.即席查询能力（Allows Ad Hoc Queres）

用户在使用系统时，应当可以按照自己的要求进行即席查询（Ad Hoc）。这使用户可以通过系统多样化数据处理，产生更高的应用价值。

7.最少维护能力（Minimal Maintenance）

系统需要在大多数时间下保持平稳运行。使用机制简单的组件和算法让系统底层拥有低复杂度，是减少系统维护次数的重要途径。Marz认为大数据系统设计不能再基于传统架构的增量更新设计，要通过减少复杂性以减少发生错误的几率、避免繁重操作。

8.可调试性（Debuggable）

系统在运行中产生的每一个值，需要有可用途径进行追踪，并且要能够明确这些值是如何产生的。

原文地址:https://blog.csdn.net/huaqianzkh/article/details/140234157 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1810685344866242560.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

大数据处理系统架构特征

2024-07-09 22:40:02 20 阅读
大数据处理系统的架构

2024-07-09 22:40:02 52 阅读
【大数据】Flink 系统架构

2024-07-09 22:40:02 42 阅读
大数据框架及其处理架构详析

2024-07-09 22:40:02 45 阅读
五大架构之一：系统架构数据流风格

2024-07-09 22:40:02 47 阅读
数据处理架构

2024-07-09 22:40:02 49 阅读
大数据存储解决方案和处理流程——解读大数据架构（四）

2024-07-09 22:40:02 24 阅读
机器学习：数据处理与特征工程

2024-07-09 22:40:02 50 阅读
【大数据】Doris 架构

2024-07-09 22:40:02 54 阅读
大数据技术架构

2024-07-09 22:40:02 68 阅读

最近更新

题解 - 序列

2024-07-09 22:40:02 67 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-09 22:40:02 57 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-09 22:40:02 50 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-09 22:40:02 54 阅读
NoSQL之Redis非关系型数据库

2024-07-09 22:40:02 59 阅读
2024.7.22 作业

2024-07-09 22:40:02 61 阅读
GDB调试正在运行的程序

2024-07-09 22:40:02 45 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-09 22:40:02 49 阅读
在Django里面运行非项目文件

2024-07-09 22:40:02 43 阅读
SSD基本架构与工作原理

2024-07-09 22:40:02 50 阅读
在誉天学习完HCIE就业吗？

2024-07-09 22:40:02 58 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-09 22:40:02 47 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-09 22:40:02 51 阅读
go 协程池的实现

2024-07-09 22:40:02 49 阅读
Shell脚本循环语句与函数

2024-07-09 22:40:02 50 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-09 22:40:02 55 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-09 22:40:02 50 阅读
四大引用——强软弱虚

2024-07-09 22:40:02 54 阅读
Python语言-面向对象

2024-07-09 22:40:02 54 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-09 22:40:02 50 阅读
网站安全-CDN篇

2024-07-09 22:40:02 51 阅读