一、大数据分布式
1.1 数据导论
1. 什么是数据?
人类的行为及产生的事件的一种记录称之为数据
2. 数据有什么价值?
对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律 比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易。
1.2 大数据诞生
1. 大数据的诞生是跟随着互联网的发展的
当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理。 基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。
2. Apache Hadoop对大数据体系的意义
- 第一款获得业界普遍认可的开源分布式解决方案
- 让各类企业都有可用的企业级开源分布式解决方案
- 一定程度上催生出了众多的大数据体系技术栈
- 从Hadoop开始(2008年左右)大数据开始蓬勃发展
1.3 大数据概述
1. 什么是大数据
狭义上:对海量数据进行处理的软件技术体系
广义上:数字化、信息化时代的基础支撑,以数据为生活赋能
2. 大数据的5个主要特征
3. 大数据的核心工作:
- 存储:妥善保存海量待处理数据