1.大数据文件系统:
GFS(谷歌的分布式文件系统)
HDFS(hadoop distrubuted file system)分布式文件系统,衍生自GFS
2.大数据平台
MapReduce :谷歌的大数据处理平台,服务于搜索
Hadoop:批量和静态数据,运用最广泛
Spark:Berkeley的交互式数据处理系统,特点是快
3.大数据的数据库
Big Table:分布式数据库,主要储存结构化数据
Dynamo:亚马逊的,改进了哈希表和向量时钟vector clock
==============================主要技术============================
分布式存储:
GFS/HDFS
BIG TABLE/HBASE
NOSQL
NEWSQL
分布式处理:
MAP REDUCE
计算机方面:
同构/异构的计算机集群,被集群的可以看做一台计算机,如linux的虚拟服务器
大数据的处理流程