一、技术层面
通过下面这张图,我们可以大概确定,在大数据行业里,自己的学习路线。
个人认为,Hadoop
集群一旦搭建完工,基本就是个把人运维的事情
主要岗位应该是集中在数据计算层
,尤其是实时计算!
实时计算框架比较实用的是Spark Streaming
和 Flink
数据传输层,有叫数据采集层,将不同的数据源中的各种类型数据,采集到Hadoop
中进行存储
Flume
组件,个人觉得与Logstash
组件等效。
这里的定时任务,任务之间是可以相互依赖的
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/55a63ec99958449bad4ac8af66e31b83.png)
二、业务层面
个人偏好推荐功能
![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/a8841a290b7340c0a5ca7feb31e653fe.png)