浅谈基于中台模式的大数据生态体系的理解

这篇文章主要浅谈一下我对大数据生态体系建设的理解。
大数据生态系统为高并发,高吞吐,高峰值,高堆积等大规模数据的采集,处理,计算,存储,服务提供了完善的处理体系,致力于打造核心数据中台建设,实现整个生态的高可扩展和高弹性,对数据熵的聚变提供基础数据处理支撑,贯穿整个阿里大数据生态体系和应用场景,对外暴露数据应用层采用适配原则可以和各类集团内应用提供统一的访问和回调接口,对于接受到的数据处理和计算请求会交给数据服务层进行数据清洗,转换和预处理,然后会把数据交由数据计算层来进行数据分拣,计算,提炼出最有价值的数据来实现业务场景最佳适配,数据计算层主要采用流批一体的处理思想,结合各类离线和实时计算平台等自研发的大数据和云计算处理服务来实现大规模高精准的数据计算,挖掘出最有价值的数据,提炼数据价值,同时集成了数据整合和管理体系和工具来进行最终的数据萃取。数据采集层则主要负责增全一体从各类关系型/非关系型数据库,大数据存储引擎,中间件容器中借助各类自研发日志采集服务实现实时/离线采集日志/增全量数据,使用drc等实时数据流基础设施实现数据同步,结合动态表,流表对偶性等实时计算核心概念实现流表数据同步和转换,支持各类数据溯源。数据采集层和数据计算层通过各类自研发消息中间件/数据传输中间件实现数据同步,同时对于数据计算层引入了数据仓库和模型的概念,采集到的数据经过提炼和萃取后会保留有意义的数据到各类数据仓库中,并基于元数据存储引擎对数据进行建模,对外统一暴露调度运行态的数据模型进行业务处理,内部封装了所有的大数据采集,计算和存储服务。
实时计算平台也叫做开放流计算服务,核心API是AntPL SQL,弃用了DataStreamAPI,原因是SQL具有很多特性,比如声明式,自动调优,易于理解,扩展性强,运行稳定,流批一体。比如很多人知道的Apache Flink就是一个面相集团的开放流计算服务,它的底层runtime就是一个统一了流和批的底层处理引擎,而SQL恰好可以在API层面实现流和批的统一。Flink最大的特点就是流批一体的高性能,高效率,面向大数据的实时数据计算引擎,可以随着时间变化和数据变化不断更新结果,始终处于运行状态,对于运行期数据源数据的增量变更会采取增量监听,抓取和实时计算的方式生成新的动态表流,新的动态表流又会作为下一个连续查询的输入源继续参与计算,以此类推,最终会形成一个完整的数据流。在实时计算中,动态表可以理解为随着时间变化不断更新的表,流可以理解为是一个具有输入输出的数据通道,流和动态表是可以通过changelog进行相互转换的,那么我们就把这种特性叫做流表的对偶性,因为我们传统sql都是批处理,是不支持流处理的,无论是概念上还是语法上,都不方便,无法在批流之间建立映射关系,因此如果我们要定义流sql就需要结合Flink SQL的核心概念连续查询来实现,Flink SQL流批一体可以通过一套SQL定义同时实现批流处理,并且对接了绝大多数数据源进行输入输出,比如各类RDB Cluster,Random,AntQ,MetaQ,DataHub,TimeTunnel,TDDL,SLS,DRC,融合队列,HBase,Exploer,ODPS等等,连续查询往上走,还可以上升到维度的概念啊,分层的概念啊,数据分层,多流关联,维表关系等等,再此先不再深入讨论流式SQL的衍变。
Flink SQL核心功能莫过于DataHub,MetaQ(RocketMQ),OTS进行数据分层和流表,维表关联读写,往深点说,还有很多高级特性,比如双流JOIN,维表JOIN,TopN,窗口计算和水位,多路输入输出,MiniBatch,Retraction等机制实现early-fire,支持各类语言的数据计算任务研发,质量管理,整合,运维保障,已经实现了跨语言,跨数据源,跨地域的实时计算开发和管理。兼容T-SQL,PL/SQL,Java,C++,Python,Spark-Jar,Golang等等,内置各类大数据处理引擎如Spark,ODPS,Kepler,Flink,结合大数据存储引擎HBase,Explorer,ODPS,RDS Cluster等等实现数据从数据采集,数据处理,数据计算,数据服务,数据应用的全产业链高效稳定发展,必将为DT时代大数据发展注入更多技术支持,能够兼容更多的大数据业务场景,因此数据中台建设是所有基础设施建设中非常重要的一环。

相关推荐

  1. 基于模式数据生态体系理解

    2024-02-16 19:28:01       52 阅读
  2. AI模型学习理论基础和发展

    2024-02-16 19:28:01       41 阅读
  3. [AIGC 数据基础]hive

    2024-02-16 19:28:01       53 阅读
  4. 对线程理解

    2024-02-16 19:28:01       36 阅读
  5. NLP和模型关系

    2024-02-16 19:28:01       69 阅读
  6. 003、Neo4j数据模型

    2024-02-16 19:28:01       30 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-16 19:28:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-16 19:28:01       101 阅读
  3. 在Django里面运行非项目文件

    2024-02-16 19:28:01       82 阅读
  4. Python语言-面向对象

    2024-02-16 19:28:01       91 阅读

热门阅读

  1. 【图论经典题目讲解】洛谷 P2149 Elaxia的路线

    2024-02-16 19:28:01       58 阅读
  2. 应急响应实战笔记02日志分析篇(2)

    2024-02-16 19:28:01       46 阅读
  3. MySQL双写机制

    2024-02-16 19:28:01       60 阅读