[数仓]十二、离线数仓(Atlas元数据管理)

第1章 Atlas入门

1.1 Atlas概述

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队提供围绕这些数据资产的协作功能。

Atlas的具体功能如下:

元数据分类

支持对元数据进行分类管理,例如个人信息,敏感信息等

元数据检索

可按照元数据类型、元数据分类进行检索,支持全文检索

血缘依赖

支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等

1)表与表之间的血缘依赖

2)字段与字段之间的血缘依赖

1.2 Atlas架构原理

第2章 Atlas安装

1)Atlas官网地址:Apache Atlas – Data Governance and Metadata framework for Hadoop
2)文档查看地址:https://atlas.apache.org/2.1.0/index.html
3)下载地址:
        https://www.apache.org/dyn/closer.cgi/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

2.1 安装环境准备

        Atlas安装分为:集成自带的HBase + Solr;集成外部的HBase + Solr。通常企业开发中选择集成外部的HBase + Solr,方便项目整体进行集成操作。以下是Atlas所依赖的环境及集群规划。本文只包含Solr和Atlas的安装指南,其余所依赖服务的安装请参考前边章节。

服务名称

子服务

服务器

hadoop102

服务器

hadoop103

服务器

hadoop104

JDK

Zookeeper

QuorumPeerMain

Kafka

Kafka

HBase

HMaster

HRegionServer

Solr

Jar

Hive

Hive

Atlas

相关推荐

  1. []线(安全集群实战)

    2024-07-17 01:42:04       23 阅读
  2. 线VS实时

    2024-07-17 01:42:04       25 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-17 01:42:04       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-17 01:42:04       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-17 01:42:04       58 阅读
  4. Python语言-面向对象

    2024-07-17 01:42:04       69 阅读

热门阅读

  1. 在 Git 中把文件恢复到之前的提交

    2024-07-17 01:42:04       21 阅读
  2. 可用内存为什么可以超过实际内存

    2024-07-17 01:42:04       20 阅读
  3. 安全运营概述

    2024-07-17 01:42:04       22 阅读
  4. $@和$?在shell脚本中什么意思

    2024-07-17 01:42:04       21 阅读
  5. 前端面试题日常练-day92 【Less】

    2024-07-17 01:42:04       20 阅读