目录
定义和特点
元数据(Metadata)是指关于数据的数据,或者说是描述数据的数据。它提供了一种关于数据来源、含义、质量、安全性、创建和更新等信息的信息。元数据可以是关于个体、集合、组织或系统的任何类型的信息。在数据仓库中,元数据是一种关键的概念,它具有以下几个特点:
(1)描述性:元数据描述了数据的特点和属性,帮助用户更好地理解数据。
(2)管理性:元数据用于管理数据仓库中的数据,包括数据的生命周期、访问控制和安全等。
(3)质量保证:元数据提供了关于数据的可信度和质量的信息,有助于保证数据的可靠性。
- 元数据在数据仓库中的作用
在数据仓库中,元数据的作用非常重要,主要包括以下几个方面:
(1)数据建模:元数据可以帮助用户进行数据建模,确定数据的结构、关系和规则。
(2)数据质量管理:通过元数据,可以管理数据仓库中的数据质量,包括数据的准确性、完整性和一致性等。
(3)数据安全和权限管理:元数据可以用于管理数据的安全和权限,确保只有授权用户可以访问和修改数据。
关注点
元数据需求规划应重点关注的需求如下:
元数据模型需求:命名规范、结构、元素及关联关系等。
元数据接口需求:元数据资料库及其内容,适配器、所有者、系统访问、元数据血缘关系等。
元数据系统需求:元数据采集、元数据管理、元数据应用等。
数据安全需求:数据的分类分级、敏感数据分布、敏感数据管理要求等。
数据质量需求:数据质量规则、数据标准定义等。
数据管理需求:数据管理的组织、流程、制度、考核等。
流程
- 采集
- 注册
- 发布
自动采集、注册、发布,未来趋向于智能化。
使用场景
元数据影响分析
元数据影响分析会告诉你数据去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系向下追踪,快速找到有哪些应用或数据库使用了这个数据,从而最大限度地减小数据问题带来的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用的影响分析。
血缘分析是向上追溯,影响分析是向下追踪,这是这两个功能的区别。
元数据冷热度分析
元数据冷热度分析会告诉你哪些数据是企业常用数据,哪些数据属于僵死数据。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰地看到数据的活跃程度,以便他们更好地驾驭数据,处置或激活僵死数据,从而为数据的自助式分析提供支撑。
元数据关联度分析
元数据关联度分析会告诉你数据与其他数据的关系,以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其他实体及其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,如表与ETL程序、表与分析应用、表与其他表的关联情况等,从而进一步了解该实体的重要程度。
血缘分析
元数据血缘分析会告诉你数据来自哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系追根溯源,快速定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度
数据地图
告诉你有哪些数据,可以在那里找到这些数据,标签是什么,用来干什么。
元数据接口
建立元数据查询、访问的统一接口规范,以将企业核心元数据完整、准确地提取到元数据仓库中进行集中管理和统一共享。
元数据接口规范主要包括接口编码方式、接口响应格式、接口协议、接口安全、连接方式、接口地址等方面的内容。
接口编码方式:接口编码方式必须在接口的头信息中注明,常用的接口编码方式有UTF-8、GBK、GB2312、ISO-8859-1。
接口响应格式:元数据接口常用的报文格式,XML或JSON。
接口协议:REST/SOAP协议。
接口安全:Token身份认证。
连接方式:POST。
接口地址:http://url/service?[query]。