简介
Apache Amoro(incubating) 是一个构建在 Apache Iceberg 等开放数据湖表格之上的湖仓管理系统,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。
Amoro 的愿景是依托于 Apache Iceberg、Apache Paimon 等新型数据湖表格式的基础功能,持续打磨湖仓管理系统的定位和开箱即用的功能,为大数据产品和用户带来:
降低湖仓应用门槛,融入现代数据栈,为围绕湖仓构建的大数据产品极瘦身,让湖仓不再成为互联网企业的专宠。
通过管理系统对维护任务的全托管能力,实现数据湖的自治,让数据治理变简单开箱即用。提供全托管维护任务的扩展能力,让湖仓管理变得好玩,帮业务清楚湖仓落地在降本增效,性能优化等各方面的价值。
功能
- 提供统一的 Catalog 服务,对齐 Hive Metastore,Rest catalog 等开源标准,支持集成 Glue 等商业元仓,帮助引擎和产品构建流批统一的元仓。
- 提供全托管的湖仓维护功能(Maintenance Function),包括但不限于数据自优化、数据过期、快照清理、元数据同步等。不同于引擎端实现,Amoro 希望通过全托管的湖仓维护功能打造数据在不同引擎之间的高可用性和开箱即用。
- 向下支持对接不同的数据湖格式,包括 Apache Iceberg 和 Apache Paimon,以及一种对流批一体场景更加优化的 Mixed 格式。
- 提供开箱即用的管理工具,包括但不限于 DSL 指令、Metrics、Dashboard。