数据采集项目2-业务数据同步

全量同步

每天都将业务数据库中的全部数据同步一份到数据仓库

全量同步采用DataX

datax

datax使用

执行

python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

更多job.json配置文件在:

生成的DataX配置文件

java -jar datax-config-generator-1.0-SNAPSHOT-jar-with-dependencies.jar

增量同步

每天只将业务数据中的新增及变化数据同步到数据仓库。采用每日增量同步的表,通常需要在首日先进行一次全量同步。

增量同步采用Maxwell

Maxwell 监控MySQL数据,将自己伪装成MySQL的slave,实时监控MySQL的binlog日志,并将数据转化为json,之后发送给kafka等一些流数据处理平台。

要提前开启mysql的binlog

配置maxwell

maxwell首次开启为全量,之后为增量

全量:bin/maxwell-bootstrap --database gmall --table user_info --config config.properties

增量:bin/maxwell --config config.properties --daemon

如何解决数据漂移问题?

用户行为数据生成的时候一般会自带一个时间戳ts,通过flume拦截器,将body当中数据自带的ts时间戳写入header当中的timestamp,这样HDFS Sink在落盘调度时候就可以通过数据产生的时间来落盘了。

拦截器见:

启动脚本f2_log.sh编写资料见:

相关推荐

  1. 采用ODP.NET 批量进行数据同步

    2024-06-15 00:46:02       30 阅读
  2. Kubernetes Kafka 系列|MirrorMaker 2 同步数据

    2024-06-15 00:46:02       15 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-15 00:46:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-15 00:46:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-15 00:46:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-15 00:46:02       18 阅读

热门阅读

  1. PHP异常处理的最佳实践及常见问题解决

    2024-06-15 00:46:02       12 阅读
  2. Set up an Ethereum node on your Raspberry Pi using IPv6

    2024-06-15 00:46:02       9 阅读
  3. HCIP认证笔记(判断题)

    2024-06-15 00:46:02       4 阅读
  4. 2024.6.12总结

    2024-06-15 00:46:02       10 阅读
  5. 编程前端看什么书比较好:深入解析与推荐

    2024-06-15 00:46:02       7 阅读
  6. 深入解析 Unix I/O 的五种模型

    2024-06-15 00:46:02       9 阅读
  7. mysql-线上常用运维sql-2

    2024-06-15 00:46:02       10 阅读