Kettle-Docker部署+Sqlserver数据同步Mysql+Start定时任务

一. 背景介绍

1. ETL是什么

ETL(Extract-Transform-Load),即数据抽取、转换、装载的过程。它是一种思想,主要是说,从不同的数据源获取数据,并通过对数据进行处理(格式,协议等转换),最后将处理后的数据提供给其他系统使用。当然这个过程,就是软件研发,尤其是后端研发最核心的工作。

2. Kettle概念

kettle,翻译为中文叫做水壶,显而易见,水壶不管壶里面装的是什么液体,最终都会从壶嘴平滑的流出来。就好比,不管水壶装的是什么类型的数据,最后都会通过壶嘴以特定的格式流出来。其实就是对ETL思想的一种实现,它是通过java语言编写,秉承ETL思想的工具。既然是此采用java实现的,那就肯定具有跨平台的特性。

3. kettle组成

kettle既然是一种工具,要处理不同数据源的异构数据,那就要求它能够进行图形化操作,在UI界面上对数据源进行数据治理,最终所有的图形化处理都要能够保存为kettle可识别的文件。

kettle主要生成两种类型的文件,一种转换文件,一种是任务文件,即:transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

这两种文件之间是可以相互调用的,已达到最终的数据清洗目的

二. Kettle  docker界面化部署

github地址:HiromuHota/pentaho-kettle: webSpoon is a web-based graphical designer for Pentaho Data Integration with the same look & feel as Spoon (github.com)

dockerhub地址 :

hiromuhota/webspoon - Docker 镜像 |Docker 中心

1. 安装命令

docker pull hiromuhota/webspoon

2. 启动服务命令

docker run -d -p 8080:8080 hiromuhota/webspoon

3. 界面汉化 

(1)启动之后界面为英文

 (2)进入 kettle容器编辑

docker exec -it -u 0 容器id /bin/bash

  cd  /usr/local/tomcat/bin 

  编辑 setenv.sh

CLASSPATH=/usr/local/tomcat/lib/webspoon-security-9.0.0.0-423-22.jar
# 加入以下两行
CATALINA_OPTS="-Dorg.apache.tomcat.util.buf.UDecoder.ALLOW_ENCODED_SLASH=true"
JAVA_OPTS="-Duser.language=zh -Duser.region=CN -Dfile.encoding=UTF-8"

  (3)容器重启  

docker restart 容器id

  重启成功再次访问地址 汉化成功

 三. SQLserver 与 Mysql 驱动下载与连接

1. 下载

链接: https://pan.baidu.com/s/1Cr9pJmsSJVsq4im9hMeuPg?pwd=ygsj

提取码: ygsj 复制这段内容后打开百度网盘手机App

2. 将驱动放置到下方容器位置,重启容器

/usr/local/tomcat/webapps/spoon/WEB-INF/lib

3. 数据库连接

四. 数据全量同步以及设置定时任务

1. 将Sqlserver数据同步到mysql(两表数据保持完全一致)

2. 拖拽两个表输入,配置如图,因为要合并记录(实际是对两张表数据进行比较),所以获取SQL获取数据/字段等要一致。 

表输入:

 字段选择:(元数据也全选)

合并记录:

数据同步:

标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。
1. “identical” – 旧数据和新数据一样
2. “changed” – 数据发生了变化;
3. “new” – 新数据中有而旧数据中没有的记录
4. “deleted” –旧数据中有而新数据中没有的记录

将数据文件保存到自定义位置

点击作业切换到任务界面

 

 

点击运行 

相关推荐

  1. docker部署sqlserver过程记录

    2024-01-26 23:04:01       26 阅读
  2. bat脚本sqlserver 不同数据库同步

    2024-01-26 23:04:01       58 阅读
  3. 架构:Apache Kafka Connect实现sqlserver数据实时同步

    2024-01-26 23:04:01       44 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-01-26 23:04:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-01-26 23:04:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-01-26 23:04:01       82 阅读
  4. Python语言-面向对象

    2024-01-26 23:04:01       91 阅读

热门阅读

  1. NLP深入学习(十):决策树(ID3、C4.5以及CART)

    2024-01-26 23:04:01       50 阅读
  2. python执行脚本的时候获取输入参数

    2024-01-26 23:04:01       62 阅读
  3. P9516 color 题解

    2024-01-26 23:04:01       58 阅读
  4. 速盾:服务器CDN加速配置的技术文章

    2024-01-26 23:04:01       56 阅读
  5. linux下安装JRE

    2024-01-26 23:04:01       56 阅读
  6. [Oracle] [最全] 服务及文件

    2024-01-26 23:04:01       57 阅读
  7. oracle、oracle functions、oracle calls

    2024-01-26 23:04:01       64 阅读
  8. 力扣295:数据流的中位数

    2024-01-26 23:04:01       55 阅读
  9. redis在rhel7/centos7环境下的安装与配置指导

    2024-01-26 23:04:01       45 阅读
  10. 前端笔试题(十)

    2024-01-26 23:04:01       67 阅读