【工具】DataX 数据同步工具

简介

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

Quick Start 【Mysql】

  1. 下载https://github.com/alibaba/DataX/releases
  2. 查看如下文档https://github.com/alibaba/DataX, 编写Job json
    在这里插入图片描述

如下所示

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "root",
                        "column": [
                            "*"
                        ],
                        "splitPk": "id",
                        "connection": [
                            {
                                "table": [
                                    "oss_object"
                                ],
                                "jdbcUrl": [
                                     "jdbc:mysql://ip1:3306/ys-oss?useSSL=false"  // 链接1
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "root",
                        "password": "root",
                        "column": [
                            "*"
                        ],
                        "session": [
                        	"set session sql_mode='ANSI'"
                        ],
                        "preSql": [
                            "delete from oss_object_copy1"
                        ],
                        "connection": [
                            {
                                 "jdbc:mysql://ip1:3306/ys-oss?useSSL=false"  // 链接2
                                "table": [
                                    "oss_object_copy1"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

  1. 运行datax.py job1.json
2024-03-19 17:01:46.568 [job-0] INFO  JobContainer -
任务启动时刻                    : 2024-03-19 17:00:34
任务结束时刻                    : 2024-03-19 17:01:46
任务总计耗时                    :                 71s
任务平均流量                    :            1.38MB/s
记录写入速度                    :           9958rec/s
读出记录总数                    :              697071
读写失败总数                    :                   0
  1. 和navicat比较,navicat直接数据同步时间为3分,datax为71s,有进步就好!

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-23 21:26:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-23 21:26:04       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-23 21:26:04       82 阅读
  4. Python语言-面向对象

    2024-03-23 21:26:04       91 阅读

热门阅读

  1. 【保姆级讲解Linux常见命令】

    2024-03-23 21:26:04       38 阅读
  2. C语言动态内存管理

    2024-03-23 21:26:04       36 阅读
  3. Hashmap和Hashtable的区别

    2024-03-23 21:26:04       38 阅读
  4. 蓝桥杯破损的楼梯

    2024-03-23 21:26:04       40 阅读
  5. Spring的炼气之路(炼气三层)

    2024-03-23 21:26:04       43 阅读
  6. Vue框架学习(二)

    2024-03-23 21:26:04       45 阅读
  7. P1109 学生分组

    2024-03-23 21:26:04       45 阅读