阿里巴巴的DataX ETL工具的使用教程,可以高效做异构数据库同步,主从备份,数据迁移,批量导入

发表日期: 2021-08-06
文章位置: 首页 / 经验分享 / SQL经验分享

1.简介

       这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。做了很多底层优化,平均能达到1秒/1W条。如果有牛逼的优化,能达到1秒/9W条。一般用在半夜的数据获取,或者主从热备份。

       DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

       官方手册:https://github.com/alibaba/DataX

2.支持的数据库类型:


3.环境部署

3.1安装Python 2.6.x

工具基于py2.6,请不要装逼装新版本,容易被雷劈

百度下载python-2.6.6.msi,安装一直下一步即可。

环境变量:

Path增加C:\Python26

cmd测试安装效果python -v

3.2安装java 1.8

百度下载jdk-8u181-windows-x64.exe,安装一直下一步即可。

环境变量

1)新增变量名:JAVA_HOME

变量值:(变量值填写你的jdk的安装目录,例如本人是C:/Program Files/Java/jdk1.8.0_31)

2)新增变量名:CLASSPATH

变量值:.%JAVA_HOME%/lib;%JAVA_HOME%/lib/tools.jar(注意最前面有一点)

3)编辑Path变量,在原来的变量值最后面添加%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin;

cmd测试安装效果java

4.使用教程

4.1总体说明

  1. 通过Reader方法读取数据,然后Write方法写回去。底层用的是jdbc,所以兼容性是非常好的。

  2. 通过job/job.json配置读写方法,然后通过bat运行

  3. chpcp是为了设置编码模式,不然中文会显示乱码的

chcp 65001
python datax.py ../job/job.json

4.2心得小技巧

  1. 可以通过PreSql前置执行和PostSql后置执行,做一些预处理

  2. PreSql和PostSql都可以通过;号注入多条

  3. 读取的表结构,跟写入的表结构必须完全一样,包括名字和列顺序,避免不必要的麻烦

  4. 如果是自己写sql,则不需要指定主键、列名之类的

  5. 一个json只能同步一个表

  6. 多个表同步,可以写多个json,然后bat文件里多写几行,依次执行

4.3参考代码

代码写法,主要在github上查看官方手册,例如mysql的Writer

跳转链接https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md

真实案例

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "oraclereader",
                    "parameter": {
                        "username": "jmquery",
                        "password": "xxxx",
                        "connection": [
                            {
                                "querySql": [
                                    "select KHZJBS,KHBH,ZJMC,ZJHM,CZSJ,GDDWBM from JMSJHL.NPMIS_KH_KHZJ   where 1=1" 
                                ],
                                "jdbcUrl": [
                                    "jdbc:oracle:thin:@10.151.19.128:1512:sjhl"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "tudang",
                        "password": "xxxx",
                        "column": [
                            "KHZJBS","KHBH","ZJMC","ZJHM","CZSJ","GDDWBM"                                               
                        ],
                        "preSql": [
                            "insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'开始')"
                        ],
                        "postSql": [
                            "insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'结束')"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://10.151.19.20:33060/tudang?useUnicode=true&characterEncoding=utf8&useSSL=false",
                                "table": [
                                    "KH_KHZJ"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

5性能调优

       通常低于50G的数据,不需要开多线程。100G左右才开2线程。实测数据量少的时候线程没什么区别,还增加不稳定性。

       所以一般不需要多线程,也不要改每次写入的量吗,默认就很好了。我们有的是时间,最重要是稳定。开太高负载,容易内存溢出崩掉。

       性能调优参考https://www.cnblogs.com/hit-zb/p/10940849.html

6.创建计划自动执行

Windows系统的方法:




随便看看
商务联系QQ : 2385350359

Copyright 2016-2023 江门蓬江区华越科技公司 版权所有 | 承接软件定制开发,欢迎联系
粤ICP备19148806号-5