这是阿里出的一个ETL工具,其实就是把不同数据库的数据,高效的互相拷贝。做了很多底层优化,平均能达到1秒/1W条。如果有牛逼的优化,能达到1秒/9W条。一般用在半夜的数据获取,或者主从热备份。
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
官方手册:https://github.com/alibaba/DataX
工具基于py2.6,请不要装逼装新版本,容易被雷劈
百度下载python-2.6.6.msi,安装一直下一步即可。
环境变量:
Path增加C:\Python26
cmd测试安装效果python -v
百度下载jdk-8u181-windows-x64.exe,安装一直下一步即可。
环境变量:
1)新增变量名:JAVA_HOME
变量值:(变量值填写你的jdk的安装目录,例如本人是C:/Program Files/Java/jdk1.8.0_31)
2)新增变量名:CLASSPATH
变量值:.%JAVA_HOME%/lib;%JAVA_HOME%/lib/tools.jar(注意最前面有一点)
3)编辑Path变量,在原来的变量值最后面添加%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin;
cmd测试安装效果java
通过Reader方法读取数据,然后Write方法写回去。底层用的是jdbc,所以兼容性是非常好的。
通过job/job.json配置读写方法,然后通过bat运行
chpcp是为了设置编码模式,不然中文会显示乱码的
chcp 65001 python datax.py ../job/job.json
可以通过PreSql前置执行和PostSql后置执行,做一些预处理
PreSql和PostSql都可以通过;号注入多条
读取的表结构,跟写入的表结构必须完全一样,包括名字和列顺序,避免不必要的麻烦
如果是自己写sql,则不需要指定主键、列名之类的
一个json只能同步一个表
多个表同步,可以写多个json,然后bat文件里多写几行,依次执行
代码写法,主要在github上查看官方手册,例如mysql的Writer
跳转链接:https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md
真实案例:
{ "job": { "setting": { "speed": { "channel": 1 } }, "content": [ { "reader": { "name": "oraclereader", "parameter": { "username": "jmquery", "password": "xxxx", "connection": [ { "querySql": [ "select KHZJBS,KHBH,ZJMC,ZJHM,CZSJ,GDDWBM from JMSJHL.NPMIS_KH_KHZJ where 1=1" ], "jdbcUrl": [ "jdbc:oracle:thin:@10.151.19.128:1512:sjhl" ] } ] } }, "writer": { "name": "mysqlwriter", "parameter": { "writeMode": "insert", "username": "tudang", "password": "xxxx", "column": [ "KHZJBS","KHBH","ZJMC","ZJHM","CZSJ","GDDWBM" ], "preSql": [ "insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'开始')" ], "postSql": [ "insert into dataxlog (tablename,starttime,rowqty,action) values ('01_KH_KHZJ',sysdate(),(select count(1) from KH_KHZJ),'结束')" ], "connection": [ { "jdbcUrl": "jdbc:mysql://10.151.19.20:33060/tudang?useUnicode=true&characterEncoding=utf8&useSSL=false", "table": [ "KH_KHZJ" ] } ] } } } ] } }
通常低于50G的数据,不需要开多线程。100G左右才开2线程。实测数据量少的时候线程没什么区别,还增加不稳定性。
所以一般不需要多线程,也不要改每次写入的量吗,默认就很好了。我们有的是时间,最重要是稳定。开太高负载,容易内存溢出崩掉。
性能调优参考:https://www.cnblogs.com/hit-zb/p/10940849.html
Windows系统的方法: