3.4 KiB
3.4 KiB
auth: 高佳、韩健 (一) 术语介绍 DataX是一个开源的数据同步工具,而DataX-Web是构建在DataX之上的分布式数据同步工具,提供了可视化的操作界面。具体来说:
- DataX:DataX的主要作用是实现不同数据源之间的离线数据同步,它支持包括关系型数据库(例如MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等多种异构数据源之间的稳定高效的数据迁移工作。DataX通过提供命令行工具和JSON配置文件的方式来执行数据同步任务,但这种方式在管理和多任务处理上存在一定的局限性。
- DataX-Web:为了解决DataX在使用过程中的配置复杂性以及管理上的不便捷,DataX-Web应运而生。DataX-Web提供了一个简单易用的操作界面,降低了用户使用DataX的学习成本,并缩短了任务配置时间。此外,它还避免了配置过程中可能出现的错误,并支持远程分布式调用DataX的功能,使得多节点之间的协作变得更加容易控制。
总的来说,DataX适用于需要进行大规模数据迁移的场景,而DataX-Web则更适合需要简化操作流程和提升任务管理效率的用户。两者结合使用,可以有效提升数据处理的效率和便捷性。
(二)工具安装 一、下载tar包 github地址:https://github.com/alibaba/DataX 下载tar包地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
二、上传tar包解压并安装
上传至服务器/opt/下并解压
tar -xzvf datax.tar.gz
三、上传解压 dataX-web
链接: https://pan.baidu.com/s/1B8bb_KeyIYvpbI5s3IwCjA 提取码: 3pah
上传压缩包至服务目录,这里我上传到/usr/local/下,具体可根据自身希望上传到哪个目录就行
unzip datax-web-2.1.2.zip
五、修改配置文件
1.修改数据库连接
modules下的datax-admin下的conf下的bootstrap.properties
2.注意datax-executor下的bin下的env.properties的PYTOHON_PATH的配置地址,需与我们安装的datax目录一致
五、启动datax-web及访问
(三) 实际应用