当前位置:
首页 >
2 datax mysql 和 mysql之间相互导入
发布时间:2025/7/25
129
豆豆
生活随笔
收集整理的这篇文章主要介绍了
2 datax mysql 和 mysql之间相互导入
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
插件文档; https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 1,参照第1篇日记,安装好datax 2,使用命令生成mysql导入导出的json模板, 修改模板 python datax.py -r mysqlreader -w mysqlwriter { "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "column": [ "id", "username" ], "connection": [ { "jdbcUrl": ["jdbc:mysql://192.168.43.20:3306/uprofiledb"], "table": ["pe_user"] } ], "password": "111111", "username": "root", "where": "" } }, "writer": { "name": "mysqlwriter", "parameter": { "column": ["id","username"], "connection": [ { "jdbcUrl": "jdbc:mysql://192.168.43.20:3306/test", "table": ["target_user"] } ], "password": "111111", "preSql": [], "session": [], "username": "root", "writeMode": "insert" } } } ], "setting": { "speed": { "channel": "1" } } } } 参数说明: * jdbcUrl * 描述:描述的是到对端数据库的JDBC连接信息,使用JSON的数组描述,并支持一个库填写多个连接地址。之所以使用JSON数组描述连接信息,是因为阿里集团内部支持多个IP探测,如果配置了多个,MysqlReader可以依次探测ip的可连接性,直到选择一个合法的IP。如果全部连接失败,MysqlReader报错。 注意,jdbcUrl必须包含在connection配置单元中。对于阿里集团外部使用情况,JSON数组填写一个JDBC连接即可。 jdbcUrl按照Mysql官方规范,并可以填写连接附件控制信息。具体请参看Mysql官方文档。 * 必选:是 * 默认值:无 * username * 描述:数据源的用户名 * 必选:是 * 默认值:无 * password * 描述:数据源指定用户名的密码 * 必选:是 * 默认值:无 * table * 描述:所选取的需要同步的表。使用JSON的数组描述,因此支持多张表同时抽取。当配置为多张表时,用户自己需保证多张表是同一schema结构,MysqlReader不予检查表是否同一逻辑表。注意,table必须包含在connection配置单元中。 * 必选:是 * 默认值:无 * column * 描述:所配置的表中需要同步的列名集合,使用JSON的数组描述字段信息。用户使用*代表默认使用所有列配置,例如['*']。 支持列裁剪,即列可以挑选部分列进行导出。 支持列换序,即列可以不按照表schema信息进行导出。 支持常量配置,用户需要按照Mysql SQL语法格式: ["id", "`table`", "1", "'bazhen.csy'", "null", "to_char(a + 1)", "2.3" , "true"] id为普通列名,`table`为包含保留在的列名,1为整形数字常量,'bazhen.csy'为字符串常量,null为空指针,to_char(a + 1)为表达式,2.3为浮点数,true为布尔值。 * 必选:是 * 默认值:无 * splitPk * 描述:MysqlReader进行数据抽取时,如果指定splitPk,表示用户希望使用splitPk代表的字段进行数据分片,DataX因此会启动并发任务进行数据同步,这样可以大大提供数据同步的效能。 推荐splitPk用户使用表主键,因为表主键通常情况下比较均匀,因此切分出来的分片也不容易出现数据热点。 目前splitPk仅支持整形数据切分,不支持浮点、字符串、日期等其他类型。如果用户指定其他非支持类型,MysqlReader将报错! * 如果splitPk不填写,包括不提供splitPk或者splitPk值为空,DataX视作使用单通道同步该表数据。 * 必选:否 * 默认值:空 * where * 描述:筛选条件,MysqlReader根据指定的column、table、where条件拼接SQL,并根据这个SQL进行数据抽取。在实际业务场景中,往往会选择当天的数据进行同步,可以将where条件指定为gmt_create > $bizdate 。注意:不可以将where条件指定为limit 10,limit不是SQL的合法where子句。 where条件可以有效地进行业务增量同步。如果不填写where语句,包括不提供where的key或者value,DataX均视作同步全量数据。 * 必选:否 * 默认值:无 * querySql * 描述:在有些业务场景下,where这一配置项不足以描述所筛选的条件,用户可以通过该配置型来自定义筛选SQL。当用户配置了这一项之后,DataX系统就会忽略table,column这些配置型,直接使用这个配置项的内容对数据进行筛选,例如需要进行多表join后同步数据,使用select a,b from table_a join table_b on table_a.id = table_b.id 当用户配置querySql时,MysqlReader直接忽略table、column、where条件的配置,querySql优先级大于table、column、where选项。 * 必选:否 * 默认值:无 *writeMode *描述:写入目标数据表的模式,可选项: replace(替换),update(更新),insert(插入) 3 据库表和数据准备: 4,执行插入命令: python datax.py mysql2mysql.json 5。查看目标表数据: 6,如果再次执行一次,就会报脏数据的错误,因为上面你的writemode使用的是insert。 7。 如果在源数据表增加一条数据,配置不变得情况下,再次执行。前面4条旧数据不会更新到目标表,而新增的这条数据会新增 来源表新增数据: 执行以后。目标表数据: 如果保证更改旧数据和新增的数据 都能同时更新到目标表,writemode使用 update 配置文件: 来源数据表: 目标数据表: 9, 如果writemode 是replace,应该是全量替换的意思: 这个时候导入就不会报错。 配置文件: 来源数据表: 目标数据表:
转载于:https://www.cnblogs.com/spicy/p/11155510.html
《新程序员》:云原生和全面数字化实践50位技术专家共同创作,文字、视频、音频交互阅读总结
以上是生活随笔为你收集整理的2 datax mysql 和 mysql之间相互导入的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: WCF传递强类型DataSet【源码】
- 下一篇: MYSQL密码解密函数的使用