Addax
fork DataX 后,除核心框架未作太多改动后,其他均做了大幅改动,并一直在进行优化迭代。其差别说明如下:
删除了仅限于阿里内部的数据库,这些数据库在非阿里集团无法使用,因此直接删除,包括:
- ADS
- DRDS
- OCS
- ODPS
- OSS
- OTS
增加了部分插件,目前包括
- clickhousereader
- datareader
- dbffilereader
- excelreader
- hbase20xreader
- jsonfilereader
- kudureader
- influxdbreader
- httpreader
- elastichsearchreader
- redisreader
- sqlitereader
- tdenginereader
- kafkareader
- s3reader
- accessreader
- dbffilewrite
- doriswriter
- excelwriter
- greenplumwriter
- kuduwriter
- influxdbwriter
- rediswriter
- sqlitewriter
- tdenginewriter
- kafkawriter
- databendwriter
- s3writer
- accesswriter
- 关系型数据库 增加了几乎所有基本数据类型和一部分复杂类型的支持, 支持表主键自动探测,大幅提升读取和写入性能
- hdfswriter 增加了对 Decimal 数据类型格式的支持
- hdfswriter 增加了对 Parquet 文件格式的支持
- hdfswrite 增加了目录覆盖模式
- hdfswriter 增加了更多的文件压缩格式支持
- hdfswriter 的临时目录位置改动为当前写入目录下的隐藏目录,解决了之前和写入目录平行导致的自动增加分区的问题
- hdfswriter 在覆盖模式下,改进了文件删除机制,减少了对应表查询为空的时间窗口
- hdfsreader 增加了对 Parquet 文件格式的支持
- hdfsreader 增加了更多的文件压缩格式支持
- hbasex11sqlwrite 增加了 Kerberos 支持
- oraclewriter 增加对
merge into
语法支持(感谢 @weihebu 提供的建议和参考) - postgresqlwriter 增加
insert into ... on conflict
语法支持 (感谢 @weihebu 提供的建议和参考) - rdbmsreader/rdbmswriter 增加了TDH Inceptor, Trino, PrestoSQL 查询引擎支持
- 尽可能减少了本地jar包的依赖,转为从maven仓库获取
- 绝大部分依赖包升级到了最新稳定版本,减少了潜在漏洞
- 不同插件下的相同依赖包做了版本统一