Flink基于Apache DataSketches 快速计算不可扩展(don’t scale)的非累加指标解决方案
开源组件Apache DataSketches在不可扩展(don’t scale)的非累加指标计算中有非常优秀表现,基于此考虑将其结合到Flink的实际应用中。在大数量集实际生产中,实现更快,更少的计算资源消耗,获得业务可以接受的计算结果。
mvn clean package
./bin/flink run -c org.apache.flink.benchmark.stream.WithoutSketchBenchMark ${your_path}/flink-datasketches-1.0-SNAPSHOT.jar
- 下载tpcds数据集工具
tpcds-kit
- 进入
tpcds-kit/tools
目录, 执行./dsdgen -scale 1 -dir ${your_tpc_data_path} -table store_sales
生成store_sales表数据 - 命令执行
./bin/flink run ${your_path}/flink-datasketches-1.0-SNAPSHOT.jar --dataPath ${your_tpc_data_path}/store_sales.dat