bgcp

homework for big data and cloud platform

应课程要求将相关代码上传至 github 仓库中

拉取镜像

通过 docker pull registry.cn-beijing.aliyuncs.com/nkzwchen/bgcp:1.0 从阿里云仓库拉取镜像

开启集群

首先输入 docker network create --subnet=172.20.0.0/16 hnet 创建网络之后再运行 start 文件夹中的 start_cluster.sh 文件创建集群

环境初始化

利用hadoop 的 mapreduce 框架求平均值

相关代码位于 hadoop 文件夹中。

运行avg.sh文件通过 java 接口利用 hadoop 的 mapreduce 框架计算 hdfs文件存储系统中 metric.txt 中不同的 id 和 kpi 对应的 value 的平均值。

利用 hive 交互式编程求分位数

利用spark 求最大最小值

利用 seaborn 库做结果的可视化展示

相关代码位于 plot 文件夹中, 修改 plot.py 中的 name 变量即可画出对应的 cmbd 和 kpi 的数据分布情况

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

bgcp

拉取镜像

开启集群

环境初始化

利用hadoop 的 mapreduce 框架求平均值

利用 hive 交互式编程求分位数

利用spark 求最大最小值

利用 seaborn 库做结果的可视化展示

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
hadoop		hadoop
hive		hive
plot		plot
spark		spark
start		start
README.md		README.md
train_3d_irregular_poisson.py		train_3d_irregular_poisson.py

nkzwchen/bgcp

Folders and files

Latest commit

History

Repository files navigation

bgcp

拉取镜像

开启集群

环境初始化

利用hadoop 的 mapreduce 框架求平均值

利用 hive 交互式编程求分位数

利用spark 求最大最小值

利用 seaborn 库做结果的可视化展示

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages