PyTorchJob 的方式在 Kubernetes 多机多卡启动 libai 执行 #367

strint · 2022-08-24T07:55:26Z

strint
Aug 24, 2022
Maintainer

问题：libai 有可以提交/管理类似于 PytorchJob 的 Operator 么？还是说可以直接复用 pytorch 的 Operator

参考背景：
https://www.kubeflow.org/docs/components/training/pytorch/
https://github.com/kubeflow/pytorch-operator

当前 oneflow 的环境变量启动接口：

最终：需要跑通类似 PytorchJob 的启动方式，让Libai可以方便的在 Kubernetes 上执行起来。

Answered by xiezipeng-ML

Aug 30, 2022

参照李jing的文档：

使用training-operator运行libai分布式训练

1、在挂载目录/home/data中安装libai，并且下载bert训练数据：

cd /home/data
git clone https://github.com/Oneflow-Inc/libai.git

cd libai
pip install -e .

mkdir -p data_test/bert_data
cd data_test/bert_data

wget https://oneflow-static.oss-cn-beijing.aliyuncs.com/ci-files/dataset/libai/bert_dataset/bert-base-chinese-vocab.txt
wget https://oneflow-static.oss-cn-beijing.aliyuncs.com/ci-files/dataset/libai/bert_dataset/loss_compara_content_sentence.bin
wget https://oneflow-static.oss-cn-beijing.aliyuncs.com/ci-files/dataset/libai/bert_dataset/loss_compara_content_sentence.idx

2、rdma用不了，在`configs/bert_large_pretrain.py`后添加:

train.rdma_enabled = False

3、修改yaml文件：

apiVersion:

View full answer

strint · 2022-08-24T08:05:43Z

strint
Aug 24, 2022
Maintainer Author

背景资料：
pytorch-operator 已经改成了 https://github.com/kubeflow/training-operator

training-operator 支持的范围很广，国外、国内的框架都有对接。

0 replies

strint · 2022-08-24T08:12:06Z

strint
Aug 24, 2022
Maintainer Author

minimax 的小伙伴反馈：在 kubernetes 上很多都是通过这个方式提交训练任务的

0 replies

strint · 2022-08-24T09:28:22Z

strint
Aug 24, 2022
Maintainer Author

问题1：是否需要一个支持 oneflow 启动的 Operator？

是，每个深度学习框架都有。

问题2：一个支持 oneflow 启动的 Operator 是否优先级高？
是。一定要支持 oneflow 在 k8s 上方便的跑起来。

问题3：如何提供？

** 路线1** OneBrain 有一个自研的通用 Operator，但是当前不能开源。如果开发一个开源的符合规范的版本，需要一个以月为单位的开发周期。暂时不考虑。

** 路线2** 我们能否复用 PyTorch Operator ？
猜测可以以周为单位完成。先确定试验下用 PyTorch Operator 来启动一个 global tensor 的执行。

问题4：谁来负责实施起路线2 ？
负责人：@doombeaker
0、出一台机器【 @ouyangyu 】（8月25更新：21~27 任选一台都可以，最好是28，但是不要重装系统）
1、k8s集群；【@wangzhiwei 】
2、启动2两个容器；
3、启动 PyTorch 2卡 CPU 数据并行 DDP；【了解算法的同事】
4、启动一个数据并行 oneflow 的 global tensor matmul 执行；【了解算法的同事】

0~3 是成熟、确定的工作。复现 torch 工作流。
4 只有4带有一些不确定性。
时间：2周

0 replies

doombeaker · 2022-08-29T05:06:45Z

doombeaker
Aug 29, 2022
Collaborator

你好，以下是使用 training-operator 在 k8s 上运行 OneFlow 分布式训练的技术笔记，已经验证过成功运行。请参考。
因为 OneFlow 的接口（包括分布式时的环境变量）与 PyTorch 都有对齐或者非常接近，所以直接使用 PyTorchJob 就可以启动成功。

使用 training-operator 运行 OneFlow 分布式训练

1. 正确在k8s集群中部署trainning-operator

trainning-operator安装文档：https://github.com/kubeflow/training-operator/[README.md](https://github.com/kubeflow/training-operator/blob/master/README.md)

k8s集群（1.16+）
training-operator（1.5.0）

2. 准备oneflow docker镜像

镜像可以从仓库中检索 https://hub.docker.com/r/oneflowinc/oneflow
此处使用 oneflowinc/oneflow:0.8.1.dev20220812-cuda11.2

3. 使用 PytorchJob 创建 OneFlow 分布式训练任务

例如：创建 oneflow-job.yaml ，内容如下

apiVersion: "kubeflow.org/v1"
kind: PyTorchJob
metadata:
  name: pytorch-simple
  namespace: default
spec:
  pytorchReplicaSpecs:
    Master:
      replicas: 1
      restartPolicy: OnFailure
      template:
        spec:
          containers:
            - name: pytorch
              image: "oneflowinc/oneflow:0.8.1.dev20220812-cuda11.2"
              imagePullPolicy: Always
              env:
              - name: LOCAL_RANK
                value: "0"
              volumeMounts:
              - mountPath: /workspace
                name: workspace-dir
              resources:
                limits:
                  nvidia.com/gpu: 1
              command:
                - "/bin/bash"
                - "-c"
                - "-l"
                - "cd /workspace && python3 train-cifar10.py"
          volumes:
          - name: workspace-dir
            hostPath:
              path: /home/data

    Worker:
      replicas: 1
      restartPolicy: OnFailure
      template:
        spec:
          containers:
            - name: pytorch
              image: "oneflowinc/oneflow:0.8.1.dev20220812-cuda11.2"
              imagePullPolicy: Always
              env:
              - name: LOCAL_RANK
                value: "0"
              volumeMounts:
              - mountPath: /workspace
                name: workspace-dir
              resources:
                limits:
                  nvidia.com/gpu: 1
              command:
                - "/bin/bash"
                - "-c"
                - "-l"
                - "cd /workspace && python3 train-cifar10.py"
          volumes:
          - name: workspace-dir
            hostPath:
              path: /home/data

运行：

kubectl apply -f oneflow-job.yaml

说明：

PROC_PER_NODE：声明每个pod使用的卡数，非必须，会根据其他环境变量自动计算。如果配置应与 resources.limits下的nvidia.com/gpu 相同
训练脚本和数据集放在本机的 /home/data 下，挂载到 pod 中的 /workspace 下

OneFlow 分布式训练在 PytorchJob 中，与 PyTorch 类似。
参考： https://github.com/kubeflow/training-operator/blob/master/examples/pytorch/simple.yaml

0 replies

strint · 2022-08-29T08:03:54Z

strint
Aug 29, 2022
Maintainer Author

还有一个问题，需要使用这个 PytorchJob ，把2机 * 4卡，把 libai gpt2 启动起来。做这样一个完整的验证。

0 replies

CPFLAME · 2022-08-29T08:14:58Z

CPFLAME
Aug 29, 2022

在这里有libai下怎么进行多机多卡的训练说明.

0 replies

xiezipeng-ML · 2022-08-30T10:22:43Z

xiezipeng-ML
Aug 30, 2022
Collaborator

参照李jing的文档：

使用training-operator运行libai分布式训练

1、在挂载目录/home/data中安装libai，并且下载bert训练数据：

cd /home/data
git clone https://github.com/Oneflow-Inc/libai.git

cd libai
pip install -e .

mkdir -p data_test/bert_data
cd data_test/bert_data

wget https://oneflow-static.oss-cn-beijing.aliyuncs.com/ci-files/dataset/libai/bert_dataset/bert-base-chinese-vocab.txt
wget https://oneflow-static.oss-cn-beijing.aliyuncs.com/ci-files/dataset/libai/bert_dataset/loss_compara_content_sentence.bin
wget https://oneflow-static.oss-cn-beijing.aliyuncs.com/ci-files/dataset/libai/bert_dataset/loss_compara_content_sentence.idx

2、rdma用不了，在`configs/bert_large_pretrain.py`后添加:

train.rdma_enabled = False

3、修改yaml文件：

apiVersion: "kubeflow.org/v1"
kind: PyTorchJob
metadata:
  name: pytorch-simple
  namespace: default
spec:
  pytorchReplicaSpecs:
    Master:
      replicas: 1
      restartPolicy: OnFailure
      template:
        spec:
          containers:
            - name: pytorch
              image: "oneflowinc/oneflow:0.8.1.dev20220812-cuda11.2"
              imagePullPolicy: Always
              env:
              - name: LOCAL_RANK
                value: "0"
              volumeMounts:
              - mountPath: /workspace
                name: workspace-dir
              resources:
                limits:
                  nvidia.com/gpu: 1
              command:
                - "/bin/bash"
                - "-c"
                - "-l"
                - "cd /workspace/libai && pip3 -r requirement.txt && pip3 install e . && python3 tools/train_net.py --config-file configs/bert_large_pretrain.py "
          volumes:
          - name: workspace-dir
            hostPath:
              path: /home/data

    Worker:
      replicas: 1
      restartPolicy: OnFailure
      template:
        spec:
          containers:
            - name: pytorch
              image: "oneflowinc/oneflow:0.8.1.dev20220812-cuda11.2"
              imagePullPolicy: Always
              env:
              - name: LOCAL_RANK
                value: "0"
              volumeMounts:
              - mountPath: /workspace
                name: workspace-dir
              resources:
                limits:
                  nvidia.com/gpu: 1
              command:
                - "/bin/bash"
                - "-c"
                - "-l"
                - "cd /workspace/libai && pip3 -r requirement.txt && pip3 install e . && python3 tools/train_net.py --config-file configs/bert_large_pretrain.py "
          volumes:
          - name: workspace-dir
            hostPath:
              path: /home/data

kubectl apply -f oneflow-job.yaml

4、运行bert训练：

由于环境变量中设置了以下变量（master和port之类），所以可能无法用launch启动分布式配置:

在多机上分别运行：

python3 tools/train_net.py --config-file configs/bert_large_pretrain.py

2 replies

strint Aug 30, 2022
Maintainer Author

由于环境变量中设置了以下变量（master和port之类），所以可能无法用launch启动分布式配置

这句话是什么意思

xiezipeng-ML Aug 31, 2022
Collaborator

据李倞说，他在镜像中有两个机子，这个环境中配置好了master机的端口和ip这些，从属机可以自动找到master机的ip和端口，然后因为环境中配置了这些东西，就无法使用launch来启动分布式训练（也就是说配置了可以不使用launch也能分布式训练），没有配置这些环境变量的话才能用launch来启动分布式训练。

yuanms2 · 2022-08-30T13:39:28Z

yuanms2
Aug 30, 2022
Maintainer

这个可以整理成一篇博客，大家可以协作

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PyTorchJob 的方式在 Kubernetes 多机多卡启动 libai 执行 #367

{{title}}

Replies: 8 comments 2 replies

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

Select a reply

PyTorchJob 的方式在 Kubernetes 多机多卡启动 libai 执行 #367

strint Aug 24, 2022 Maintainer

使用training-operator运行libai分布式训练

1、 在挂载目录/home/data中安装libai，并且下载bert训练数据：

2、rdma用不了，在configs/bert_large_pretrain.py后添加:

3、修改yaml文件：

Replies: 8 comments · 2 replies

strint Aug 24, 2022 Maintainer Author

strint Aug 24, 2022 Maintainer Author

strint Aug 24, 2022 Maintainer Author

doombeaker Aug 29, 2022 Collaborator

使用 training-operator 运行 OneFlow 分布式训练

1. 正确在k8s集群中部署trainning-operator

2. 准备oneflow docker镜像

3. 使用 PytorchJob 创建 OneFlow 分布式训练任务

strint Aug 29, 2022 Maintainer Author

CPFLAME Aug 29, 2022

xiezipeng-ML Aug 30, 2022 Collaborator

使用training-operator运行libai分布式训练

1、 在挂载目录/home/data中安装libai，并且下载bert训练数据：

2、rdma用不了，在configs/bert_large_pretrain.py后添加:

3、修改yaml文件：

4、运行bert训练：

strint Aug 30, 2022 Maintainer Author

xiezipeng-ML Aug 31, 2022 Collaborator

yuanms2 Aug 30, 2022 Maintainer

strint
Aug 24, 2022
Maintainer

1、在挂载目录/home/data中安装libai，并且下载bert训练数据：

2、rdma用不了，在`configs/bert_large_pretrain.py`后添加:

Replies: 8 comments 2 replies

strint
Aug 24, 2022
Maintainer Author

strint
Aug 24, 2022
Maintainer Author

strint
Aug 24, 2022
Maintainer Author

doombeaker
Aug 29, 2022
Collaborator

strint
Aug 29, 2022
Maintainer Author

CPFLAME
Aug 29, 2022

xiezipeng-ML
Aug 30, 2022
Collaborator

1、在挂载目录/home/data中安装libai，并且下载bert训练数据：

2、rdma用不了，在`configs/bert_large_pretrain.py`后添加:

strint Aug 30, 2022
Maintainer Author

xiezipeng-ML Aug 31, 2022
Collaborator

yuanms2
Aug 30, 2022
Maintainer