训练需要的显存，显卡数量和训练时间？ #9

huangb23 · 2024-11-26T15:02:18Z

如题，这两个模型加起来20B 应该得用A100-80G训练了吧？方便给一个训练样本数，显卡数量和训练时间吗？

erwold · 2024-11-26T16:07:57Z

实际上Qwen2VL-7B只需要开放最后一层训练，外加一个connector将Qwen2VL-7B的特征维度对齐到Flux；Flux每个stage只训练部分层；每个stage训练的时候，所有可训练参数加起来，大概不到2B
更具体的训练配置：8xA100，3百万张图片，batchsize=128，100k steps

huangb23 · 2024-11-28T14:38:47Z

需要多少天呢？A100是80G的吗

saynn · 2024-12-02T11:54:27Z

实际上Qwen2VL-7B只需要开放最后一层训练，外加一个connector将Qwen2VL-7B的特征维度对齐到Flux；Flux每个stage只训练部分层；每个stage训练的时候，所有可训练参数加起来，大概不到2B 更具体的训练配置：8xA100，3百万张图片，batchsize=128，100k steps

请问FLUX每个stage只训练部分层，是出于什么原因呢？

FangGet · 2024-12-06T07:12:34Z

@erwold 请问您FLUX开放部分层训练的时候，对某一层而言，是所有参数都开放，还是只开放某些MLP呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练需要的显存，显卡数量和训练时间？ #9

训练需要的显存，显卡数量和训练时间？ #9

huangb23 commented Nov 26, 2024

erwold commented Nov 26, 2024

huangb23 commented Nov 28, 2024

saynn commented Dec 2, 2024

FangGet commented Dec 6, 2024

训练需要的显存，显卡数量和训练时间？ #9

训练需要的显存，显卡数量和训练时间？ #9

Comments

huangb23 commented Nov 26, 2024

erwold commented Nov 26, 2024

huangb23 commented Nov 28, 2024

saynn commented Dec 2, 2024

FangGet commented Dec 6, 2024