syncnet的训练代码是不是有bug #113

iloveOREO · 2024-12-26T11:05:23Z

在获取数据的代码中 https://github.com/anliyuan/Ultralight-Digital-Human/blob/762e3b6de9e82b6927ce7cf414dcef67dd533ff3/syncnet.py#L84C5-L95C31
每次都把y设成了1, 没有用到ex的img, 不是相当于永远用到了同步的数据? 这样模型只需要无脑输出两个相同的向量, 后续计算loss就极小.
训练的时候BCELoss很快就下降到0.000xxx了
应该不太对吧

drakitLiu · 2024-12-27T03:26:30Z

他这个训练方法不对的
你可以参考wav2lip的口型判别器方法！

xiao-keeplearning · 2024-12-27T07:13:05Z

这个训练syncnet图像特征就输入一帧也不合理，16帧长的音频特征对应1帧图像

feipengheart · 2025-01-07T09:59:55Z

没有用到ex的img,会不会是随机到的音频特征未必是负样本，有可能嘴型和正样本也是相似的，这样反而效果更差，所以作者没用

Provide feedback