-
Notifications
You must be signed in to change notification settings - Fork 100
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于训练数据和测试数据的长度 #8
Comments
训练数据随机取4或6s的片段加噪都可以(没啥区别),测试数据原封不动。格式就是直接读原始的wav,数据的格式没有影响。 |
谢谢您的回答, 还想请问一下您在测试的时候是直接一长段语音(如30s)作为输入, 还是将长段语音分隔为一小段一小段的语音进行输入再拼接呢? |
我们希望能达到实时去噪的效果, 因此在测试时将长语音切成小段语音进行测试, 最后拼接得到的长语音会出现明显的声音卡顿, 请问您知道这是什么原因吗? |
切成一小段4s一段,举个例子:第一段0-4s,第二段3-7s,你把中间重叠的部分(3-4s)加起来除以2.这样你两段就得到7s的语音,连接处的1s平均一下就好。DNS的测试集比较短,建议直接测指标。 |
非常感谢! 那么如果是4s一段的话, 处理完就在4s之后了, 达不到实时的效果, 请问怎样能达到实时的效果呢? |
我尝试在训练时每次放入15s音频进行训练,在测试时将音频分为37.5ms一帧进行处理(stft补零时在左侧补前一帧的数据、在右侧补0,istft后左右两侧都删掉对应长度的音频),然后将处理后的音频进行拼接,但是出来的效果并不太好。。。 |
你好, 我看到大部分CRN类型网络的输入都是4s的, 要满足实时的话 (比如每次输入37.5ms), 是不是说明只有最后37.5ms的数据是最新的, 然后前面的数据都是之前帧的呢? 表示如下方表示 |
您好,请问您实时降噪的效果实现了吗? |
您好,感谢您优秀的工作!
在复现您的论文时,我们使用DNS数据集生成的30s语音进行训练和测试,但是最后的结果不是很理想,想请问一下论文中训练数据和测试数据的长度和格式是怎样的?谢谢!
The text was updated successfully, but these errors were encountered: