token数目不对齐 #110

fanpengustc · 2024-11-21T03:07:06Z

speech tokenizer输出的token数量是16384个可是GLM输入的音频token只有16383个这是个bug？

sixsixcoder · 2024-11-21T04:16:11Z

有示例吗？

NanYANG2015 · 2024-11-22T12:00:45Z

speech tokenizer 支持输出的 audio tokens 数为 16384个，且存在音频会被 tokenizer 为包含最后一个 audio token，
但是 GLM 添加的 audio tokens 只到 <|audio_16382|>，少一个。

音频示例：WenetSpeech/audio/train/youtube/B00000/Y0000000009_-0p8pYdlfjY.opus 中的一段
torchaudio 读取参数：frame_offset=88405920, num_frames=1920000

上述行为是由于最后一个 audio token 的利用率很低可以弃用吗？

Provide feedback