这个模型是声音用whisper转成声音token，用token和LLM chat得到回答的文字token，最后将这个回答的文字token 用SNAC转换成声音？ #116

ssdutliuhaibo · 2024-10-30T07:45:36Z

No description provided.

mini-omni · 2024-11-04T08:17:32Z

回答过程中，文字和声音是同步生成的，会同时生成text token及audio token(SNAC token)，然后audio teken经过SNAC decoder生成audio wav.

Jasper-sudo-Sun · 2024-11-20T05:31:24Z

回答过程中，文字和声音是同步生成的，会同时生成text token及audio token(SNAC token)，然后audio teken经过SNAC decoder生成audio wav.

想问训练过程也是这么做的吗？

mini-omni · 2024-12-04T15:38:04Z

@Jasper-sudo-Sun 是的，训练过程中也是同时生成text token和audio token.

Provide feedback