日本語 / 英語 / 韓国語/ 中国語/ ドイツ語/ アラビア語/ ギリシャ語/ スペイン語/ フランス語/ イタリア語/ ラテン語/ マレー語/ ロシア語 *日本語以外は機械翻訳です。
Text To Speech(TTS)のクライアントソフトウェアです。 各種AIに対応していく計画です。(現時点ではGPT-SoVITS v2, v3のみ)
- 対応 AI
- GPT-SoVITS
- coming soon...
out_woman.mp4
out1_multi.mp4
- v.1.0.13
- new feature:
- GPT-SoVITS v3に対応。loraによるfinetuningしたモデルにも対応しています。
- 参照音声登録の強化。直接マイクやPC音声を録音できるようになりました。また、自動でテキストの書き起こしも行われます。
- new feature:
Hugging Faceのリポジトリよりダウンロードしてください。
- win_stdエディション:Windows向けのCPUで動作するエディションです。cuda版と比較して低速ですが、最近のそれなりのスペックのCPUであれば動きます。
- win_cudaエディション:Windows向けのNVIDIAのGPUで動作するエディションです。GPUのハードウェアアクセラレーションにより高速に動きます。
- macエディション:Mac(Apple silicon(M1, M2, M3, etc))向けのエディションです。
- zipファイルを展開後、
start_http.bat
を実行してください。表示された、URLにブラウザでアクセスしてください。 start_https.bat
を使用すると、リモートからでもアクセスすることができます。- (上級者向け)
start_http_with_ngrok.bat
を使用するとngrokを用いたトンネリングを使用してアクセスすることができます。
note: macエディションは.batを.commandで読み替えてください。
モデルの詳細はGPT-SoVITSの公式リポジトリを参照してください。
GPT-SoVITSでは、モデルと参照音声と参照テキストを選択してから、音声生成を行います。TTSClientでは参照話者という概念があり、参照話者に複数の参照音声と参照テキストを持たせることができます。
- モデルと、参照話者を選択します((1), (2))。
- 参照話者に登録された参照音声と参照テキストを選択します(3)。
- 生成したいテキストを入力して音声を生成します(4)。
モデル選択エリアの編集ボタンから登録してください。
参照話者登録エリアの編集ボタンから登録してください。
参照音声選択エリアで未登録のスロットを選択して登録してください。
$ git clone https://github.com/w-okada/ttsclient.git
$ cd ttsclient/
$ poetry install
$ poetry run main cui
---
リモートからアクセスする場合は`--https true`を付与してください。
---
$ poetry run main cui --https true
モジュールを入れ替えてください。
$ poetry add onnxruntime-gpu==1.19.2
$ poetry remove torch
$ poetry add torch==2.3.1 --source torch_cuda12
モジュールを入れ替えてください。
$ poetry add onnxruntime-directml==1.19.2