demo_gui.mp4
多くの自動マンガ翻訳機は存在します。しかし、他の言語の他の種類のコミックを適切にサポートするものは非常に少ないです。このプロジェクトは、GPT-4oの能力を活用して、世界中のコミックを翻訳するために作成されました。現在、英語、韓国語、日本語、フランス語、簡体字中国語、繁体字中国語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語へのおよびからの翻訳をサポートしています。以下の言語に翻訳できますが、翻訳元としては使用できません: トルコ語、ポーランド語、ポルトガル語、ブラジルポルトガル語。
数十の言語において、最良の機械翻訳はGoogle Translate、Papago、DeepLではなく、圧倒的にGPT-4です。これは特に、英語と韓国語、日本語など、言語間の距離が遠いペアにおいて顕著です。その他の翻訳機はしばしば意味不明な文章になりがちです。
GPT-4oを翻訳機として使用。 注:これらの中には正式な英訳があるものも含まれます。
Python (<=3.10) をインストールします。セットアップ時に "Add python.exe to PATH" を選択してください。
https://www.python.org/downloads/
現在、PaddleOCRの問題により、Python 3.11以上では完全には動作しません。デフォルトオプション(Paddle)で中国語からの翻訳を行う予定がない場合、requirements.txtファイルの
paddleocr==2.7.0.3
paddlepaddle==2.5.2
を
PyMuPDF==1.23.8
に置き換えることで、3.11で使用することができます。
リポジトリをクローン(またはフォルダをダウンロード)し、フォルダに移動します
git clone https://github.com/ogkalu2/comic-translate
cd comic-translate
そして、必要なパッケージをインストールします
pip install -r requirements.txt
NVIDIA GPUをお使いの場合、以下のコマンドを実行することをお勧めします
pip uninstall torch torchvision
pip install torch==2.1.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install torchvision==0.16.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
注:+cu121の121はCUDAバージョン12.1を示しています。121をお使いのCUDAバージョンに置き換えてください。例えば、CUDA 11.8を使用している場合は118です。
comic-translateディレクトリで以下を実行します
python comic.py
これによりGUIが起動します
- 「Import > Images」メニューから単一または複数の画像を選択できます。CBRファイルを持っている場合、Winrarまたは7-Zipをインストールし、インストールしたフォルダ(例:"C:\Program Files\WinRAR" for Windows)をPathに追加する必要があります。Pathにインストールされていない場合は、
raise RarCannotExec("Cannot find working tool")
というエラーが出ることがあります。その場合、Windows、Linux、Macの手順に従ってください。
- 「Settings > Text Rendering > Adjust Textblocks」メニューからレンダリングされるブロックのサイズを調整できます。テキストが大きすぎたり小さすぎたりする場合に有効です。これはページの全ての検出されたブロックに適用されます。
- 選択したフォントがターゲット言語の文字をサポートしていることを確認してください。
以下の選択肢では、閉じたリソースへのアクセスとそれに伴うAPIキーが必要です:
- GPT-4oまたは3.5での翻訳(有料、約$0.01 USD/ページ for 4o)
- DeepL Translator(無料、月間500,000文字まで)
- フランス語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語のOCR(有料、約$0.02 USD/ページ)にはGPT-4oがデフォルト
- Microsoft Azure Vision(無料、月間5000画像まで)
- Google Cloud Vision(無料、月間1000画像まで)
「Settings > Set Credentials」メニューからAPIキーを設定できます。
- OpenAIのプラットフォームウェブサイト(platform.openai.com)でOpenAIアカウントにサインインするか作成します。
- ページの右タスクバーにカーソルを合わせて「API Keys」を選択します。
- 「Create New Secret Key」をクリックして新しいAPIキーを生成し、コピーして保管します。
- Google Cloudアカウントにサインインまたは作成。 Cloud Resource Manager で「Create Project」をクリックしてプロジェクト名を設定します。
- ここでプロジェクトを選択し、「Billing」を選択して「Create Account」を選択します。ポップアップで「Enable billing account」をクリックして、無料トライアルアカウントを作成します。「Account type」を個人に設定し、有効なクレジットカードを入力します。
- プロジェクト用にGoogle Cloud Visionをここで有効にします。
- Google Cloud Credentials ページで「Create Credentials」をクリックし、APIキーを選択します。コピーして保管します。
speech-bubble-detector、text-segmenter。8kおよび3kの画像のコミック(マンガ、ウェブトゥーン、西洋コミック)でそれぞれトレーニングされた2つのyolov8mモデル。
デフォルトでは:
- 英語にはEasyOCR
- 日本語にはmanga-ocr
- 韓国語にはPororo
- 中国語にはPaddleOCR
- フランス語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語にはGPT-4oがデフォルト(有料、APIキーが必要)
オプション:
これらはサポートされている言語すべてで使用可能です。APIキーが必要です。
Manga/Anime finetunedを使用するlamaチェックポイントで、セグメンターによって検出されたテキストを除去します。実装はlama-cleanerの提供です。
現在のところ、GPT-4o、GPT-4、GPT-3.5、DeepL、Google Translateをサポートしています。 すべてのGPTモデルには、翻訳を補助するためにページ全体のテキストの文脈が提供されます。 特にGPT-4oには、ページの画像、元のテキストを含むページが提供され、(フランス語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語のような)認識が得意な言語には画像とインペインティングされた画像が提供されます。
バウンディングボックス内で折り返されたテキストをレンダリングするためにPILを使用しています。
- https://github.com/hoffstadt/DearPyGui
- https://github.com/ultralytics/ultralytics
- https://github.com/Sanster/lama-cleaner
- https://huggingface.co/dreMaz
- https://github.com/yunwoong7/korean_ocr_using_pororo
- https://github.com/kha-white/manga-ocr
- https://github.com/JaidedAI/EasyOCR
- https://github.com/PaddlePaddle/PaddleOCR