Skip to content

Latest commit

 

History

History
177 lines (136 loc) · 11.2 KB

README_ja.md

File metadata and controls

177 lines (136 loc) · 11.2 KB

コミック翻訳

demo_gui.mp4

はじめに

多くの自動マンガ翻訳機は存在します。しかし、他の言語の他の種類のコミックを適切にサポートするものは非常に少ないです。このプロジェクトは、GPT-4oの能力を活用して、世界中のコミックを翻訳するために作成されました。現在、英語、韓国語、日本語、フランス語、簡体字中国語、繁体字中国語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語へのおよびからの翻訳をサポートしています。以下の言語に翻訳できますが、翻訳元としては使用できません: トルコ語、ポーランド語、ポルトガル語、ブラジルポルトガル語。

機械翻訳の現状

数十の言語において、最良の機械翻訳はGoogle Translate、Papago、DeepLではなく、圧倒的にGPT-4です。これは特に、英語と韓国語、日本語など、言語間の距離が遠いペアにおいて顕著です。その他の翻訳機はしばしば意味不明な文章になりがちです。

コミックサンプル

GPT-4oを翻訳機として使用。 注:これらの中には正式な英訳があるものも含まれます。

高海の哀れな人々

西遊記

ワームワールド サーガ

砂の時代

プレイヤー (オ・ヒョンジュン)

カーボンとシリコン

インストール

Python

Python (<=3.10) をインストールします。セットアップ時に "Add python.exe to PATH" を選択してください。

https://www.python.org/downloads/

現在、PaddleOCRの問題により、Python 3.11以上では完全には動作しません。デフォルトオプション(Paddle)で中国語からの翻訳を行う予定がない場合、requirements.txtファイルの

paddleocr==2.7.0.3
paddlepaddle==2.5.2

PyMuPDF==1.23.8

に置き換えることで、3.11で使用することができます。

リポジトリをクローン(またはフォルダをダウンロード)し、フォルダに移動します

git clone https://github.com/ogkalu2/comic-translate
cd comic-translate

そして、必要なパッケージをインストールします

pip install -r requirements.txt

NVIDIA GPUをお使いの場合、以下のコマンドを実行することをお勧めします

pip uninstall torch torchvision
pip install torch==2.1.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html
pip install torchvision==0.16.0+cu121 -f https://download.pytorch.org/whl/torch_stable.html

注:+cu121の121はCUDAバージョン12.1を示しています。121をお使いのCUDAバージョンに置き換えてください。例えば、CUDA 11.8を使用している場合は118です。

使用方法

comic-translateディレクトリで以下を実行します

python comic.py

これによりGUIが起動します

ヒント

  • 「Import > Images」メニューから単一または複数の画像を選択できます。CBRファイルを持っている場合、Winrarまたは7-Zipをインストールし、インストールしたフォルダ(例:"C:\Program Files\WinRAR" for Windows)をPathに追加する必要があります。Pathにインストールされていない場合は、
raise RarCannotExec("Cannot find working tool")

というエラーが出ることがあります。その場合、WindowsLinuxMacの手順に従ってください。

  • 「Settings > Text Rendering > Adjust Textblocks」メニューからレンダリングされるブロックのサイズを調整できます。テキストが大きすぎたり小さすぎたりする場合に有効です。これはページの全ての検出されたブロックに適用されます。
  • 選択したフォントがターゲット言語の文字をサポートしていることを確認してください。

APIキー

以下の選択肢では、閉じたリソースへのアクセスとそれに伴うAPIキーが必要です:

  • GPT-4oまたは3.5での翻訳(有料、約$0.01 USD/ページ for 4o)
  • DeepL Translator(無料、月間500,000文字まで)
  • フランス語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語のOCR(有料、約$0.02 USD/ページ)にはGPT-4oがデフォルト
  • Microsoft Azure Vision(無料、月間5000画像まで)
  • Google Cloud Vision(無料、月間1000画像まで)

「Settings > Set Credentials」メニューからAPIキーを設定できます。

APIキーの取得

Open AI (GPT)

  • OpenAIのプラットフォームウェブサイト(platform.openai.com)でOpenAIアカウントにサインインするか作成します。
  • ページの右タスクバーにカーソルを合わせて「API Keys」を選択します。
  • 「Create New Secret Key」をクリックして新しいAPIキーを生成し、コピーして保管します。

Google Cloud Vision

  • Google Cloudアカウントにサインインまたは作成。 Cloud Resource Manager で「Create Project」をクリックしてプロジェクト名を設定します。
  • ここでプロジェクトを選択し、「Billing」を選択して「Create Account」を選択します。ポップアップで「Enable billing account」をクリックして、無料トライアルアカウントを作成します。「Account type」を個人に設定し、有効なクレジットカードを入力します。
  • プロジェクト用にGoogle Cloud Visionをここで有効にします
  • Google Cloud Credentials ページで「Create Credentials」をクリックし、APIキーを選択します。コピーして保管します。

動作原理

セリフバルーン検出とテキストセグメント化

speech-bubble-detectortext-segmenter。8kおよび3kの画像のコミック(マンガ、ウェブトゥーン、西洋コミック)でそれぞれトレーニングされた2つのyolov8mモデル。

OCR

デフォルトでは:

  • 英語にはEasyOCR
  • 日本語にはmanga-ocr
  • 韓国語にはPororo
  • 中国語にはPaddleOCR
  • フランス語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語にはGPT-4oがデフォルト(有料、APIキーが必要)

オプション:

これらはサポートされている言語すべてで使用可能です。APIキーが必要です。

インペインティング

Manga/Anime finetunedを使用するlamaチェックポイントで、セグメンターによって検出されたテキストを除去します。実装はlama-cleanerの提供です。

翻訳

現在のところ、GPT-4o、GPT-4、GPT-3.5、DeepL、Google Translateをサポートしています。 すべてのGPTモデルには、翻訳を補助するためにページ全体のテキストの文脈が提供されます。 特にGPT-4oには、ページの画像、元のテキストを含むページが提供され、(フランス語、ロシア語、ドイツ語、オランダ語、スペイン語、イタリア語のような)認識が得意な言語には画像とインペインティングされた画像が提供されます。

テキストレンダリング

バウンディングボックス内で折り返されたテキストをレンダリングするためにPILを使用しています。

謝辞