Skip to content

ndl-lab/ruby_prediction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ruby_prediction(NDLOCR(ver.2)用漢字読み推定モジュール)

NDLOCR(ver.2)用のテキストの漢字の読みを推定するモジュールのリポジトリです。

本プログラムは、全文検索用途のテキスト化のために開発したver.1に対して、視覚障害者等の読み上げ用途にも利用できるよう、国立国会図書館が外部委託して追加開発したプログラムです(委託業者:株式会社モルフォAIソリューションズ)。

事業の詳細については、令和4年度NDLOCR追加開発事業及び同事業成果に対する改善作業をご覧ください。

本プログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。詳細については LICENSEをご覧ください。

漢字の読み推定

形態素解析器kyteaを用いた漢字の読み推定機能を提供しています。

kyteaのPythonラッパーを使用しているため、kyteaを先にインストールしておく必要があります。 kyteaの導入はhttp://www.phontron.com/kytea/index-ja.html を参照してください。

python output_ruby.py path/to/hogehoge.xml 

対応入力形式

  • xmlファイル 
  • xmlファイルが入ったディレクトリ。

ディレクトリで入力する時のファイル構成

input_directory
├── hogehoge0.xml 
├── hogehoge1.xml
... 

オプション

-t,--timetest 処理速度測定

About

NDLOCR(version2)用漢字読み推定モジュール

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages