Japanese Charaters Normalization

日本語の文字(キャラクタ)を検索等に適した形に正規化します。

日本語のキャラクタセットには1つの文字にも拘わらず、描画幅の違いで異なるコードポイントを割り当てられたものが存在します。数字(123 or １２３)やカタカナ(イロハ or ｲﾛﾊ)等がその代表です。いわゆる半角・全角と言われるものです。

またほぼ同じ字形にも拘わらず複数のコードポイントを割り当てられた記号も存在します。

janorm パッケージはこのような日本語文字の多義性をいずれかに変換・統一または削除することで正規化し、検索等の機械処理に適した形に変換します。

大まかな正規化(変換)ルールは以下の通りです。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.github/workflows		.github/workflows
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
go.mod		go.mod
go.sum		go.sum
janorm.go		janorm.go
janorm_test.go		janorm_test.go
normalizer.go		normalizer.go
staticcheck.conf		staticcheck.conf

Provide feedback