【Python】漢字を分解するライブラリを使ってみた【部首分解】
Python で漢字を部首やさらに細かい部分に分解してくれるライブラリがあったので使ってみました。
このライブラリを使うと、ある漢字を与えると、その漢字を自動的に分解して部首(偏・旁・冠)や部分をリスト形式で返してくれます。
kanjivg-radical というライブラリで、以下のURLからダウンロードし、解凍します。
https://github.com/yagays/kanjivg-radical
Contents
json 形式のファイル読み込む
kanjivg-radical では json 形式のファイルを読み込むため、以下のような関数を用意します。
1 2 3 4 5 6 7 |
import json # json 形式ファイルを読み込むための関数 def load_json(filename): with open(filename, encoding='utf-8') as f: d = json.load(f) return d |
kanjivg-radical の特徴
このライブラリでできることは、大きく分けて以下の2つがあります。
- 漢字を部分(部首など)に分解する
- 部分(部首など)を含む漢字を抽出する
それぞれいくつか細かい特徴が異なる関数が用意されています。
漢字を部分(部首など)に分解する系
これは、「kanji2xxxx」となっている関数が該当します。
基本的に漢字を1文字与えると分解したものをリストで返します。
それぞれ使い方と結果を示します。
kanji2radical
文字を一回だけ分解します。
1 2 3 |
kanji2radical = load_json("./kanjivg-radical-master/data/kanji2radical.json") print(kanji2radical["砂"]) |
結果は以下のようになります。
[‘石’, ‘少’]
kanji2element
文字を再帰的に分解していきます。
1 2 3 |
kanji2element = load_json("./kanjivg-radical-master/data/kanji2element.json") print(kanji2element["砂"]) |
結果をみると、kanji2radical と比較して、細かく分解されていることが分かると思います。
[‘石’, ‘丿’, ‘少’, ‘口’, ‘小’]
kanji2radical_left_right
文字を「偏」と「旁」に分解します。「偏」と「旁」に分解できない漢字についてはエラーとなります。
1 2 3 |
kanji2radical_left_right = load_json("./kanjivg-radical-master/data/kanji2radical_left_right.json") print(kanji2radical_left_right["砂"]) |
結果は以下のとおり。
[‘石’, ‘少’]
kanji2radical_top_buttom
文字を「冠」と「脚」に分解します。「冠」と「脚」に分解できない漢字についてはエラーとなります。
1 2 3 |
kanji2radical_top_buttom = load_json("./kanjivg-radical-master/data/kanji2radical_top_buttom.json") print(kanji2radical_top_buttom["省"]) |
結果は以下のとおり。
[‘少’, ‘目’]
部分(部首など)を含む漢字を抽出する系
これは、「xxxx2kanji」となっている関数が該当します。
部分を与えると、それが含まれる漢字をリストで返します。
それぞれ、コードと結果のみを以下に示します。
radical2kanji
1 2 3 |
radical2kanji = load_json("./kanjivg-radical-master/data/radical2kanji.json") print(radical2kanji["少"]) |
[‘尠’, ‘沙’, ‘鈔’, ‘抄’, ‘眇’, ‘秒’, ‘省’, ‘劣’, ‘杪’, ‘紗’, ‘雀’, ‘歩’, ‘賓’, ‘炒’, ‘隲’, ‘毟’, ‘妙’, ‘砂’]
element2kanji
1 2 3 |
element2kanji = load_json("./kanjivg-radical-master/data/element2kanji.json") print(element2kanji["少"]) |
[‘尠’, ‘瀕’, ‘沙’, ‘鈔’, ‘濱’, ‘抄’, ‘鯊’, ‘頻’, ‘鬢’, ‘捗’, ‘眇’, ‘秒’, ‘殯’, ‘省’, ‘擯’, ‘莎’, ‘劣’, ‘嬪’, ‘渉’, ‘裟’, ‘杪’, ‘紗’, ‘雀’, ‘渺’, ‘顰’, ‘歩’, ‘賓’, ‘炒’, ‘繽’, ‘陟’, ‘蘋’, ‘緲’, ‘隲’, ‘毟’, ‘妙’, ‘檳’, ‘砂’, ‘娑’]
radical2kanji_left_right
1 2 3 |
radical2kanji_left_right = load_json("./kanjivg-radical-master/data/radical2kanji_left_right.json") print(radical2kanji_left_right["少"]) |
[‘尠’, ‘沙’, ‘鈔’, ‘抄’, ‘眇’, ‘秒’, ‘杪’, ‘紗’, ‘炒’, ‘妙’, ‘砂’]
関連記事
-
-
【Python】Beautiful Soup を使ってスクレイピングする方法。
Beautiful Soup は、シンプルでわかりやすい API でデータを抜き出せる Python
-
-
【matplotlib】 Python でヒストグラムの横軸と棒(ビン)の数を調整する方法。
Python の matplotlib を使ってヒストグラムを描画し、横軸の目盛りと棒(ビン)がそろ
-
-
【Pandas】 DataFrame と Series のデータ構造について【Python】
今回は、Python でデータ分析を行っていると必ず使う Pandas の DataFrame と
-
-
【OpenCV】画像の顔部分を検出する方法【Python】
OpenCV を使って、Python で画像から顔部分の検出を行ったときのメモです。 Anac
-
-
【OpenCV】検出した顔画像部分を切り出す方法【Python】
OpenCV を使って、Python で画像の中から顔部分を切り出したときのメモです。 顔部分
-
-
【Python】pip3 で「cannot import name ‘main’」エラーが出たときの対処法。
Python でライブラリをインストールする際に、pipを使います。 Python2 と Py
-
-
【Python】Windows で ライブラリ(NumPy) をインストールする方法。
Windows の Python(2.X系)で NumPy をインストールしようと思ったら、そもそも
-
-
【Python】時系列データ(為替データ)をグラフ表示してみた。
今回は、pandas・matplotlib ライブラリを使って、時系列データ(為替データ)をグラフ表
-
-
【Pandas】 DataFrame のインデックスを置き換える方法【Python】
今回は、Pandas の DataFrame型で、インデックス(index)を分かりやすいものに置き
-
-
【Python】 Series 型を dict(辞書型)に変換する方法。
Python で Series 型を dict(辞書型)に簡単に変換する方法を紹介します。 「
- PREV
- 地図上に円を描いて直線距離を計測する方法
- NEXT
- 【競馬】即PATで入金する方法。