【Python】漢字を分解するライブラリを使ってみた【部首分解】

公開日： 2020/04/15 : 最終更新日：2021/03/08 Python python, ライブラリ, 分解, 漢字, 部首

Python で漢字を部首やさらに細かい部分に分解してくれるライブラリがあったので使ってみました。

このライブラリを使うと、ある漢字を与えると、その漢字を自動的に分解して部首（偏・旁・冠）や部分をリスト形式で返してくれます。

kanjivg-radical というライブラリで、以下のURLからダウンロードし、解凍します。

https://github.com/yagays/kanjivg-radical

Contents

json 形式のファイル読み込む

kanjivg-radical では json 形式のファイルを読み込むため、以下のような関数を用意します。

import json

# json 形式ファイルを読み込むための関数
def load_json(filename):
　　 with open(filename, encoding='utf-8') as f:
　　 　　d = json.load(f)
　　 return d

import json

# json 形式ファイルを読み込むための関数

def load_json(filename):

　　 with open(filename, encoding='utf-8') as f:

　　　　d = json.load(f)

　　 return d

kanjivg-radical の特徴

このライブラリでできることは、大きく分けて以下の２つがあります。

漢字を部分（部首など）に分解する
部分（部首など）を含む漢字を抽出する

それぞれいくつか細かい特徴が異なる関数が用意されています。

漢字を部分（部首など）に分解する系

これは、「kanji2xxxx」となっている関数が該当します。

基本的に漢字を１文字与えると分解したものをリストで返します。

それぞれ使い方と結果を示します。

kanji2radical

文字を一回だけ分解します。

kanji2radical = load_json("./kanjivg-radical-master/data/kanji2radical.json")

print(kanji2radical["砂"])

kanji2radical = load_json("./kanjivg-radical-master/data/kanji2radical.json")

print(kanji2radical["砂"])

結果は以下のようになります。

[‘石’, ‘少’]

kanji2element

文字を再帰的に分解していきます。

kanji2element = load_json("./kanjivg-radical-master/data/kanji2element.json")

print(kanji2element["砂"])

kanji2element = load_json("./kanjivg-radical-master/data/kanji2element.json")

print(kanji2element["砂"])

結果をみると、kanji2radical と比較して、細かく分解されていることが分かると思います。

[‘石’, ‘丿’, ‘少’, ‘口’, ‘小’]

kanji2radical_left_right

文字を「偏」と「旁」に分解します。「偏」と「旁」に分解できない漢字についてはエラーとなります。

kanji2radical_left_right = load_json("./kanjivg-radical-master/data/kanji2radical_left_right.json")

print(kanji2radical_left_right["砂"])

kanji2radical_left_right = load_json("./kanjivg-radical-master/data/kanji2radical_left_right.json")

print(kanji2radical_left_right["砂"])

結果は以下のとおり。

[‘石’, ‘少’]

kanji2radical_top_buttom

文字を「冠」と「脚」に分解します。「冠」と「脚」に分解できない漢字についてはエラーとなります。

kanji2radical_top_buttom = load_json("./kanjivg-radical-master/data/kanji2radical_top_buttom.json")

print(kanji2radical_top_buttom["省"])

kanji2radical_top_buttom = load_json("./kanjivg-radical-master/data/kanji2radical_top_buttom.json")

print(kanji2radical_top_buttom["省"])

結果は以下のとおり。

[‘少’, ‘目’]

部分（部首など）を含む漢字を抽出する系

これは、「xxxx2kanji」となっている関数が該当します。

部分を与えると、それが含まれる漢字をリストで返します。

それぞれ、コードと結果のみを以下に示します。

radical2kanji

radical2kanji = load_json("./kanjivg-radical-master/data/radical2kanji.json")

print(radical2kanji["少"])

radical2kanji = load_json("./kanjivg-radical-master/data/radical2kanji.json")

print(radical2kanji["少"])

[‘尠’, ‘沙’, ‘鈔’, ‘抄’, ‘眇’, ‘秒’, ‘省’, ‘劣’, ‘杪’, ‘紗’, ‘雀’, ‘歩’, ‘賓’, ‘炒’, ‘隲’, ‘毟’, ‘妙’, ‘砂’]

element2kanji

element2kanji = load_json("./kanjivg-radical-master/data/element2kanji.json")

print(element2kanji["少"])

element2kanji = load_json("./kanjivg-radical-master/data/element2kanji.json")

print(element2kanji["少"])

[‘尠’, ‘瀕’, ‘沙’, ‘鈔’, ‘濱’, ‘抄’, ‘鯊’, ‘頻’, ‘鬢’, ‘捗’, ‘眇’, ‘秒’, ‘殯’, ‘省’, ‘擯’, ‘莎’, ‘劣’, ‘嬪’, ‘渉’, ‘裟’, ‘杪’, ‘紗’, ‘雀’, ‘渺’, ‘顰’, ‘歩’, ‘賓’, ‘炒’, ‘繽’, ‘陟’, ‘蘋’, ‘緲’, ‘隲’, ‘毟’, ‘妙’, ‘檳’, ‘砂’, ‘娑’]

radical2kanji_left_right

radical2kanji_left_right = load_json("./kanjivg-radical-master/data/radical2kanji_left_right.json")

print(radical2kanji_left_right["少"])

radical2kanji_left_right = load_json("./kanjivg-radical-master/data/radical2kanji_left_right.json")

print(radical2kanji_left_right["少"])

[‘尠’, ‘沙’, ‘鈔’, ‘抄’, ‘眇’, ‘秒’, ‘杪’, ‘紗’, ‘炒’, ‘妙’, ‘砂’]

【Pandas】 DetaFrame の列ごとに演算する方法【Python】

今回は、DetaFrame の列ごとに平均や加算・減算なのど演算をし、結果を DetaFrame 型

記事を読む

【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。

Python で DataFrame 型の特定の列を指定して、対象列の文字列の出現回数をカウントして

記事を読む

【Python】Wikipedia のデータセットを取得し、文章を抽出する方法。

Wikipedia のデータセットを取得し、Python のライブラリを用いて文章を抽出する方法を紹

記事を読む

【Python】Windows でライブラリ（NumPy）をインストールする方法。

Windows の Python（２．X系）で NumPy をインストールしようと思ったら、そもそも

記事を読む

【Python】機械学習のために SciPy・Matplotlib・scikit-learn をインストール。

Python で機械学習を行うために、Windows OS の python 2 系にライブラリ「S

記事を読む

【Linux】ローカルに Python をインストールする方法。

今回は、Linux サーバに、root 権限なしで、ローカルに Python をインストールした方法

記事を読む

【Pandas】 DataFrame の行を抽出する方法【Python】

今回は、Python の Pandas で、DataFrame 型の行を抽出する方法を紹介します。

記事を読む

【Python】プログレスバーを表示させる【tqdm】

Python でスクリプトの実行時間が長くなると、進捗状況が知りたくなったので、標準出力にどのくらい

記事を読む

【Python】API を使って YouTube から動画情報を収集する方法。

API を使って YouTube から動画情報を収集してみたときのメモです。 OS は Lin

記事を読む

【OpenCV】検出した顔画像部分を切り出す方法【Python】

OpenCV を使って、Python で画像の中から顔部分を切り出したときのメモです。顔部分

記事を読む

PREV: 地図上に円を描いて直線距離を計測する方法
NEXT: 【競馬】即PATで入金する方法。

【Python】漢字を分解するライブラリを使ってみた【部首分解】

json 形式のファイル読み込む

kanjivg-radical の特徴

漢字を部分（部首など）に分解する系

kanji2radical

kanji2element

kanji2radical_left_right

kanji2radical_top_buttom

部分（部首など）を含む漢字を抽出する系

radical2kanji

element2kanji

radical2kanji_left_right

関連記事

【Pandas】 DetaFrame の列ごとに演算する方法【Python】

【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。

【Python】Wikipedia のデータセットを取得し、文章を抽出する方法。

【Python】Windows でライブラリ（NumPy）をインストールする方法。

【Python】機械学習のために SciPy・Matplotlib・scikit-learn をインストール。

【Linux】ローカルに Python をインストールする方法。

【Pandas】 DataFrame の行を抽出する方法【Python】

【Python】プログレスバーを表示させる【tqdm】

【Python】API を使って YouTube から動画情報を収集する方法。

【OpenCV】検出した顔画像部分を切り出す方法【Python】

NEW ENTRY

カテゴリー

【Python】漢字を分解するライブラリを使ってみた【部首分解】

日々調べたこと思ったことをメモがわりに記録していきます。