【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。
Python で DataFrame 型の特定の列を指定して、対象列の文字列の出現回数をカウントして出現回数の降順(多い順)に並べる方法を紹介します。
DataFrame の「value_counts()」関数を使うと簡単に実現できました。
以下のような df という名前の DataFrame 型のデータがあるとします。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
q_user_id r_user_id 0 akikirara1122 akikirara1122 1 akikirara1122 akikirara1122 2 asakaakie_blog2 asakaakie_blog2 3 a6789012002 casablanca117531 4 akikirara1122 amanjuli03 5 akikirara1122 asakaakie_blog2 6 akikirara1122 chanchankoiro 7 amanjuli03 ashino817 8 amanjuli03 casablanca117531 9 amanjuli03 chanchankoiro 10 asakaakie_blog2 ashino817 11 cotsplace cotsplace 12 ddogs38 ddogs38 13 fpdxw092 fpdxw092 14 fpdxw092 fpdxw092 15 ddogs38 fpdxw092 : |
「q_user_id」列の重複している各ユーザIDの出現回数をカウントします。
1 2 |
count = df['q_user_id'].value_counts() print(count) |
結果は、以下のようになります。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
tottokosa 6 akikirara1122 5 houzankai2006 3 amanjuli03 3 nama_k1 3 maruru39 2 ddogs38 2 sasaootako 2 nipponko2007 2 asakaakie_blog2 2 papakoa 2 umayado17 2 fpdxw092 2 cotsplace 1 juveneko 1 macyaken 1 a6789012002 1 saba2006201 1 tposato1 1 sanmamini91 1 wwide1225 1 Name: q_user_id, dtype: int64 |
結果は、Series 型で返り、index が 重複をカウントしたい要素(今回の場合は q_user_id 列)、data が 出現回数 となります。また、dtype は int64 となります。
Series 型は、インデックスとデータを持ちます。
なお、value_counts() はデフォルトで出現回数の降順(多い順)でソートしてくれます。
関連記事
-
-
【Python】Beautiful Soup を使ってスクレイピングする方法。
Beautiful Soup は、シンプルでわかりやすい API でデータを抜き出せる Python
-
-
【Python】機械学習のために SciPy・Matplotlib・scikit-learn をインストール。
Python で機械学習を行うために、Windows OS の python 2 系にライブラリ「S
-
-
【Anaconda】Prompt 上で Git コマンドを実行する方法。
Anaconda のコマンドプロンプト(Anaconda Prompt)上で、Git Hub からダ
-
-
【Spyder】引数のあるスクリプトを実行する方法。
Python の統合開発環境(IDE)である Spyder では、簡単にスクリプトを実行できます。
-
-
【Python】API を使って Amazon の商品情報を収集する方法。
AmazonAPI ライブラリをインストール 以下のコマンドで python-amazon-sim
-
-
【OpenCV】画像の顔部分を検出する方法【Python】
OpenCV を使って、Python で画像から顔部分の検出を行ったときのメモです。 Anac
-
-
【Pandas】 DataFrame のインデックスを置き換える方法【Python】
今回は、Pandas の DataFrame型で、インデックス(index)を分かりやすいものに置き
-
-
【Python】プログレスバーを表示させる【tqdm】
Python でスクリプトの実行時間が長くなると、進捗状況が知りたくなったので、標準出力にどのくらい
-
-
【Pandas】 DataFrame の行を抽出する方法【Python】
今回は、Python の Pandas で、DataFrame 型の行を抽出する方法を紹介します。
-
-
【Python】Windows で ライブラリ(NumPy) をインストールする方法。
Windows の Python(2.X系)で NumPy をインストールしようと思ったら、そもそも