【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。
Python で DataFrame 型の特定の列を指定して、対象列の文字列の出現回数をカウントして出現回数の降順(多い順)に並べる方法を紹介します。
DataFrame の「value_counts()」関数を使うと簡単に実現できました。
以下のような df という名前の DataFrame 型のデータがあるとします。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 |
q_user_id r_user_id 0 akikirara1122 akikirara1122 1 akikirara1122 akikirara1122 2 asakaakie_blog2 asakaakie_blog2 3 a6789012002 casablanca117531 4 akikirara1122 amanjuli03 5 akikirara1122 asakaakie_blog2 6 akikirara1122 chanchankoiro 7 amanjuli03 ashino817 8 amanjuli03 casablanca117531 9 amanjuli03 chanchankoiro 10 asakaakie_blog2 ashino817 11 cotsplace cotsplace 12 ddogs38 ddogs38 13 fpdxw092 fpdxw092 14 fpdxw092 fpdxw092 15 ddogs38 fpdxw092 : |
「q_user_id」列の重複している各ユーザIDの出現回数をカウントします。
1 2 |
count = df['q_user_id'].value_counts() print(count) |
結果は、以下のようになります。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
tottokosa 6 akikirara1122 5 houzankai2006 3 amanjuli03 3 nama_k1 3 maruru39 2 ddogs38 2 sasaootako 2 nipponko2007 2 asakaakie_blog2 2 papakoa 2 umayado17 2 fpdxw092 2 cotsplace 1 juveneko 1 macyaken 1 a6789012002 1 saba2006201 1 tposato1 1 sanmamini91 1 wwide1225 1 Name: q_user_id, dtype: int64 |
結果は、Series 型で返り、index が 重複をカウントしたい要素(今回の場合は q_user_id 列)、data が 出現回数 となります。また、dtype は int64 となります。
Series 型は、インデックスとデータを持ちます。
なお、value_counts() はデフォルトで出現回数の降順(多い順)でソートしてくれます。
関連記事
-
-
【Python】OpenCV を使って顔画像を検出してみた。
OpenCV のインストール Numpy のインストール [crayon-64785b1e6
-
-
【Python】Beautiful Soup を使ってスクレイピングする方法。
Beautiful Soup は、シンプルでわかりやすい API でデータを抜き出せる Python
-
-
【Python】API を使って Amazon の商品情報を収集する方法。
AmazonAPI ライブラリをインストール 以下のコマンドで python-amazon-sim
-
-
【Spyder】引数のあるスクリプトを実行する方法。
Python の統合開発環境(IDE)である Spyder では、簡単にスクリプトを実行できます。
-
-
【Linux】 ローカルに Python をインストールする方法。
今回は、Linux サーバに、root 権限なしで、ローカルに Python をインストールした方法
-
-
【Python】 Series 型を dict(辞書型)に変換する方法。
Python で Series 型を dict(辞書型)に簡単に変換する方法を紹介します。 「
-
-
【matplotlib】 Python でヒストグラムの横軸と棒(ビン)の数を調整する方法。
Python の matplotlib を使ってヒストグラムを描画し、横軸の目盛りと棒(ビン)がそろ
-
-
【matplotlib】 Python で折れ線グラフを描く方法。
今回は、Python の matplotlib というライブラリを使って簡単に折れ線グラフを描く方法
-
-
【Pandas】 DetaFrame の列ごとに演算する方法【Python】
今回は、DetaFrame の列ごとに平均や加算・減算なのど演算をし、結果を DetaFrame 型
-
-
【OpenCV】検出した顔画像部分を切り出す方法【Python】
OpenCV を使って、Python で画像の中から顔部分を切り出したときのメモです。 顔部分