【Pandas】 DataFrame と Series のデータ構造について【Python】
今回は、Python でデータ分析を行っていると必ず使う Pandas の DataFrame と Series について、データの構造や違いについて調べてみました。
Contents
DataFrame
DataFrame は、行とカラムから構成されているデータであり、
- インデックス(index)
- カラム(columns)
- データ(value)
の3つの要素から成り立っています。
read_csv 関数を使って、映画データの CSVファイル を読み込んで、3つの要素について確認します。
1 2 |
movie = pd.read_csv('data/movie.csv') movie.head() |
「0」「1」がインデックス(index)、「color」や「director_name」がカラム(columns)と呼ばれます。
インデックスやカラムは軸(axis)といいます。
read_csv 関数では、デフォルトで index が数値で割り振られ、columns がCSVファイルの1行目の値になります。
DataFrame は各カラムごとにデータ型が異なります。
dtypes 関数で確認できます。
1 |
movie.dtypes |
index は DataFrame のものがそのまま残ります。「Name:」部分で Series の名前、「Length:」部分でデータの個数、「dtype:」部分でデータ型(今回は文字列なので
object)を表しています。
こちらも type 関数で Series 型かを確認します。
1 2 |
director = movie['director_name'] type(director) |
1 |
pandas.core.series.Series |
Series 型を DataFrame 型に戻したいときは、to_frame 関数を使います。
1 |
director.to_frame() |
DataFrame に変換されました。このとき、カラム名には Series名が入ります。
参考書籍
関連記事
-
-
【Linux】 ローカルに Python をインストールする方法。
今回は、Linux サーバに、root 権限なしで、ローカルに Python をインストールした方法
-
-
【Python】機械学習のために SciPy・Matplotlib・scikit-learn をインストール。
Python で機械学習を行うために、Windows OS の python 2 系にライブラリ「S
-
-
【Python】pip3 で「cannot import name ‘main’」エラーが出たときの対処法。
Python でライブラリをインストールする際に、pipを使います。 Python2 と Py
-
-
【Pandas】 DataFrame のインデックスを置き換える方法【Python】
今回は、Pandas の DataFrame型で、インデックス(index)を分かりやすいものに置き
-
-
【Pandas】 DetaFrame の列ごとに演算する方法【Python】
今回は、DetaFrame の列ごとに平均や加算・減算なのど演算をし、結果を DetaFrame 型
-
-
【Pandas】 DataFrame のある列の最大値を含む行のインデックス値を取得する方法。
今回は、Pandas の DataFrame において、ある列で最大値を求めて、その最大値をもつ行に
-
-
【matplotlib】 Python で折れ線グラフを描く方法。
今回は、Python の matplotlib というライブラリを使って簡単に折れ線グラフを描く方法
-
-
【matplotlib】 Python でヒストグラムの横軸と棒(ビン)の数を調整する方法。
Python の matplotlib を使ってヒストグラムを描画し、横軸の目盛りと棒(ビン)がそろ
-
-
【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。
Python で DataFrame 型の特定の列を指定して、対象列の文字列の出現回数をカウントして
-
-
【Google Colaboratory】クラウド上でPythonを使って機械学習を行う。
Python をブラウザ上で実行して、手軽に機械学習ができる環境「Google Colaborato