【Pandas】 DataFrame と Series のデータ構造について【Python】
今回は、Python でデータ分析を行っていると必ず使う Pandas の DataFrame と Series について、データの構造や違いについて調べてみました。
Contents
DataFrame
DataFrame は、行とカラムから構成されているデータであり、
- インデックス(index)
- カラム(columns)
- データ(value)
の3つの要素から成り立っています。
read_csv 関数を使って、映画データの CSVファイル を読み込んで、3つの要素について確認します。
|
1 2 |
movie = pd.read_csv('data/movie.csv') movie.head() |

「0」「1」がインデックス(index)、「color」や「director_name」がカラム(columns)と呼ばれます。
インデックスやカラムは軸(axis)といいます。
read_csv 関数では、デフォルトで index が数値で割り振られ、columns がCSVファイルの1行目の値になります。
DataFrame は各カラムごとにデータ型が異なります。
dtypes 関数で確認できます。
|
1 |
movie.dtypes |
index は DataFrame のものがそのまま残ります。「Name:」部分で Series の名前、「Length:」部分でデータの個数、「dtype:」部分でデータ型(今回は文字列なので
object)を表しています。
こちらも type 関数で Series 型かを確認します。
|
1 2 |
director = movie['director_name'] type(director) |
|
1 |
pandas.core.series.Series |
Series 型を DataFrame 型に戻したいときは、to_frame 関数を使います。
|
1 |
director.to_frame() |
DataFrame に変換されました。このとき、カラム名には Series名が入ります。

参考書籍
関連記事
-
-
【Pandas】 DataFrame のある列の最大値を含む行のインデックス値を取得する方法。
今回は、Pandas の DataFrame において、ある列で最大値を求めて、その最大値をもつ行に
-
-
【Python】pip3 で「cannot import name ‘main’」エラーが出たときの対処法。
Python でライブラリをインストールする際に、pipを使います。 Python2 と Py
-
-
【Python】機械学習のために SciPy・Matplotlib・scikit-learn をインストール。
Python で機械学習を行うために、Windows OS の python 2 系にライブラリ「S
-
-
【Atomエディタ】Python 開発用にインストールしてみた。
Python でプログラミングするときの エディタ を探していたのですが、とりあえず Atom とい
-
-
【Python】OpenCV を使って顔画像を検出してみた。
OpenCV のインストール Numpy のインストール [crayon-6a245841f
-
-
【Google Colaboratory】クラウド上でPythonを使って機械学習を行う。
Python をブラウザ上で実行して、手軽に機械学習ができる環境「Google Colaborato
-
-
【Python】Requests ライブラリを使って Web ページを取得してみた。
python の標準ライブラリ urllib を使っても Web ページの取得はできるのですが、Re
-
-
【Pandas】 DetaFrame の列ごとに演算する方法【Python】
今回は、DetaFrame の列ごとに平均や加算・減算なのど演算をし、結果を DetaFrame 型
-
-
【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。
Python で DataFrame 型の特定の列を指定して、対象列の文字列の出現回数をカウントして
-
-
【Atom エディタ】Python で Matplotlib のグラフを Atom 上に表示させる方法。
Atom エディタで Python の Matplotlib ライブラリを使って、Atom 上にグラ



















