【Pandas】 DataFrame と Series のデータ構造について【Python】
今回は、Python でデータ分析を行っていると必ず使う Pandas の DataFrame と Series について、データの構造や違いについて調べてみました。
Contents
DataFrame
DataFrame は、行とカラムから構成されているデータであり、
- インデックス(index)
- カラム(columns)
- データ(value)
の3つの要素から成り立っています。
read_csv 関数を使って、映画データの CSVファイル を読み込んで、3つの要素について確認します。
|
1 2 |
movie = pd.read_csv('data/movie.csv') movie.head() |

「0」「1」がインデックス(index)、「color」や「director_name」がカラム(columns)と呼ばれます。
インデックスやカラムは軸(axis)といいます。
read_csv 関数では、デフォルトで index が数値で割り振られ、columns がCSVファイルの1行目の値になります。
DataFrame は各カラムごとにデータ型が異なります。
dtypes 関数で確認できます。
|
1 |
movie.dtypes |
index は DataFrame のものがそのまま残ります。「Name:」部分で Series の名前、「Length:」部分でデータの個数、「dtype:」部分でデータ型(今回は文字列なので
object)を表しています。
こちらも type 関数で Series 型かを確認します。
|
1 2 |
director = movie['director_name'] type(director) |
|
1 |
pandas.core.series.Series |
Series 型を DataFrame 型に戻したいときは、to_frame 関数を使います。
|
1 |
director.to_frame() |
DataFrame に変換されました。このとき、カラム名には Series名が入ります。

参考書籍
関連記事
-
-
【Pandas】 loc・ilocで1行のみ Series ではなく DataFrame で抽出する方法。
Python の Pandas で DataFrame から loc や iloc を使って行を抽出
-
-
【Atom エディタ】Python で Matplotlib のグラフを Atom 上に表示させる方法。
Atom エディタで Python の Matplotlib ライブラリを使って、Atom 上にグラ
-
-
python 2.7 を Windows 64bit OS にインストールした。
python 2.7 を Windows にインストールしたときのメモです。 Python に
-
-
【Atomエディタ】Python 開発用にインストールしてみた。
Python でプログラミングするときの エディタ を探していたのですが、とりあえず Atom とい
-
-
【Pandas】 DataFrame の行を抽出する方法【Python】
今回は、Python の Pandas で、DataFrame 型の行を抽出する方法を紹介します。
-
-
【OpenCV】検出した顔画像部分を切り出す方法【Python】
OpenCV を使って、Python で画像の中から顔部分を切り出したときのメモです。 顔部分
-
-
【Python】Windows で ライブラリ(NumPy) をインストールする方法。
Windows の Python(2.X系)で NumPy をインストールしようと思ったら、そもそも
-
-
【Python】時系列データ(為替データ)をグラフ表示してみた。
今回は、pandas・matplotlib ライブラリを使って、時系列データ(為替データ)をグラフ表
-
-
【Linux】 ローカルに Python をインストールする方法。
今回は、Linux サーバに、root 権限なしで、ローカルに Python をインストールした方法
-
-
【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。
Python で DataFrame 型の特定の列を指定して、対象列の文字列の出現回数をカウントして



















