【Pandas】 DataFrame と Series のデータ構造について【Python】
今回は、Python でデータ分析を行っていると必ず使う Pandas の DataFrame と Series について、データの構造や違いについて調べてみました。
Contents
DataFrame
DataFrame は、行とカラムから構成されているデータであり、
- インデックス(index)
- カラム(columns)
- データ(value)
の3つの要素から成り立っています。
read_csv 関数を使って、映画データの CSVファイル を読み込んで、3つの要素について確認します。
|
1 2 |
movie = pd.read_csv('data/movie.csv') movie.head() |

「0」「1」がインデックス(index)、「color」や「director_name」がカラム(columns)と呼ばれます。
インデックスやカラムは軸(axis)といいます。
read_csv 関数では、デフォルトで index が数値で割り振られ、columns がCSVファイルの1行目の値になります。
DataFrame は各カラムごとにデータ型が異なります。
dtypes 関数で確認できます。
|
1 |
movie.dtypes |
index は DataFrame のものがそのまま残ります。「Name:」部分で Series の名前、「Length:」部分でデータの個数、「dtype:」部分でデータ型(今回は文字列なので
object)を表しています。
こちらも type 関数で Series 型かを確認します。
|
1 2 |
director = movie['director_name'] type(director) |
|
1 |
pandas.core.series.Series |
Series 型を DataFrame 型に戻したいときは、to_frame 関数を使います。
|
1 |
director.to_frame() |
DataFrame に変換されました。このとき、カラム名には Series名が入ります。

参考書籍
関連記事
-
-
【Python】OpenCV を使って顔画像を検出してみた。
OpenCV のインストール Numpy のインストール [crayon-6940000ba
-
-
【Pandas】 DataFrame のインデックスを置き換える方法【Python】
今回は、Pandas の DataFrame型で、インデックス(index)を分かりやすいものに置き
-
-
【Python】時系列データ(為替データ)をグラフ表示してみた。
今回は、pandas・matplotlib ライブラリを使って、時系列データ(為替データ)をグラフ表
-
-
【Python】プログレスバーを表示させる【tqdm】
Python でスクリプトの実行時間が長くなると、進捗状況が知りたくなったので、標準出力にどのくらい
-
-
【Pandas】 DataFrame の行を抽出する方法【Python】
今回は、Python の Pandas で、DataFrame 型の行を抽出する方法を紹介します。
-
-
【Python】機械学習のために SciPy・Matplotlib・scikit-learn をインストール。
Python で機械学習を行うために、Windows OS の python 2 系にライブラリ「S
-
-
【OpenCV】画像の顔部分を検出する方法【Python】
OpenCV を使って、Python で画像から顔部分の検出を行ったときのメモです。 Anac
-
-
【Python】漢字を分解するライブラリを使ってみた【部首分解】
Python で漢字を部首やさらに細かい部分に分解してくれるライブラリがあったので使ってみました。
-
-
【matplotlib】 Python で折れ線グラフを描く方法。
今回は、Python の matplotlib というライブラリを使って簡単に折れ線グラフを描く方法
-
-
【Atom エディタ】Python で Matplotlib のグラフを Atom 上に表示させる方法。
Atom エディタで Python の Matplotlib ライブラリを使って、Atom 上にグラ



















