【Weka】欠損データを自動的に補完するフィルタを使ってみた。

公開日: : 最終更新日:2018/07/24 機械学習 , , ,

機械学習で用いるデータについてです。データは完璧なことに越したことはないが、通常は、ある属性の値が入っていない欠損データ(Missing values)があります。この欠損データをどう取り扱うかについては、

欠損データを含むタプルを無視する。

欠損データの補完を行う。

の2通り考えられます。欠損データを含むタプルを無視するのはもったいないとされており、欠損データの補完を考えます。

欠損データの補完方法については色々あるようですが、一般的な手法としては、

  • 数値データの場合は、平均値(mean)
  • カテゴリデータの場合は、最も多く現れたカテゴリ

を割り当てるようです。

機械学習ソフト Weka には欠損データを自動的に補完するフィルタ機能がついているので今回使ってみました。

使用データ:labor.arff

今回使用したデータは、Weka 用に用意されている labor.arff というデータセットを以下からダウンロードしてきました。

http://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html

データの読み込み

前処理タブ -> ファイルを開く で labor.arff を選択します。

編集ボタンでデータを表形式でみることがきます。

薄いブルーで塗られたセルが欠損データになります。

欠損データの補完

欠損データの補完を自動で行うには、前処理タブのフィルター選択ボタンを押して、filters -> unsupervised -> attribute -> ReplaceMissingValues を選択します。

フィルターが設定できたら、適応ボタンを押してフィルターを反映させます。

再度、編集ボタンからデータの確認を行い、データが補完されていることを確認します。

関連記事

【Weka】ARFF 形式から CSV 形式に簡単に変換する方法。

フリーのデータマイニングツールである WEKA では、ARFF 形式と CSV 形式のデータを読み込

記事を読む

【Weka】アソシエーション・ルール(association rule)【機械学習】

フリーの機械学習ツール Weka でアソシエーション・ルール(association rule)を使

記事を読む

【機械学習】モンテカルロ法(Monte Carlo method)について。

モンテカルロ法(Monte Carlo method)とは、シュミレーションや数値計算を乱数を用いて

記事を読む

【Weka】フリーの機械学習ソフトをインストールする方法。

Weka は、GUIで使えるフリーの機械学習ソフトです。 https://ja.wikiped

記事を読む

【機械学習】決定木(decision tree)について。

教師あり学習の一つである決定木(desicion tree)について勉強したことを書いていきます。

記事を読む

【Weka】CSVファイルを読み込んで決定木を実行。

フリーの機械学習ソフト Weka を使って、CSVファイルを読み込んで決定木(Decision Tr

記事を読む

【機械学習・手法比較】決定木とナイーブベイズを比較してみた。

同じデータを使って、教師有り機械学習手法の 決定木(Decision Tree)とナイーブベイズ(N

記事を読む

【画像認識】 Google画像検索結果を取得する方法 【google image download】

今回は、深層学習(DeepLearning)で画像認識をするための画像データの収集を、Google画

記事を読む

【機械学習】パーセプトロン(Perceptron)について。

パーセプトロンは、教師あり学習の中でも、入出力モデルベース(eager learning:働き者の学

記事を読む

機械学習の手法のまとめ。

機械学習は、「与えられた入出力事例をモデル化する行為」のことで、ディープラーニングなどで注目を集めて

記事を読む

【機械学習】 scikit-learn で不正解データを抽出する方法【Python】

Python の scikit-learn ライブラリを使って機械学習

【Python】 複数の辞書型の同じ key を持つ value を計算に用いる方法。

Python で、複数の辞書型を読み込んで、同じキー(key)を持つ数

【Python】 Series 型を dict(辞書型)に変換する方法。

Python で Series 型を dict(辞書型)に簡単に変換す

【Python】 DataFrame の特定の列で出現回数をカウントして降順でソートする方法。

Python で DataFrame 型の特定の列を指定して、対象列の

【テキストマイニング】 Amebaブログからデータ取得するための準備。

テキストマイニングを行うために、Ameba ブログ(アメブロ)のデータ

→もっと見る

PAGE TOP ↑