【Weka】欠損データを自動的に補完するフィルタを使ってみた。

公開日: : 最終更新日:2018/07/24 機械学習 , , ,

機械学習で用いるデータについてです。データは完璧なことに越したことはないが、通常は、ある属性の値が入っていない欠損データ(Missing values)があります。この欠損データをどう取り扱うかについては、

欠損データを含むタプルを無視する。

欠損データの補完を行う。

の2通り考えられます。欠損データを含むタプルを無視するのはもったいないとされており、欠損データの補完を考えます。

欠損データの補完方法については色々あるようですが、一般的な手法としては、

  • 数値データの場合は、平均値(mean)
  • カテゴリデータの場合は、最も多く現れたカテゴリ

を割り当てるようです。

機械学習ソフト Weka には欠損データを自動的に補完するフィルタ機能がついているので今回使ってみました。

Contents

使用データ:labor.arff

今回使用したデータは、Weka 用に用意されている labor.arff というデータセットを以下からダウンロードしてきました。

http://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html

データの読み込み

前処理タブ -> ファイルを開く で labor.arff を選択します。

編集ボタンでデータを表形式でみることがきます。

薄いブルーで塗られたセルが欠損データになります。

欠損データの補完

欠損データの補完を自動で行うには、前処理タブのフィルター選択ボタンを押して、filters -> unsupervised -> attribute -> ReplaceMissingValues を選択します。

フィルターが設定できたら、適応ボタンを押してフィルターを反映させます。

再度、編集ボタンからデータの確認を行い、データが補完されていることを確認します。

関連記事

【画像認識】 Google画像検索結果を取得する方法 【google image download】

今回は、深層学習(DeepLearning)で画像認識をするための画像データの収集を、Google画

記事を読む

【Weka】アソシエーション・ルール(association rule)【機械学習】

フリーの機械学習ツール Weka でアソシエーション・ルール(association rule)を使

記事を読む

【Chainer】手書き数字認識をしてみた【Deep Learning】

Chainerを用いて、ニューラルネットワークを構築し、手書き数字認識を行ったときのメモです。

記事を読む

【転移学習】学習済みVGG16 による転移学習を行う方法【PyTorch】

今回は、PyTorch を使って、学習済みのモデル VGG16 を用いて転移学習をしてみました。

記事を読む

【機械学習】パーセプトロン(Perceptron)について。

パーセプトロンは、教師あり学習の中でも、入出力モデルベース(eager learning:働き者の学

記事を読む

【深層学習】 TensorFlow と Keras をインストールする【Python】

今回は、Google Colaboratory 上で、深層学習(DeepLearning)フレームワ

記事を読む

【TensorFlow】GPUを認識しない時の対処方法【Python】

TensorFlow で GPU を認識させようとしたときにハマってしまったので、その対処方法のメモ

記事を読む

【機械学習】決定木(decision tree)について。

教師あり学習の一つである決定木(desicion tree)について勉強したことを書いていきます。

記事を読む

【Weka】ARFF 形式から CSV 形式に簡単に変換する方法。

フリーのデータマイニングツールである WEKA では、ARFF 形式と CSV 形式のデータを読み込

記事を読む

【機械学習】 scikit-learn で不正解データを抽出する方法【Python】

Python の scikit-learn ライブラリを使って機械学習でテストデータを識別(2クラス

記事を読む

無料動画編集ソフト AviUtl で mp4 形式の動画を読み込み・出力する方法【Windows】

今回は、無料動画編集ソフト AviUtl で mp4 形式の動画を読み

【Cubase】イヤホンから音がでないときの対処方法。

Cubase でイヤホンから音がでなくなったときの対処方法のメモです。

【Cubase】特定のトラックを無効にする方法。

今回は、Cubaseで特定のトラックのみを無効にする方法について紹介し

【転移学習】学習済みVGG16 による転移学習を行う方法【PyTorch】

今回は、PyTorch を使って、学習済みのモデル VGG16 を用い

【PyTorch】畳込みニューラルネットワークを構築する方法【CNN】

今回は、PyTorch を使って畳込みニューラルネットワーク(CNN)

→もっと見る

PAGE TOP ↑