【Weka】欠損データを自動的に補完するフィルタを使ってみた。
公開日:
:
最終更新日:2018/07/24
機械学習 Missing values, Weka, 欠損データ, 自動的に補完
機械学習で用いるデータについてです。データは完璧なことに越したことはないが、通常は、ある属性の値が入っていない欠損データ(Missing values)があります。この欠損データをどう取り扱うかについては、
欠損データを含むタプルを無視する。
欠損データの補完を行う。
の2通り考えられます。欠損データを含むタプルを無視するのはもったいないとされており、欠損データの補完を考えます。
欠損データの補完方法については色々あるようですが、一般的な手法としては、
- 数値データの場合は、平均値(mean)
- カテゴリデータの場合は、最も多く現れたカテゴリ
を割り当てるようです。
機械学習ソフト Weka には欠損データを自動的に補完するフィルタ機能がついているので今回使ってみました。
Contents
使用データ:labor.arff
今回使用したデータは、Weka 用に用意されている labor.arff というデータセットを以下からダウンロードしてきました。
http://storm.cis.fordham.edu/~gweiss/data-mining/datasets.html
データの読み込み
前処理タブ -> ファイルを開く で labor.arff を選択します。
編集ボタンでデータを表形式でみることがきます。
薄いブルーで塗られたセルが欠損データになります。
欠損データの補完
欠損データの補完を自動で行うには、前処理タブのフィルター選択ボタンを押して、filters -> unsupervised -> attribute -> ReplaceMissingValues を選択します。
フィルターが設定できたら、適応ボタンを押してフィルターを反映させます。
再度、編集ボタンからデータの確認を行い、データが補完されていることを確認します。
関連記事
-
-
【Weka】フリーの機械学習ソフトをインストールする方法。
Weka は、GUIで使えるフリーの機械学習ソフトです。 https://ja.wikiped
-
-
【転移学習】学習済みVGG16 による転移学習を行う方法【PyTorch】
今回は、PyTorch を使って、学習済みのモデル VGG16 を用いて転移学習をしてみました。
-
-
【機械学習】モンテカルロ法(Monte Carlo method)について。
モンテカルロ法(Monte Carlo method)とは、シュミレーションや数値計算を乱数を用いて
-
-
【PyTorch】畳込みニューラルネットワークを構築する方法【CNN】
今回は、PyTorch を使って畳込みニューラルネットワーク(CNN)を構築する方法について紹介しま
-
-
【深層学習】 TensorFlow と Keras をインストールする【Python】
今回は、Google Colaboratory 上で、深層学習(DeepLearning)フレームワ
-
-
【PyTorch】ニューラルネットワークを構築する方法【NN】
今回は、PyTorch を使って、ニューラルネットワーク(NN)を構築したときのメモです。 フ
-
-
【探索】縦型・横型・反復深化法の探索手法の比較。
探索とは、チェスや将棋や囲碁などのゲームをコンピュータがプレイするときに、どの手を指すかを決定するの
-
-
機械学習の手法のまとめ。
機械学習は、「与えられた入出力事例をモデル化する行為」のことで、ディープラーニングなどで注目を集めて
-
-
【PyTorch】GPUのメモリ不足でエラーになったときの対処方法。
PyTorch で深層学習していて、 GPUのメモリ不足でエラーが出てしまったので、対処方法のメモで
-
-
【Weka】ARFF 形式から CSV 形式に簡単に変換する方法。
フリーのデータマイニングツールである WEKA では、ARFF 形式と CSV 形式のデータを読み込