こんにちは^^ EMです!

 

今日は機械学習の第一歩としてざっくりdata processing(データ処理)のお話をします。

 

機械学習でいろんなデータをどんどん分析するぞ!と思った後に

初めに行うのがデータのお掃除です。

 

みなさん身の回りのものを断捨離をした経験はありますか?

 

まさに第一ステップとして行うのはぐちゃぐちゃのデータの中から

1つ1つの情報を '残すか?捨てるのか?'という判断と整理です!

 

練習用のデータはあらかた使えるデータが揃ってる場合が多いですが

リアルな生活から生のデータを見てみると、不要な情報がまぜこぜになっている事が多いです。

 

まぁ実際に1つ1つデータを細かくチェックするという事はビックデータになる程ないと思いますが

例えばエクセルで内容を見た時、ダブっている情報があったり

空白の欄があったり、とんちんかんな数字や記号が入っていたり、、、

肌感覚でなんとなく想像はできると思います。

特にデータを作る段階で複数人が関わっていると

実際のビジネスの現場なんかではよく起こるみたいです。

 

またエクセルの内容を機械学習あてはめようとする時

データの形式にも気を配る事が重要です。

使えないデータを使おうとしてもエラーになっちゃうだけですからね^^;

 

あとはデータのバランスも重要要素のひとつです。

例えば、特定のタイプのデータが大げさに表現されている場合

実際より過剰な分析結果がでる可能性があります。

実際に機械学習のアルゴリズムで修正するのは簡単?ですが

その背景でなにが行われているのかを理解するには統計の知識が少し必要ですね。

(わたくしも勉強中です…!)

 

ざっと今後の流れをまとめると

 

  • CSVファイルを読み込む/データ処理
  • 足りないデータや散らかっているデータを掃除する
  • データを正規化/標準化する

という事をやっていきます!

 

詳細は次の内容で書いていこうと思います~!

 

 

ではでは^^