【機械学習】教師なし学習-KMeans・ラベルなしデータ
こんにちは!EMです^^
今日からは教師なし学習について解説していきたいと思います!
機械学習に興味がある方なら、一度は聞いたことのある単語ではないでしょうか。
さっそく教師なし学習とはなにか、どうやって使うのかを見ていきましょう!
教師なし学習-KMeans
すべての統計と機械学習モデリングは、独立変数(観測値または特徴のセット)と
従属変数(結果)を持つデータに基づいています。
独立変数が従属変数を生じさせるある程度の出てきた効果を
私たちはゴールとして言い換えることができますが
この効果をどのようにモデル化して理解していくのでしょうか?
これまで、従属変数がどのように見えるか、それが取ることができる値の範囲
モデルを適合させるデータ(トレーニングセット)にどのような値がかかるかを
既に理解できているものだという前提を仮定しています。
また上記の内容は、答えありきのデータを使用して学習するという事で
教師あり学習として広く知られています。
そして今回からは、教師なし学習を学びます。
従属変数の値がないモデルを適合させる方法です。
それではいつも通り、パッケージをインポートしていきましょう。
ラベルなしデータ(Unlabeled Data)
ラベルなしデータとは、従属変数の値がわからないデータで
予想よりも頻繁に発生する可能性があります。
データにラベルを付けられない、いくつかの理由があります。
1.データが不適切に収集された場合(欠落または不正確なラベル)
2.データにラベルはないが、パターンが見つかる可能性がある場合
3.データには基礎となるパターンがあるが、これまでに遭遇したことがない為
注釈をつける事が難しい場合
いずれの理由でも、ラベルなしデータを処理および分析する方法を見つける必要があります。
今回は短いですが、ここで一区切りしようと思います。
次回以降はクラスタリング・PDA等を見ていく予定なので、盛沢山ですよ~!
ちなみに、今後データサイエンスを通じて、転職やキャリアップを考えている方に
ぜひ検討してみてほしいのがこちらです!
↓↓データミックス
かなり口コミもよさげで、講師陣も現役バリバリの人ばかりみたいです。
気になる方は、このデータミックスが提供しているコースの
メリットデメリット等も解説してみたので、併せてこの記事も参考にしてみてください^^
↓↓
machinelearningforbeginner.hatenablog.com
それでは最後まで読んで頂きありがとうございました~^^