【機械学習】教師なし学習-KMeans・ラベルなしデータ

こんにちは！EMです^^

今日からは教師なし学習について解説していきたいと思います！

機械学習に興味がある方なら、一度は聞いたことのある単語ではないでしょうか。

さっそく教師なし学習とはなにか、どうやって使うのかを見ていきましょう！

教師なし学習-KMeans

すべての統計と機械学習モデリングは、独立変数（観測値または特徴のセット）と
従属変数（結果）を持つデータに基づいています。

独立変数が従属変数を生じさせるある程度の出てきた効果を
私たちはゴールとして言い換えることができますが
この効果をどのようにモデル化して理解していくのでしょうか？

これまで、従属変数がどのように見えるか、それが取ることができる値の範囲
モデルを適合させるデータ（トレーニングセット）にどのような値がかかるかを
既に理解できているものだという前提を仮定しています。

また上記の内容は、答えありきのデータを使用して学習するという事で
教師あり学習として広く知られています。

そして今回からは、教師なし学習を学びます。

従属変数の値がないモデルを適合させる方法です。

それではいつも通り、パッケージをインポートしていきましょう。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn as sk

from sklearn.metrics import accuracy_score
from sklearn import model_selection, metrics, linear_model, datasets, 
　　　　　　　　　　　feature_selection
 
 
 
ラベルなしデータ（Unlabeled Data）

ラベルなしデータとは、従属変数の値がわからないデータで
予想よりも頻繁に発生する可能性があります。
データにラベルを付けられない、いくつかの理由があります。
 
１．データが不適切に収集された場合（欠落または不正確なラベル）
２．データにラベルはないが、パターンが見つかる可能性がある場合
３．データには基礎となるパターンがあるが、これまでに遭遇したことがない為
　　注釈をつける事が難しい場合

いずれの理由でも、ラベルなしデータを処理および分析する方法を見つける必要があります。
 
 
今回は短いですが、ここで一区切りしようと思います。
次回以降はクラスタリング・PDA等を見ていく予定なので、盛沢山ですよ～！
 
ちなみに、今後データサイエンスを通じて、転職やキャリアップを考えている方に
ぜひ検討してみてほしいのがこちらです！
 
 ↓↓データミックス

かなり口コミもよさげで、講師陣も現役バリバリの人ばかりみたいです。
 
気になる方は、このデータミックスが提供しているコースの
メリットデメリット等も解説してみたので、併せてこの記事も参考にしてみてください^^
 ↓↓
machinelearningforbeginner.hatenablog.com
 
 
 
それでは最後まで読んで頂きありがとうございました～^^