Kmeansに関する豆知識②
こんにちは!EMです^^
日本ではもう桜の時期みたいですね。
今年は比較的暖冬でしたが、それでも春が待ち遠しいです。
さて、さっそく前回の続きを学んでみましょう!
machinelearningforbeginner.hatenablog.com
今回もいくつかの項目に分けて、知ってて得する豆知識を解説していきます!
目に見えないデータとKMeansのポイントは?
前回、KMeansが適合したデータに対して何を予測したかを視覚化しました。
KMeansに目に見えないデータを与えるとどうなるでしょうか?
これはテストセットに似ているように見えますが、全く同じではありません。
テストセットでは、モデルが新しいデータにどのように一般化されるかを
スコアリングします。
しかしKMeansでは新しいデータを、検出されたクラスターのどれに
新しいデータが属しているかを確認しようとします。
※Irisデータとは花(アメヤ)を扱った有名なデータセットです
まず、何個のクラスターを作るか決めていきましょう。
どちらのクラスタリングも妥当であるようにみえますが
実際のIrisラベルを見ると、3つのグループのクラスタリングが非常に優れていると言えるでしょう。
これで、新しい花や、他のデータを見つけて分類したい場合
このモデルを使用して、検出されたクラスターの1つに新しいポイントを割り当てることができます。
なぜこれらの新しいデータポイントをクラスター化したいのでしょうか?
なぜ古いデータポイントをクラスター化したいのでしょうか?
同様のデータポイントを持つグループにデータを配置する機能は非常に便利です。
- データラベルが不足している場合、これは分類の為の良い代わりの手段として
役立ちます。 - データを割り当てて、「自然な」クラスターをつくると
これらのクラスターを使ってモデルを導く事ができます。
たとえば、小売店の顧客をクラスタリングしている場合
1つのクラスターが買い物量が多い客を表し、別のクラスターに新しい要素が
含まれていることがわかります。
こうする事で、マーケティングのパターンを見つけることができます。 - クラスタリングを使用して、他のアルゴリズムの機能をつくることができます。(これはかなり高度なトピックです)
いかがだったでしょうか?
クラスターについては、ビジネスの場面でも使い道がたくさんありそうですよね。
それでは今日はここまでにします。
最後に皆様に2点、朗報です!
IT関連で働きたいけど、未経験の方!
スキルアップしながら、学校にいくお金を節約+お給料をもらえる仕事を紹介してくれる
夢のようなサイトがあります。
それが「IT求人ナビ」です!
↓↓
今後、エンジニアやWEBデザイナー等でキャリアを築こうとしている方
IT求人ナビの就職のプロが相談にのってくれるので
企業の実態の話を聞けたり、ブラック企業を避ける事ができるという点でも
今後の参考になると思います!
もう一つは、すでに別の仕事をしている社会人の方のコースです。
もし、もっと効率よく、実践のビジネスの場に繋げられる様に、まず勉強に専念したい!という方に
おススメの講座を見つけたので、気になる方はぜひ無料説明会を通じてみてみてください!!
↓↓
データミックスでは、様々なケーススタディ等を通じて、未経験からでも
6か月でデータサイエンティストを目指せるコースや、基礎固めのコースなど
データ分析の内容を中心に、様々なプログラムを開講しています!
もしサクッと情報を収集したいという方は、このコースについて
メリットデメリットをまとめた記事もあるので、そちらも参考にしてみてください。
machinelearningforbeginner.hatenablog.com
最後まで読んで頂きありがとうございました^^