クラスタリング② ~KMeansアルゴリズム~
こんにちは!EMです^^
前回の続きになる、クラスタリング関連について
今回も取り上げていきたいと思います!
その中でも、KMeansアルゴリズムについて、勉強していきましょう。
KMeansアルゴリズム(The KMeans algorithm)
教師なしクラスタリングで最初に見るアルゴリズムは
KMeansアルゴリズムです。
アルゴリズム自体は sklearn.cluster
の中にあります。
(参考になるドキュメントについては、こちらのURLをご覧ください。
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)
注目したいパラメーターは、クラスターの数n_clusters
です。
デフォルト値は8に設定されています。
KMeansの使い方は、Scikit-Learn内の他のモデルを実行するのと同じです。
モデルを構築し、データに適合させてから、見えないデータを予測します。
データポイントでのモデルの予測はそのポイントが属すると思われるクラスターです。
まずラベルなしの前回の例を使って見てみましょう。
次にKMeansモデルを適合させましょう。
この場合、4つのクラスタリングに分けるのが妥当だといえるので4つと指定します。
これはかなり自然に色分けされたクラスタリングでしょう。
ぜひもっと複雑な例でも、実際にクラスタリングが動くがどうか試してみてください。
クラスタリングは、ビジネスの場面でもよく使われます!
もう少しだけクラスタリングについては、次回も取り上げようと思いますが
もっと実践に近い内容を学びたい!という方には、めちゃくちゃこのコースが体系的でおススメです。
よかったら下の記事も参考にしてください^^
*1:points_per_class),0)
*2:points_per_class),0)
*3:points_per_class),1)
*4:points_per_class),0)