クラスタリング②　～KMeansアルゴリズム～

こんにちは！EMです^^

前回の続きになる、クラスタリング関連について
今回も取り上げていきたいと思います！

その中でも、KMeansアルゴリズムについて、勉強していきましょう。

KMeansアルゴリズム（The KMeans algorithm）

教師なしクラスタリングで最初に見るアルゴリズムは
KMeansアルゴリズムです。

アルゴリズム自体は sklearn.clusterの中にあります。

（参考になるドキュメントについては、こちらのURLをご覧ください。
http：//scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html）

注目したいパラメーターは、クラスターの数n_clustersです。

デフォルト値は8に設定されています。

KMeansの使い方は、Scikit-Learn内の他のモデルを実行するのと同じです。

モデルを構築し、データに適合させてから、見えないデータを予測します。

データポイントでのモデルの予測はそのポイントが属すると思われるクラスターです。

まずラベルなしの前回の例を使って見てみましょう。

points_per_class = 100

#４つのクラスタリングを作っていきます.
mean = [5,5]
cov = [[1,0],[0,1]]
x_one = np.random.multivariate_normal(mean, cov, (points_per_class))
y_one = np.full*1
y_two = np.full*2
y_three = np.full*3
y_three = np.full*4
y_four = np.full((points_per_class),0)

X = np.concatenate((x_one,x_two,x_three,x_four),axis=0)
Y = np.concatenate((y_one,y_two,y_three,y_four),axis=0)

#Plot the data
plt.scatter(X[:, 0], X[:, 1], c=Y, s=20, edgecolor='k')

plt.show()
 
次にKMeansモデルを適合させましょう。
この場合、4つのクラスタリングに分けるのが妥当だといえるので４つと指定します。
 
from sklearn.cluster import KMeans

#モデルを特定し、数を指定する
k_means_model = KMeans(n_clusters = 4)
#データにモデルを当てはめる
k_means_model.fit(X);
 
それでは、データポイントの各々のグループの予測を行います。
 
Y = k_means_model.predict(X)
#Plot the data:
plt.scatter(X[:, 0], X[:, 1], c=Y, s=20, edgecolor='k')
plt.show()
 
これはかなり自然に色分けされたクラスタリングでしょう。
ぜひもっと複雑な例でも、実際にクラスタリングが動くがどうか試してみてください。
 
クラスタリングは、ビジネスの場面でもよく使われます！
もう少しだけクラスタリングについては、次回も取り上げようと思いますが
もっと実践に近い内容を学びたい！という方には、めちゃくちゃこのコースが体系的でおススメです。
 
 ↓↓
 
これは、実践のビジネスの場でデータを使えるように指導してくれる、社会人の為の講座です！ 
ぜひサイトや無料説明会等で情報を見てみてくださいね^^
 
また詳しくは簡単にメリットデメリット等もまとめているので
よかったら下の記事も参考にしてください^^
 
machinelearningforbeginner.hatenablog.com
 
最後まで読んで頂きありがとうございました。