Review of My Life: K-meansでクラスタ分析をRでやってみる　【データサイエンス養成読本】

2017-08-21

K-meansでクラスタ分析をRでやってみる　【データサイエンス養成読本】

2017-08-21

今日はK-meansまでRでやってみる。

データサイエンティスト養成読本の続きからですね。

改訂2版データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく！]

posted with amazlet at 17.08.21

技術評論社 (2016-08-25)
売り上げランキング: 32,403

Amazon.co.jpで詳細を見る

K-means (P40～)

そもそもK-meansとは何かよくわからなかったので、しらべてみた。

・非階層型クラスタリングのアルゴリズム
・最適化問題を解くアルゴリズム

らしい。

K-means(wiki)

・非階層型クラスタリングのアルゴリズム
・最適化問題を解くアルゴリズムhttps://t.co/iG8ZAGUGO3 pic.twitter.com/zsbSHdXc5c
— DAI (@never_be_a_pm) August 21, 2017

K-meansがやっていることはこんな感じらしいhttps://t.co/B6zixcT2tR pic.twitter.com/WRPT9PdwrA
— DAI (@never_be_a_pm) August 21, 2017

さっそくコードを書いてみると。とりあえずk-meansでクラスタに分けて、プロットするまでやってみる。

#k-means
data <- state.x77 #州データを代入
pca <- prcomp(data[,1:6], scale = T)
nrow(data) #列の数を算出
head(data) #うえから6つのデータを取得
km <- kmeans(scale(data[,1:6]),3) #3つにクラスタがわかれることを想定
#主成分分析の結果にクラスターの情報を付与する
df <- data.frame(pca$x)
df$name <- rownames(df)
df$cluster <- as.factor(km$cluster)
#描画
ggplot(df, aes(x=PC1,y=PC2,label=name,col=cluster)) + geom_text() + theme_bw(16)

そうすると結果がこんな感じになる。

クラスタをプロット（ソースコードも添付） pic.twitter.com/xlEDKSd55S
— DAI (@never_be_a_pm) August 21, 2017

さて、これを今度はレーダーチャートに変換する。

#レーダーチャート
install.packages("fmsb")
library(fmsb)
df <- as.data.frame(scale(km$centers))
dfmax <- apply(df,2,max) + 1
dfmin <- apply(df,2,min) - 1
df <- rbind(dfmax,dfmin,df)
#レーダーチャートを描画
radarchart(df,seg=5,plty=1,pcol=rainbow(3))
legend("topright",legend=1:3,col=rainbow(3),lty=1)

結果的にはこんな感じになる。

主成分分析→K-means→レーダーチャート
こんな感じになるんだね。 pic.twitter.com/wXIZGi2t4Y
— DAI (@never_be_a_pm) August 21, 2017

改訂2版データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく！]

posted with amazlet at 17.08.21

技術評論社 (2016-08-25)
売り上げランキング: 32,403

Amazon.co.jpで詳細を見る

Review of My Life

2017-08-21

K-meansでクラスタ分析をRでやってみる　【データサイエンス養成読本】

K-means (P40～)

注目の投稿

FOLLOW

この記事もよく読まれています

2017-08-21

K-meansでクラスタ分析をRでやってみる 【データサイエンス養成読本】

K-means (P40～)

注目の投稿

K-meansでクラスタ分析をRでやってみる　【データサイエンス養成読本】