您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

尋找KMeans的最優K

　　K-Means聚類算法是最為經典的，同時也是使用最為廣泛的一種基於劃分的聚類算法，它屬於基於距離的無監督聚類算法。KMeans算法簡單實用，在機器學習算法中占有重要的地位。對於KMeans算法而言，如何確定K值，確實讓人頭疼的事情。

最近這幾天一直忙於構建公司的推薦引擎。對用戶群體的分類，要使用KMeans聚類算法，就研究了一下。

探索K的選擇

　　對數據進行分析之前，采用一些探索性分析手段還是很有必要的。

　　對於高維空間，我們可以采用降維的方式，把多維向量轉化為二維向量。好在，R語言包裡提供了具體的實現，MDS是個比較好的方式。

多維標度分析(MDS)是一種將多維空間的研究對象簡化到低維空間進行定位、分析和歸類，同時又保留對象間原始關系的數據分析方法。R語言包提供了經典MDS和非度量MDS。

　　通過MDS對數據進行處理後，采用ggplot繪出點圖，看看數據分布的情況，使得我們對要聚類的數據有個直觀的認識。

SSE和Silhouette Coefficient系數

　　我們還可以通過SSE和Silhouette Coefficient系數的方法評估最優K。譬如對K從1到15計算不同的聚類的SSE，由於kmeans算法中的隨機因數，每次結果都不一樣，為了減少時間結果的偶然性，對於每個k值，都重復運行50次，求出平均的SSE，最後繪制出SSE曲線。Silhouette Coefficient也采用同樣做法。

　　　　　　　　　　　　　　SSE結果

　　　　　　　　　　　　　　Silhouette Coefficient結果

　　　　從上圖來看，8和9明顯有一個尖峰。我們大體可以確定K的數目是8。值得注意在有些時候，這種方法有可能無效，但仍然不失為一個很好的方法。

DB INDEX准則

　　DB INdex准則全稱Davies Bouldin index 。類內離散度和類間聚類常被用來判斷聚類的有效性，DB INdex准則同時使用了類間聚類和類內離散度。通過計算這個指數，來確定到底哪個Cluster最合理

R語言代碼如下：

 1 data <- read.csv("a.csv", header = T,
 2 
 3     stringsAsFactors = F)
 4 DB_index <- function(x, cl, k) {
 5     data <- split.data.frame(x, cl$cluster)
 6     # 計算類內離散度
 7 
 8     S <- NULL
 9     for (i in 1:k) {
10         S[i] <- sum(rowSums((data[[i]] - cl$centers[i])^2))/nrow(data[[i]])
11     }
12 
13     # 計算類間聚類
14 
15     D <- as.matrix(dist(cl$centers))
16 
17     # 計算DB index
18 
19     R <- NULL
20     for (i in 1:k) {
21         R <- c(max((S[i] + S[-i])/D[-i, i]), R)
22     }
23     DB <- sum(R)/k
24     return(DB)
25 }
26 
27 # 循環計算不同聚類數的DB_Index指數
28 
29 DB <- NULL
30 for (i in 2:15) {
31 
32     cl <- kmeans(data, i)
33 
34     DB <- c(DB_index(data, cl, i), DB)
35 
36 }
37 plot(2:15, DB)
38 lines(2:15, DB)

CANOPY算法

　　Canopy聚類最大的特點是不需要事先指定k值(即clustering的個數)，與其他聚類算法相比，Canopy聚類雖然精度較低，但其在速度上有很大優勢。

因此可以使用Canopy聚類先對數據進行“粗”聚類，得到k值後再使用K-means進行進一步“細”聚類。這個算法不多說了，mahout聚類裡有具體實現。

參閱：https://en.wikipedia.org/wiki/Davies-Bouldin_index

上一篇文章： Java中文字符處理的四大迷題
下一篇文章： Python運算符與表達式

Linux編程

C基礎尋找隨機函數的G點

排序算法：查找最小的k個元素

Android內存優化之Bitmap最優加載

OpenCV目標跟蹤_cvGoodFeaturesToTrack()尋找角點

求二叉樹第K層的節點數和二叉樹第K層的葉子節點數，遞歸和非遞歸

尋找數組中前K個最小的數(Kth smallest element)---(堆排序的應用)

OpenCV: 尋找圖像輪廓並繪制

Hadoop之測試KMeans

相關文章

尋找Linux下的網絡鄰居

RedHat Linux 9下快速尋找命令

微軟手握600億美元尋找新發展方向

尋找Nina Reiser的懸賞已增至2萬5千美元

Linux尋找回來的世界

findmnt-尋找掛載的文件系統

Linux sort新用法: sort -k

打印二叉樹中第K層的第M個節點，非遞歸算法

Android 判斷字符串是否為空的最優方法

C++空白基類最優化（EBO或EBCO）

S3C2440的存儲器映射(27根地址線如何尋找1G的地址)

尋找ubuntu下的core dump文件

Linux編程

SHELL編程

PERL編程