Bölümleme metotları (partitioning methods)

3. KÜMELEME ANALİZİ

3.7. Kümeleme Metotları

3.7.1. Bölümleme metotları (partitioning methods)

Bölümleme metotlar (partitioning methods), n adet nesneden oluşan veritabanını, giriş parametresi olarak belirlenen k adet bölüme (k ≤ n) ayırma esasına dayanır. Bu ayrılan her bölüm kümeyi ifade eder.

3.7.1.1 K-medoids algoritması

Çok yüksek değerdeki nesneler küme dağılımını olumsuz yönde etkiler. KM algoritmasında değeri çok büyük olan nesne, dahil olacağı kümenin ortalamasını ve merkez noktasını büyük derecede değiştirebilir. Bu sorunu gidermek amacıyla ortaya çıkan k-medoids algoritması ortaya atılmıştır. K-medoids algoritması, kümeyi temsil edecek noktayı bulmak için küme elemanlarının ortalamasını almak yerine medoid’ i kullanır. Medoid, küme içinde en merkeze yerleşmiş olan nesnedir. K-medoids kümeleme algoritmasının başlıca stratejisi ilk olarak n adet nesne içinde, merkezi temsili bir medoid olan k adet küme bulmaktır. Geriye kalan nesneler kendilerine en yakın olan medoide bulunduğu k adet kümeye yerleştirilirler. Bu stratejide iteratif olarak medoid olmayan nesnelerden biri ile medoid olan nesnelerden biri yer değiştirir. Bu şekilde kümenin ortasına en yakın olan nesne bulunmaya çalışılır. Bu işlem en verimli medoid bulunana kadar devam eder. Sonuçlanan kümelemenin kalitesi, nesne ve nesnenin bulunduğu kümenin medoid’ i arasındaki ortalama benzersizliğini (average dissimilarity) ölçen maliyet fonksiyonu kullanılarak tahmin edilir.

Şekil 3.8: K-medoids yöntemi ile kümeleme örneği [37].

Şekil 3.8’ te Oi ve Oj iki ayrı kümenin medoidlerini, Orastgele rastgele seçilen ve

medoid adayı olan bir nesneyi, p ise medoid olamayan bir nesneyi temsil etmektedir. Şekil 3.8 Orastgele‘ nin, şu anda medoid olan Oj’ nin yerine geçip, yeni medoid olup

olmayacağını dört durumu göz önüne alınarak karar verilmektedir[37].

a) p nesnesi şu anda Ojmedoidine bağlıdır (Oj medoidinin bulunduğu kümededir).

Eğer Oj, Orastgele ile yer değiştirir ve p Oi' ye en yakınsa(i ≠ j), p nesnesi Oi' ye

geçer.

b) p nesnesi şu anda O_j medoidine bağlıdır. Eğer O_j, O_rastgele ile yer değistirir ve p Orastgele’ ye en yakınsa, p nesnesi Orastgele' ye geçer.

c) p nesnesi şu anda O_i medoidine bağlıdır(i ≠ j). Eğer Oj, Orastgele ile yer değistirir

ve p hala Orastgele' ye en yakınsa, p nesnesi yine Oi' ye bağlı kalır.

d) p nesnesi şu anda Oi medoidine bağlıdır(i ≠ j). Eğer Oj, Orastgele ile yer değiştirir

ve p Orastgele‘ ye en yakınsa, p nesnesi Orastgele' ye geçer.

K-medoids algoritmasının birçok farklı türevi vardır. PAM (Partitioning Around Medoids) ilk olarak ortaya atılan K-medoids algoritmasıdır. PAM öncelikle rastgele seçtiği k adet nesneyi başlangıç medoid’ leri olarak ele alır. Kümeye her yeni eleman

katıldığında kümenin elemanlarını deneyerek kümenin gelişmesine en fazla katkıda bulanan noktayı bulunca bu noktayı yeni medoid, eski medoid de normal bir nokta olacak şekilde yer değiştirir. PAM küçük veri kümeleri için iyi sonuçlar verirken büyük veri kümeleri için hesaplanabilir karmaşıklığı yüksek olduğundan iyi sonuçlar vermez. Büyük veritabanları için CLARANS algoritması geliştirilmiştir [37].

K-medoids algoritması gürültü ve aykırı değerlere KM algoritmasından daha dayanıklıdır. K-medoids algoritmasının çalışması KM algoritmasından daha maliyetlidir. Her iki algoritma da kümelerin sayısını ifade eden k değerini kullanıcının belirtmesine ihtiyaç duyar [37].

3.7.1.2 Beklenen eniyileme (gaussian expectation maximization)

Beklenen eniyileme (EM-Expectation Maximization) algoritması yaygın olarak kullanılan bölümleme algoritmalarının bir çeşidi olan merkez tabanlı kümeleme algoritmalarından biridir. EM algoritması, özellikle olasılık modellerindeki parametrelerin maksimum olasılık tahminlerini bulmak için istatistikte kullanılır. EM algoritması bilinmeyen verinin varlığında parametrelerin tahmininde kullanılır. EM algoritmasının amaç fonksiyonu aşağıda verilmiştir [26]:

GEM(X,C)=

∑

(

)

( )

= =         − n i k j j j i c pc x p 1 1 log (3.12)

Denklemdeki X, veri noktalarını içinde barındıran kümedir. C, merkez noktalarını

içinde barındıran kümedir. n, veri kümesi içindeki noktaların sayısıdır. K, oluşturulacak olan küme sayısıdır. P(xicj), cj’ nin olasılığıdır. P(cj), önceki cj

merkezinin olasılığıdır. EM algoritması aşağıdaki gibi yumuşak üyelik fonksiyonuna sahiptir [26]: m

(

)

(

)

( )

i j j i i j GEM x p c p c x p x c = (3.13)

EM algoritması aşağıdaki gibi sabit ağırlık fonksiyonuna sahiptir. Ağırlık fonksiyonu, bütün veri noktalarına eşit önemi verir. Ağırlık fonksiyonu w_GEM

( )

x_i ile

p(x_i) aynı değildir [26].

wGEM

( )

xi =1 (3.14) EM algoritması yinemeli bir algoritma olup iki aşamadan oluşmaktadır. Algoritma başlangıç parametrelerinin tahmini ile başlar. Sonra beklenti adımına (expectation step), bilinen veri değerlerinin bilinmeyen veriden beklenen değerlerin hesaplanmasında başvurulur. Daha sonra eniyileme (maximization step) adımı geçilir. Bu adımda, verinin bilinen ve beklenen değerleri yeni tahmini parametrelerin yaratılmasında kullanılır. Bu iki adım yakınsama gerçekleşinceye kadar devam eder. EM algoritması parametrelerin başlangıç tahminlerine duyarlıdır. EM algoritmasında kümelerin sayısının kullanıcı tarafından belirtilmesine ihtiyaç duyulmaktadır [45].

3.7.1.3 CLARA ve CLARANS algoritmaları

Küçük ölçekli veritabanlarında PAM adındaki k-medoids algoritması kullanılmaktadır. Fakat büyük veritabanlarında bu algoritmanın performansı iyi değildir. Bu nedenle büyük ölçekli veritabanları için CLARA (Clustering LARge Applications) algoritması geliştirilmiştir. CLARA algoritması örnek tabanlı bir metottur(sampling-based method). CLARA algoritması bütün veri kümesini almak yerine, veri kümesinin küçük bir kısmını verinin temsili olarak seçer. CLARA veritabanında birden çok örnek(sample) seçer. Her bir örnek üzerine PAM uygular ve en iyi sonucu veren örnekten elde ettiği PAM sonucunu çıktı olarak verir [37].

CLARA geniş veri kümeleri üzerinde PAM’den daha iyi çalışır. CLARA’nın her bir iterasyonda karmaşıklığı O(ks2_{+k(n-k))’ dır. s örnek boyutunu, k kümelerin sayısını}

ve n nesnelerin toplam sayısını ifade eder. CLARA metodunun etkisi ve kalitesi, boyuta ve rasgele seçilen verilerin ne kadar iyi seçildiğine bağlıdır. PAM verilen veri kümesi arasındaki en iyi k medoidlerinin araştırırken CLARA veri kümesinin seçilen örneği arasındaki en iyi k medoidlerini araştırır. Herhangi örneklenmiş medoid en iyi

k medoidleri arasında değilse CLARA en iyi kümelemeyi bulamaz. Örneğin Oi nesnesi en iyi medoidlerin içindeki medoidlerden biri ise ve örnekleme boyunca bu medoid seçilmezse CLARA en iyi kümelemeyi asla bulamayacaktır [37].

CLARA’ nın ölçeklenirliğini ve kalitesini geliştirmek için CLARANS (CLustering Algorithm based on RANdomized Search) adındaki k-medoids algoritması ortaya atılmıştır. CLARANS PAM ile örnekleme tekniğini birleştirir. CLARA aramanın her bir evresinde sabit bir örnek kullanırken CLARANS her aşamada değişen örnekleri kullanılır [37].

CLARANS, CLARA ve PAM’ den daha etkili olarak çalışmaktadır. CLARANS aykırı değerleri bulmayı sağlar. CLARANS algoritmasının hesapsal karmaşıklığı O(n2_{)’ dir. n nesnelerin sayısını ifade ettiğinde, veri sayısı arttıkça hesaplama gücü}

üstel olarak artar [37].

Belgede Merkez tabanlı kümeleme algoritmalarının karşılaştırılması (sayfa 70-74)