GDILC Kümeleme Algoritması (A Grid-Based Density

2. GENEL BİLGİLER

2.1. Veri Madenciliği ve Kümeleme Analiz

2.1.5. Izgara Tabanlı Kümeleme Algoritmaları (Grid-based clustering algoritms)

2.1.5.11. GDILC Kümeleme Algoritması (A Grid-Based Density–Isoline Clustering Algorithm)

GDILC kümeleme algoritması ilk olarak Yonchang ve Junde tarafından geliştirilmiştir. Bu yöntemde yeni bir düşünce önerilmektedir. Kümeleme işlemleri yoğunluk-isoline (aynı çizgi üzerinde) kullanılarak yapılmaktadır. Algoritmanın uygulanabilmesi için tüm veri örneklerinin normal dağılması gerekmektedir ve tüm değişkenler [0,1] arasında değişen niceliksel değişkenler olmalıdır125_.

Yoğunluk-isoline kullanarak kümeleme işlemleri yapma düşüncesi çevrede var olan şekillerden, yoğunluğa ve ızgaraya dayalı kümeleme algoritmalarından gelmektedir. Bu sayede hangi yükseltinin eşik değerden yüksek olduğuna karar verilebilir. Veri örneklerinin dağılımlarının yoğunluklarından elde edilen yoğunluk-isoline şekili, kümeleri bulmak için kullanılmaktadır. Farklı isoline’lar seçilerek farklı yoğunlukta kümeler oluşturulabilmektedir. Örneğin Şekil 2.1.5.11.1’de eğer yoğunluk isoline değerini 5 olarak seçersek, küme A ve E’yi seçeriz, isoline değeri 4 olarak seçildiğinde ise A, B, C ve E kümeleri elde etmektedir. Ancak

116

eğer yoğunluk değeri ikiden az seçilirse A ve C kümeleri kombine edilerek tek bir küme oluşturur125_.

Şekil 2.1.5.11.1. Yoğunluk-isoline şekli

Yoğunluk-isoline kullanarak kümeleme işleminin yapılabilmesi için her iki veri veri örnek çiftleri arasındaki uzaklıkların ve bu uzaklıklarda türetilen eşik uzaklık değerinin hesaplanması gerekmektedir. Her bir veri çifti, α ve β olacak şekilde, eğer iki değerinde yoğunluğu, yoğunluk eşik değerinden büyük ve birbirleri arasındaki uzaklıklar, uzaklık eşik değerinden küçük ise bu iki veri çifti tek bir kümeyi oluşturabilir. Tüm veri çiftleri kontrol edilene kadar bu şekilde nokta çiftleri kombine edilir125_.

Genişlik eşik değerinden daha küçük genişliğe sahip kümeler gürültülü küme olarak adlandırılır ve bu örnekteki kümelerde yer alan örnekler gürültülü, sapan değer olarak ele alınır126_.

Yoğunluk-isoline kullanarak kümeleme yapmak için bazı parametrelerin tanımlanmasında fayda vardır. X örnek veri seti, n veri örnek sayısı, Dist uzaklık matrisi, RT seçilen komşu bölgenin genişliği, DT yoğunluk eşik değeri ve coefRT ve coefDT ayarlanabilir katsayılar olmak üzere125_.

1. Veri çiftleri arasındaki uzaklıklar hesaplanır ve Dist(i,j)=D(X(i),X(j)) uzaklık matrisi elde edilir.

2. Komşu bölge genişliğine karar verilir.

3. Yoğunluk vektörü hesaplanır. Dist matrisinin her bir satırı için, RT’den küçük olan elementler sayılır. Hesaplanan sayı, satıra karşılık gelen veri örnek yoğunluğunun dağılımıdır. Yoğunluk vektöründen, yoğunluk-isoline şekli elde edilir.

117

4. Yoğunluk vektöründen, yoğunluk eşik değeri DT hesaplanır.

5. Kümeler kombine edilir. Eğer α ve β veri çiftlerinin yoğunlukları, DT’den büyük ve bu iki veri çifti arasındaki uzaklık RT’den küçük ise, iki veride aynı kümeye dâhil edilir. Tüm veri çiftleri ele alınana kadar bu işlemler devam eder. Tüm gözlem çiftleri kontrol edildikten sonra da sonuç kümeleri elde edilir.

Algoritma adımları gerçekleşirken veri çiftleri arasındaki uzaklıkların hesaplanması gerekmektedir. n örnek hacmi olmak üzere bu uzaklıklar n2 kere hesaplanmaktadır ki n çok büyük olduğunda bu oldukça zaman alıcı bir işlem olacaktır. Ayrıca uzayda çok büyük uzaklık matrisleri gerekmektedir. Örneğin, bir uzaklık değerinin saklanması için 2 byte gerekiyorsa, toplam uzay için 2n2_{byte gerekecektir. Eğer n=20000 ise uzayda 800 MB}

olmalıdır126_.

Daha önceden de belirtildiği gibi yoğunluk-isoline’larin kullanılabilmesi için veri çiftleri arasındaki uzaklıkların hesaplanması gerekmektedir ve zaman karmaşıklığı O(N)’dir. Veri örnek sayısı 50000 olduğunda uzaklık değeri 1,25*109_{kere hesaplanır.}

GDILC kümeleme algoritmasında, her bir boyut m tane aralığa bölünür (i=1, 2,…d). Böylece tüm veri örnek uzayı M hiper-dikdörtgenlere parçalanmış olur (M=∏𝑑_𝑖=1𝑚_𝑖). Her bir boyuttaki aralıklar sıfırdan m-1’e kadar numaralandırılır. Her bir hücre, aralık sırası ike etiketlenir. Örneğin, C35 hüccresinde 1 boyutta 3 aralık, 2 boyutta 5 aralık vardır.Ci1, Ci2,…. Cid ve Cj1, Cj2,…. Cjd hücreleri aşağıdaki koşullarda komşudur126.

|ip−jp|≤1, (1≤ 𝑝 ≤ 𝑑)

i1,i2,…,id, Ci1, Ci2,…. Cid hücrelerinin aralık sıra sayısı iken, j1,j2,…,jd Cj1, Cj2,…. Cjd

hücrelerinin aralık sıra sayısıdır.

α örneğinin yoğunluğu hesaplanmak istendiğinde sadece Cα ve komşu hücrelerinin örnekleri

arasındaki uzaklıkları hesaplamak yeterli olacaktır. Diğer hücrelerde yer alan örnekler α gözleminden oldukça uzaktır, bu yüzden α yoğunluğuna hiçbir katkıları bulunmayacaktır. Dolayısıyla α gözlemi için Cα komşuluğunda yer almayan gözlemler dikkate

118

GDILC kümeleme algoritmasının işlem adımları detaylı olarak aşağıda verilmektedir125_.

1. Hücreler başlatılır. Her bir boyut m eşit aralığa bölünür. Tüm veri uzayı md hücre içerisine parçalanmış olur. Her bir veri örneği koordinatlara bağlı olarak ait olduğu hücreye yerleştirilir.

2. Uzaklık eşik değeri RT hesaplanır. Her bir veri örneği için α ve diğer komşu hücre örnekleri arasındaki uzaklıklar hesaplanır. Bu uzaklıklar yardımıyla ortalama uzaklık hesaplanır ve RT uzaklık eşik değeri elde edilir.

3. Yoğunluk vektörü ve yoğunluk eşik değeri DT hesaplanır. Her bir veri örneği için,

α’dan itibaren RT sınırları içerisinde olan noktalar sayılır. Yoğunluk vektöründen

ortalama yoğunluk hesaplanır ve yoğunluk eşik değeri DT hesaplanır.

4. DT yoğunluk eşik değerinden büyük olan yoğunluklara sahip örnek çiftleri, küme olarak ele alınır. Ardından her bir veri örneği α, Cα komşuluğunda yoğunluk eşik

değeri DT’den fazla olan her bir örnek kontrol edilir. Daha sonra ardışık olarak bulunan iki küme birleştirilir. Bu birleştirmeler, bütün örnek çiftleri gözden geçirilinceye kadar devam eder.

5. Gürültülü veriler çıkarılır. Anlamlı kümeler oluşturabilmek için birçok kümenin oldukça küçük olduğu ortaya çıkmaktadır. Belirli bir sayıdan küçük genişliğe sahip kümeler çıkartılır. Böylece GDILC algoritması sapan değerlerin etkisini etkili bir şekilde elimine etmektedir.

Yoğunluk- isoline kümeleri tespit etmek kolay olsa da, yoğunluk-isoline şeklini elde etmek o kadar kolay değildir. Bu şeklin çizimi RT’nin (uzaklık eşik değeri) seçimine bağlıdır. Eğer RT çok küçük seçilirse, her bir örneğin yoğunluğu oldukça küçük olacaktır. Böylece örnek yoğunlukları çok dar bir aralıkta yer alır ve verilerin dağılımının belirlenmesi zorlaşır. RT değeri çok büyük olduğunda ise, verilerin yoğunlukları fazla olacaktır ve yoğunlukların değerleri az değişiklik gösterecektir, elde edilen yoğunluk-isoline şekli veri örneklerinin dağılımını açıklayamayacaktır. Dolayısyla RT değeri min(Dist)<RT<maks(Dist) arasında değişmelidir. Yani RT değeri tüm uzaklıkların en küçüğünden büyük, en büyüğünden de küçük olmalıdır. RT değeri aşağıdaki formül yardımıyla hesaplanmaktadır125_.

RT=𝑚𝑒𝑎𝑛(𝐷𝑖𝑠𝑡) 𝑑−𝑐𝑜𝑒𝑓𝑅𝑇

119

Formülde yer alan Dist, tüm ilgilenilen uzaklıkları içeren bir maris, mean(Dist) ise Dist matrisinde yer alan uzaklıkların ortalamasıdır. D boyut sayısını, coefRT ise ayarlanabilir bir katsayıdır. Kümeleme sonuçları tatmin edici olmadığında, daha iyi sonuçlar elde etmek için bu katsayı değeri değiştirilebilir. coefRT değerinin 20 olduğu durumlarda da kümeleme çalışmalarının iyi sonuç verdiği görülmüştür125_.

Sonuç kümelere DT yoğunluk değerine bakılarak karar verilmektedir. Eğer bu değer küçük ise, komşu kümeler tek bir küme olarak kombine edilmektedir. DT değerinin hesaplanabilmesi için aşağıdaki formülden yararlanılmaktadır125_.

DT={𝑚𝑒𝑎𝑛(𝐷𝑒𝑛𝑠𝑖𝑡𝑦)2 𝑛 < 1000 𝑙𝑜𝑔10(𝑛) ∗ 𝑐𝑜𝑒𝑓𝐷𝑇 𝑛 ≥ 1000

coefDT katsyaısı 0,7 ile 1 arasında değişmektedir. Ancak birçok araştırmadan görüldüğü

üzere bu değer 0,95 olarak ayarlandığında kümeleme sonuçları oldukça başarılı çıkmıştır.

Belgede Sağlık alanında yapılan araştırmalarda kümeleme algoritmalarının kullanımı: Bir uygulama (sayfa 131-135)