Ayrıştırıcı Hiyerarşik Kümeleme Algoritmaları (divisive hierarchical clustering: DIANA)

2. GENEL BİLGİLER

2.1. Veri Madenciliği ve Kümeleme Analiz

2.1.1. Hiyerarşik Kümeleme Algoritmaları

2.1.1.2. Ayrıştırıcı Hiyerarşik Kümeleme Algoritmaları (divisive hierarchical clustering: DIANA)

DIANA (Divisive Analysis) ilk olarak 1990 yılında Kaufman ve Rousseuw tarafından sunulmuştur. Birleştirici kümeleme algoritmalarının tersine yukarıdan aşağıya doğru bir yapısı vardır. Yani ilk başta tüm nesneler tek bir küme olarak kabul edilir. Daha sonra her bir nesne kendi içinde bir küme oluncaya kadar işlemlere devam edilir. Bu işlem her nesne kendi başına bir küme oluşturana kadar veya belli bir sonlandırma koşulu sağlanana kadar devam eder. Sonlandırma koşulu istenen sayıda küme elde edilmesi veya en yakın iki küme arasındaki uzaklığın verilen eşik değerin üzerinde olması sağlanır12,42,45,46_.

Birleştirici kümeleme algoritmalarına benzer olarak ayrıştırıcı hiyerarşik kümeleme algoritmalarının da sunumu ve yorumlamasının kolay olmasına rağmen yanlış küme seçimi hatalara sebep olmaktadır. Yöntem çok büyük sayıda veri içeren ve uç değerleri olan çalışmalar için başarılı sonuçlar vermemektedir.

Ayrıştıcı kümeleme algoritmaları monotetik ve politetik olmak üzere iki ana alt başlık altında incelenmektedir.

2.1.1.2.1. Monotetik Ayrıştırıcı Kümeleme Algoritması

Bu kümeleme algoritması 1990 yılında Kaufman ve Rousseeuw tarafından sunulmuştur. Bu yöntemde her bir bölünme tek bir değişkene dayanmaktadır. Ancak diğer birçok hiyerarşik

yöntemler tüm değişkenleri birlikte kullandığı için politetiktir. Monotetik kümeleme algoritması büyük bir kümeden başlayarak kümelerin bir hiyerarşisini kurmaktadır. Aynı kümedeki tüm gözlemler tüm değişkenler için aynı değere sahip olana kadar kümeler bölünmektedir. Her bir aşamada, tüm kümeler tek bir değişkenin değerlerine göre ayrılmaktadır. Bir küme tüm gözlem değerleri 1’i içeren gözlemlerden oluşurken, diğer küme tim gözlem değerleri 0’ı içeren gözlemlerden oluşmaktadır. İkili özellikteki veri tipleri için kullanılmaktadır. Yöntem kayıp veri olduğunda çalışmamaktadır. Dolayısıyla kayıp verinin varlığı durumunda uygun veri kayıp değerlendirme yöntemleri kullanılarak kayıp veriler doldurulur ardından yöntemin uygulaması gerçekleştirilmelidir. 46

Monotetik kümeleme algoritması ikili değişkenler içeren veri matrisleri üzerinde çalışmaktadır. Yöntemde ilk olarak ikili veri matrisindeki tüm kayıp değerler tahmin edilen değerler ile yer değiştirir. 𝑥𝑖𝑓’nin kayıp olduğunu varsayın, o zaman başka bir değişken düşünülür ve kontenjans tablosu oluşturulur.

Tablo 2.1.1.2.1.1. Kontenjans tablosu Özellikler g

f 1 0

1 𝑎𝑓𝑔 𝑏𝑓𝑔 0 𝑐𝑓𝑔 𝑑𝑓𝑔

f ile g özellikleri arasındaki ilişki aşağıdaki şekilde tanımlanmaktadır.

𝐴𝑓𝑔 = |𝑎𝑓𝑔𝑑𝑓𝑔− 𝑏𝑓𝑔𝑐𝑓𝑔|

𝑎_𝑓𝑔+𝑑_𝑓𝑔+ 𝑏_𝑓𝑔+ 𝑐_𝑓𝑔 toplamı f özelliğinin kayıp olmayan toplam gözlem sayısını göstermektedir. Her bir g özelliği için 𝐴_𝑓𝑔hesaplandıktan sonra, f özelliğinin maksimum olduğu özelliğinin ilişkileri için t özelliği belirlenir.

𝐴_𝑓𝑡 = 𝑚𝑎𝑥𝐴_𝑓𝑔

t özelliği yardımıyla f kayıp değerleri aşağıdaki şekilde tahmin edilmektedir.

Eğer 𝑎_𝑓𝑔𝑑_𝑓𝑔− 𝑏_𝑓𝑔𝑐_𝑓𝑔>0 ise 𝑥_𝑖𝑓=𝑥_𝑖𝑡 ’dir.

Oluşturulan tamamlanmış veri matrisi ile işlemlere devam edilir 47_{. Monotetik yöntemlerde} yeni gelen bir nesne kolayca sınıflandırılmaktadır 48_.

2.1.1.2.2. Politetik Ayrıştırıcı Kümeleme Algoritması

Yöntem 1964 yılında Macnaughton-Smith ve arkadaşları tarafından geliştiril olup algoritması tüm özelliklerin bilgilerini kullanır. Ayrıca kümeleme için yakınlık matrisi kullanılmasından dolayı bu yöntemler birleştirici yöntemlere benzerdir. Hesaplama hızını artırmak için tüm olası bölünmelere göz önüne almaktan kaçınmaktadır. Grup içinde diğerinden en uzak olan nesneyi bularak işlemlere devam eder. Bir başka ifade ile veri seti ayrılan ve kalan grup olmak üzere iki gruba ayrılır. Geri kalan grubundaki her nesne için, diğer nesneler ile ortalama benzerlikleri hesaplanır ve ayrılan gruptaki nesneler ile ortalama farklılıkları çıkarılır48_.

Hiyerarşik kümeleme yöntemleri hakkında verilen bilgileri Tablo 2.1.1.2.2.1’ deki gibi özetleyebiliriz.

Tablo 2.1.1.2.2.1. Hiyerarşik kümeleme algoritmalarının özet tanımlayıcı özellikleri

Yöntem Özet

Tek Bağlantı

 Birleştirici hiyerarşik kümeleme algoritmasıdır.

 En yakın komşu yöntemi olarak bilinmektedir.

 İki küme arasındaki uzaklık iki kümenin birbirine en yakın gözlemleri arasındaki uzaklıktır.

 Küresel ve farklı boyuttaki kümeler için kullanılabilir.

 Uç değerlere karşı duyarlıdır.

 Kümeler oluştururken dağınık yapıdaki kümeleri oluşturma eğilimindedir.

Tam Bağlantı

 Birleştirici hiyerarşik kümeleme algoritmasıdır.

 En uzak komşu algoritması olarak bilinir

 Küme uzaklıkları olarak birbirine en uzak gözlemler arasındaki uzaklık alnır.

 Uç değerlere karşı daha az duyarlıdır.

 Konveks şekildeki kümeleri bulmak için elverişli değildir.

 Konkav yapıdaki kümeler için uygundur.

Ortalama Bağlantı

 Birleştirici hiyerarşik kümeleme algoritmasıdır.

 İki küme arasındaki uzaklık ayrı gruplarda yer alan gözlem çiftleri arasındaki ortalama uzaklıktır.

 Tek bağlantı ve tam bağlantı teknikleri arasında sonuçlar vermesi nedeniyle bir alternatif yöntem olarak önerilmektedir.

 Düşük varyanslı kümeleri birleştirme eğilimindedir.

vermektedir. Ağırlıklandırılmış

ortalama bağlantı yöntemi

 Birleştirici hiyerarşik kümeleme algoritmasıdır.

 Mc Quitty yöntemi olarak bilinmektedir.

 Her bir birleştirme işleminden sonra yeni oluşan küme ile eski küme arasındaki uzaklıklar birleştirilen iki kümenin

uzaklıklarına bağlı olarak hesaplanır.

Merkez yöntemi

 Birleştirici hiyerarşik kümeleme algoritmasıdır.

 Merkez bağlantı yöntemi en çok kullanılan link fonksiyonlarındandır.

 İki küme arasındaki uzaklık merkezler arasındaki ortalama uzaklıktır.

 Kullanımı basit, anlaşılması ve yorumlanması kolay bir yöntemdir.

 Uç değerlerden az etkilenmektedir.

 Ters dönmeden kaynaklanan (reversal) bir karmaşıklıklık vardır.

Medyan yöntemi

 Birleştirici hiyerarşik kümeleme algoritmasıdır.

 İki küme arasındaki uzaklık bir kümedeki gözlem ile diğer kümedeki gözlem arasındaki medyan uzaklığıdır.

 Uç değerlerden fazla etkilenmemektedir.

 Birleştirilecek kümelere eşit ağırlık verilmektedir.

Ward yöntem

 Birleştirici hiyerarşik kümeleme algoritmasıdır.

 En küçük varyans yöntemi olarak bilinmektedir.

 Kümeleme analizini varyans analizi problemi olarak ele alır.

 Küme içi hata kareler toplamı kullanılmaktadır.

 Küme içinde homojenliği maksimum yapacak şekilde küme içi kareler toplamı minimize eden kümeleri oluşturmaktadır.

 Aynı şekle sahip ve aynı sayıda gözlem içeren kümelerin üretilmesine karşı yanlıdır.

 Uç değerlere karşı da duyarlı bir bağlantı yöntemidir.

 Niceliksel veriler için uygun iken ikili değişkenler için uygun değildir.

Monotetik

kümeleme yöntemi

 Bölücü hiyerarşik kümeleme algoritmasıdır.

 Her bir bölünme tek bir değişkene dayanmaktadır.

 Büyük bir kümeden başlayarak kümelerin bir hiyerarşisini kurulmaktadır.

 Yöntem kayıp veri olduğunda çalışmamaktadır.

 Aynı kümedeki tüm gözlemler tüm değişkenler için aynı değere sahip olana kadar kümeler bölünmektedir.

 İkili değişkenler içeren veri matrisleri üzerinde çalışmaktadır. Politetik kümeleme

yöntemi

 Bölücü hiyerarşik kümeleme algoritmasıdır.

 Tüm değişkenlerin bilgilerini kullanmaktadır.

 Hesaplama hızını artırmak için tüm olası bölünmelere göz önüne almaktan kaçınmaktadır.

2.1.1.2.3. HCAD Kümeleme Algoritması (Hierarchical clutering based on attribute dependency algorithm)

HCAD kümeleme algoritması, değişken bağımlılıklarını dikkate alarak veri setini parçalamaktadır. Algoritma büyük veri setleri için var olan diğer algoritmaların çoğundan daha iyi çalışmaktadır. Hem etiketli hem de etiketsiz veri setleri için uygulanabilmektedir. Önerilen HCAD kümeleme yöntemi, ayrıştırıcı hiyerarşik kümeleme yöntemleri arasındadır. Değişken bağımlılıklarına bağlı olarak veri nesnelerini ayrıştırmaktadır. Değişken bağımlılıkları ise Spearman rank korelasyonu ile hesaplanmaktadır. Bu ölçüm iki değişken arasındaki ilişkinin kuvvetidir. x ve y değişken çiftleri arsındaki korelasyon aşağıdaki formül yardımıyla hesaplanmaktadır49_.

𝑟𝑠=1 − 6𝛴𝐷2 𝑁3_−𝑁

Formülde yer alan D terimi, her bir nesnenin rankları arasındaki fark iken 𝑟_𝑠 rank korelasyonları, N ise toplam nesne sayısıdır. Değişken çiftleri arasındaki korelasyonlar hesaplanmakta ve matris formunda gösterilmektedir ve bu matrise bağımlılık matrisi (R) adı verilir. Bağımlılık matrisinden en yüksek bağımlılık değerine sahip değişkenler ayrıştırma için ele alınmaktadır. Seçilen değişkenler arasındaki eşitlik ilişkisi ile değerlendirilen ayrışmaya karar verilmektedir. Ardından seçilen değişkenler değişken listesinden çıkartılarak herhangi bir ayrıştırma işlemi olmayıncaya kadar işlemlere devam edilmektedir49_.

HCAD kümeleme algoritmasının işlem adımları aşağıda özetlenmiştir.

1. A değişken listesindeki değişken çiftleri için korelasyonlar hesaplanarak R matrisi oluşturulur.

2. R matrisindeki maksimum bağımlılık değerine sahip 𝑎_𝑖 ve 𝑎_𝑗 değişkenleri bulunur. 3. A listesinden 𝑎_𝑖 ve 𝑎_𝑗 değişkenleri silinir.

4. Denklik sınıfı bulunur.

5. Tüm k parçaları elde edilinceye kadar 1’den 4’e kadar işlemlere devam edilir.

HCAD kümeleme algoritmasının aşamaları arasında yer alan eşitlik teriminden bahsedilmiştir. A setinde S’nin eşitlik ilişkisi simetriklik, geçişlilik ve dönüşlülük özellikleri sağlandığında meydana gelmektedir. Sayısal ve karmaşık veriler için kullanılan Mahalanobis uzaklığı hesaplanarak sayısal veriler için eşitlik ilişkisi elde edilebilmektedir. Kategorik verilerde ise diğer diziler ile eşleşen nesneler bulunarak eşitlik ilişkisi hesaplanır. Kümeleme yöntemindeki bölmeler (parçalar) ise eşitlik ilişkine bağlıdır. Örneğin, kategorik bir veride 𝑎_𝑖 değişkeni {yüksek, orta, düşük}, 𝑎_𝑗 ise {evet, hayır} olduğunda en iyi durumda bölme sayısı

{(yüksek, evet), (yüksek, hayır), (orta, evet), (orta, hayır), (düşük, evet), (düşük, hayır)} şeklinde 6 tane olacaktır49_.

Yöntemde kümeleme sonuçları entropi ve saflık (purity) kavramları kullanılarak değerlendirilmektedir. Entropi değeri aşağıdaki formül kullanılarak hesaplanmaktadır.

E(C)=− ∑𝑚_𝑖=1𝑝_𝑖𝑙𝑜𝑔₂𝑝_𝑖

Formülde yer alan 𝑝_𝑖 değeri, i. kümeye ait olan m tane küme için veri nokta olasılıklarıdır. Saflık değeri ise normalleştirilmiş ortak bilgiler kullanılarak, H(c) entropi değeri, 𝑐_𝑗 sınıfına ait olan nesne olasılığı hesaplanarak ve 𝑤𝑖 kümesinde sabitlenerek aşağıdaki şekilde hesaplanmaktadır49_. Saflık(υ.C)= 𝐼(𝜐,𝐶) [𝐻(𝜐)+𝐻(𝐶)/2 I(υ,C)=∑ ∑ 𝑃(𝜔𝑖 ∩ 𝑐𝑗)𝑙𝑜𝑔 𝑝(𝜔𝑖∩𝑐𝑗) 𝑝(𝜔𝑖)𝑝(𝑐𝑗) 𝑗 𝑖

υ={𝜔₁, 𝜔₂, … . , 𝜔_𝑖} kümelerin seti iken C={𝑐₁, 𝑐₂, … . , 𝑐_𝑗} sınıfların setidir.

HCAD kümeleme algoritması, zaman ve hesaplama karmaşıklığı bakımından yoğunluk yöntemlerinden daha avantajlıdır. Yöntemde küme sayıları ile ilgili bir kısıtlama yoktur ve düzensiz kümelerin bulunmasına da katkı sağlamaktadır. Kullanıcı tarafından daha önceden belirlenen merkez veya küme sayısı gibi parametrelerin belirlenmesine ihtiyaç yoktur. Dolayısıyla parametre seçiminde kaynaklanabilecek yanlış seçimlerin oluşması da engellenmektedir49.

2.1.2. Yoğunluğa Dayalı Kümeleme Algoritmaları (density based clustering algorithms)

Belgede Sağlık alanında yapılan araştırmalarda kümeleme algoritmalarının kullanımı: Bir uygulama (sayfa 64-69)