Bölümlemeli yöntemler - VERĠ MADENCĠLĠĞĠ MODELLERĠ

4. VERĠ MADENCĠLĠĞĠ MODELLERĠ

4.2 Kümeleme

4.2.3 Bölümlemeli yöntemler

Bölümlemeli yöntemlerde n adet nokta önceden verilen k adet küme sayısına (k<n) göre kümeler ayrılmaktadır. HiyerarĢik yöntemlerden farklı olarak yaratılacak küme sayısı önceden belirlenmektedir. Kullanıcı aynı zamanda algoritmaya kümeler arasındaki maksimum/minimum mesafeyi ve kümelerin iç benzerlik kriterlerini de vermek zorundadır (Giudici, 2004).

Bölümlemeli algoritmalar hiyerarĢik algoritmalardaki gibi benzerlik/uzaklık matrisi kullanmak zorunda olmadıklarından daha hızlı çalıĢmaktadırlar. Bu neden büyük veri tabanlarının kümelenmesinde hiyerarĢik yöntemlere göre daha kolaylık sağlamaktadırlar. Bölümlemeli yöntemlerde bazı kriterler kullanıcı tarafından belirlendiği için birden fazla sonuç elde etmek mümkündür bu nedenle algoritmanın gerçekten en uygun çözümü bulup bulmadığından emin olunamayacaktır. Hangi sonucun en iyi olduğunun anlaĢılabilmesi için algoritmanın değiĢik kriterlerle, dağıtılarak ve sıra ve yerleri değiĢtirilerek tekrar ve tekrar çalıĢtırılması gerekecektir. Çıkan sonuçların da birbiriyle kıyaslanıp en iyi sonucun hangisi olduğuna karar vermek maliyetin çok fazla artmasına neden olacaktır.

K-Ortalama (K-means) Algoritması

K-Ortalama algoritmasında; kümeler sürekli olarak yenilenmekte ve en uygun sonuç elde edilene kadar çalıĢmaktadır. Bölümlemeli algoritmaların tipik özelliklerini taĢımaktadırlar. Ġlk olarak 1967 yılında MacQueen tarafından ortaya atılmıĢtır. K- ortalama algoritması mevcut verileri kümelerin ortalamalarına göre k adet kümeye ayırmaktadır. Ortalama denildiğinde anlaĢılması gereken küme merkezleridir. k küme sayısı kullanıcı tarafından belirlenmektedir. Bir veri tabanının k-ortalama yöntemiyle kümelenmesi ġekil 4.13‟ de yer almaktadır.

Algoritmanın çalıĢma Ģekli aĢağıda yer almaktadır.

1. Adımda keyfi olarak m1, m2……..mk ortalamaları belirlenir.

2. Adımda her bir veri en yakın olduğu mi kümesine atanır.

3. Adımda kümelere ait m1, m2……..mk değerleri yeniden hesaplanır.

4. Adımda küme elemanlarında herhangi bir değiĢiklik yoksa algoritma durur. DeğiĢiklik var ise 5. Adıma devam eder.

ġekil 4.13 : Bir veritabanının k-ortalama yöntemiyle kümelenmesi.

Algoritmanın girdilerini eldeki veri tabanı ve ayrılması gereken küme sayısı, k, oluĢturur. Daha önce de belirtildiği gibi kaç adet küme oluĢturulacağı kullanıcı tarafından belirlenmektedir. Algoritmanın sonucunda da k adet küme elde edilmektedir.

Ortalamalar 4.26‟daki formül kullanarak hesaplanmaktadır.

∑

1 1 nk i ik k k X n m   (4.26)

k kümesindeki eleman sayısını, ise k kümesindeki verilerin değerlerini ifade etmektedirler.

Her bir küme için kare-hata hesaplaması yapılmaktadır. Kare-hata ise küme içerisinde yer alan her bir elemanın, kümenin merkezine olan Öklid uzaklıklarının toplamına eĢittir. Bu hata küme içi değiĢim olarak da adlandırılmaktadır. Küme içi değiĢim hesaplanması 4.27‟de gösterildiği gibi olmaktadır.







   k k k ik i x M e 1 2 2 (4.27)

Bütün kümeler için kare hatanın hesaplanması ise tüm küme içi değiĢimlerin toplamına eĢittir. Formülü 4.28‟de gösterilmektedir.

∑

= = K 1 k 2 k 2 k e E (4.28)

Kare- hata kümeleme yönteminin amacı verilen k değeri için Ek2 değerini minimize eden k kümelerini bulmaktır. Bu durumda her bir iterasyonda 2

E değerinin azalması gerekmektedir. Her bir elde edilen sonucun diğerinden daha iyi olması beklenmektedir.

K-ortalama algoritması yalnızca sayısal verilerde kullanılabilir. K- ortalama algoritmasında bir kümeyi diğerinden ayıran en önemli özellik ortalamalar olduğundan dolayı kategorik verilerde kullanılması anlamsız olmaktadır. Bu algoritma gürültülü ve uçtaki verilerden çok fazla etkilenmektedir.

K-medoids Algoritması

PAM (Partitioning Around Medoids) (Temsilciler etrafında Bölümleme) algoritması olarak da adlandırılan K-medoids algoritması Kaufman ve Rousseeuw tarafından 1990 yılında geliĢtirilmiĢtir. PAM algoritması k adet kümeyi oluĢturmak için seçilen temsilcilerin etrafına ana kümedeki mevcut elemanları toplayarak, her defasında temsilcileri değiĢtirerek kümeleme iĢlemini tamamlamaktadır. PAM algoritmasının temsilci olarak seçtiği nokta medoid olarak adlandırılmaktadır. Temsilci yani medoid seçiminden kastedilen, kümenin merkezine en yakın noktanın belirlenmesidir. K sayıda küme oluĢturulacağı için k sayıda temsilci seçilmektedir. K sayıda temsilcinin seçilmesinden sonra mevcut verilerden temsilciye en çok benzeyen veriler temsilcilerin etrafına toplanmaktadırlar. PAM algoritmasında daha önce anlatılan benzerlik ve uzaklık ölçümlerinin hepsi kullanılabilmektedir. Tercih yapma iĢlemi kullanıcıya bırakılmaktadır. Bir veri tabanının K-medoid yöntemi ile kümelenmesi ġekil 4.14‟ de gösterilmektedir.

ġekil 4.14 : Bir veri tabanının K-medoid yöntemi ile kümelenmesi. Algoritmanın çalıĢma Ģekli aĢağıda yer almaktadır.

1.Adımda k adet temsilci ana veri tabanından rastgele seçilerek elde edilir.

2.Adımda veri tabanındaki temsilci olmayan diğer noktalar kendilerine en çok benzeyen temsilcilerin etrafında toplanır.

4.Adımda temsilci değiĢtirmenin küme kalitesi üzerinde küme kalitesinde oluĢturacağı iyileĢtirme hesaplanmaktadır.

5.Eğer daha performanslı sonuç elde ediliyorsa diğeri yerine yeni medoid bu nesne olur (yer değiĢtirilir) (örneğin a kümesinden bir nesne seçerek b ve a kümeleriyle karĢılaĢtır ve eğer daha kaliteli bir duruma gelecekse yer değiĢtirilir.)

6.Bir değiĢiklik olmayana kadar iterasyona devam edilir.

Yapılan deneysel çalıĢmalar sonucunda PAM algoritmasının 100 nesneli ve 5 ayrı kümeli küçük veri tabanlarında daha iyi çalıĢtığı sonucu elde edilmiĢtir. PAM algoritması gürültülü ve uç verilerden k-ortalama yöntemine göre daha az etkilenmektedir.

CLARA algoritması

CLARA (Clustering Large Applications-GeniĢ Uygulamaların Kümelenmesi) büyük veri tabanlarının daha kısa sürede kümelenmesi amacıyla Kaufman ve Rousseeuew tarafından 1990 yılında geliĢtirilmiĢ bir algoritmadır. PAM algoritmasıyla kıyaslandığında CLARA algoritması daha geniĢ veri tabanlarında daha güvenli çalıĢtığı sonucuna varılmıĢtır. Algoritmanın çalıĢması aĢağıdaki gibi olmaktadır.

1. Adımda bütün veri tabanı taranarak rastgele bir örnek küme elde edilir. 2. Adımda oluĢturulan örnek küme üzerinde PAM algoritması uygulanır. 3. Adımda ana kümeyi oluĢturan veri tabanından bir örnek küme daha seçilir. 4. Adımda bir önceki aĢamada belirlenmiĢ temsilciler kullanılır.

Bu algoritma sayesinde temsilci değiĢimi azalmıĢ, algoritma daha hızlı bir Ģekilde iĢlenmiĢ ve bu durumun sonucu olarak daha kaliteli sonuçlar elde edilmiĢ olacaktır. CLARANS Algoritması

CLARANS (Clustering LArge Applicationsa based on randomized search- Rastgele Aramaya Dayalı GeniĢ Uygulamaları Kümeleme) Algoritması PAM ve CLARA algoritmalarının geliĢmiĢ halidir. CLARANS algoritması veri tabanının temsilciler aracılığıyla ve bir Ģebeke diyagramından yararlanılarak k adet kümeye ayrılması olarak tanımlanmaktadır.

Yoğunluğa Dayalı Algoritmalar

Farklı Ģekillerdeki kümeleri belirlemek için yoğunluğa dayalı algoritmalar geliĢtirilmiĢtir. Bu tarz Ģekillerdeki kümelemenin mesafe ölçümüyle yapılması mümkün olmamaktadır ve bu tür kümelerdeki uç verilerin de ayıklanması gerekmektedir. Bu tarz durumlarda kümeleme iĢlemi yoğunluğa dayalı olarak yapılabilmektedir. Yoğunluktan kast edilen, analiz edilen nesnelerin sayısıdır. Genel olarak yapılan Ģey bir arada yoğunluk oluĢturan verileri küme olarak kabul etmektir. Yoğunluğa dayalı algoritmalara örnek olarak DBSCAN, OPTICS ve DENCLUE algoritmaları verilebilir.

DBSCAN algoritmasında veriler 3 grupta toplamaktadır. Çekirdek noktalar yoğunluk-tabanlı kümenin içersinde yer alan noktalar olarak tanımlanmaktadır. Kenar noktalar ise çekirdek nokta değildir ancak çekirdek noktaların komĢuluk alanları içersinde yer alırlar. Gürültü noktalar ise Çekirdek nokta kümesine de kenar nokta kümesine de girmeyen noktalar gürültü noktalardır. DBSCAN algoritması Ģöyle açıklanabilir: birbirine yeteri kadar yakınlıkta olan iki çekirdek nokta aynı kümeye konur. Aynı Ģekilde çekirdek noktaya yeteri kadar yakınlıkta olan bir kenar nokta çekirdek noktayla aynı kümeye yerleĢtirilir. YerleĢtirme iĢleminde bir kenar noktanın baĢka bir kümedeki çekirdek noktaya olan uzaklığı da dikkate alınmalıdır. Son aĢamada gürültülü noktalar çıkartılır.

OPTICS (Ordering Points to Identfying Clustering Structure) algoritması küme sayısının önceden belirlenmesi gibi kullanıcının belirlediği parametrelerle ilgili olumsuzluğu ortadan kaldırmak için geliĢtirilmiĢ bir algoritmadır.

DENCLUE algoritması (Density Based Clustering), veri tabanında bulunan noktaların etki fonksiyonlarının toplamından yararlanılarak elde edilen genel bir yoğunluk fonksiyonunun, yerel maksimumlarının kullanılmasıyla yoğunluğa dayalı bir kümeleme gerçekleĢtirilir. DENCLUE algoritması temel olarak 3 adımdan oluĢmaktadır. Ġlk adımda her bir noktanın kendi çevresi kapmasındaki etki fonksiyonu hesaplanır. 2. adımda bu fonksiyonların toplamı hesaplanır, elde edilen toplam fonksiyon veri tabanının genel yoğunluğunu verir. 3. adımda ise kümeler matematiksel olarak yoğunluk çekicileri (yerel maksimumlar) yardımıyla tespit edilir (Silahtaroğlu, 2008).

Belgede Hizmet Sektöründe Bir Veri Madenciliği Uygulaması (sayfa 90-95)