HiyeraĢik yöntemler - VERĠ MADENCĠLĠĞĠ MODELLERĠ

4. VERĠ MADENCĠLĠĞĠ MODELLERĠ

4.2 Kümeleme

4.2.2 HiyeraĢik yöntemler

HiyerarĢik kümeleme yöntemleri, kümelerin bir ana küme olarak ele alınması ve sonra aĢamalı olarak içerdiği alt kümelere ayrılması veya ayrı ayrı ele alınan kümelerin aĢamalı olarak bir küme biçiminde birleĢtirilmesi esasına dayanmaktadır (Özkan, 2008). ToplaĢım kümeleme algoritmaları ve bölünür kümeleme algoritmaları olmak üzere ikiye ayrılırlar.

ToplaĢım kümeleme algoritmaları, baĢlangıçta veri tabanındaki her bir noktayı ayrı bir küme olarak düĢünür. Bu kümeleri birleĢtirerek birbirinden ayrı kümeler oluĢturur. Bölünür kümeleme algoritmaları ise baĢlangıçtaki veri tabanındaki tüm noktaları tek bir kümedeymiĢ gibi kabul eder. Veri tabanını taradıkça birbirinden farklı olan noktaları kümeden dıĢarı atarak, önceden belirlenmiĢ k adet kümeye dağıtır. HiyerarĢik kümeleme yönteminde benzerlik ve mesafe ölçütleri kullanılmakta; o neden tüm veri türlerine uygulanmakta kolaylık ve esneklik sağlamaktadır. Mesafe ve benzerlik ölçütlerini ifade etmesi için mesafe/benzerlik matrisi oluĢturmaktadır. Kümeleme analizinde algoritmaların karmaĢıklığını en çok artıran bu benzerlik/mesafe matrisleridir. KarmaĢıklığı azaltmak için algoritmalar genellikle belirli bir eĢik değerinin altındaki değerleri yok sayarlar.

HiyerarĢik kümeleme aĢağıdaki özelliklere sahiptir: - Bir veri tabanını bir kaç kümeye ayrıĢtırır.

- Bu ayrıĢtırma dendogram adı verilen bir ağaç sayesinde yapılır.

- Bu ağaç, yapraklardan gövdeye doğru veya gövdeden yapraklara doğru kurulabilir.

- AĢağıdan-yukarıya yaklaĢım (toplayıcı (agglomerative)) hiyerarĢik kümeleme Ģu Ģekildedir:

- Her bir nesne için farklı bir grup oluĢturarak baĢla,

- Bazı kurallara göre grupları birleĢtir: örn.; merkezler arasındaki uzaklık, - Bir sonlandırma durumuna ulaĢılıncaya kadar devam et.

- Yukarıdan aĢağıya yaklaĢımı (bölücü (divisive)): - Aynı kümedeki bütün nesnelerle baĢla,

- Bir kümeyi daha küçük kümelere böl,

- Bir sonlandırma durumuna ulaĢılıncaya kadar devam et. Slink algoritması ve tek bağlantı tekniği

Slink algoritması tek bağlantı ya da en yakın komĢu tekniğini kullanmaktadır (Sibson, 1973). Tek bağlantı yöntemi daha öncede anlatıldığı üzere, kümeler arası mesafe ölçülürken iki küme içinde birbirine en yakın iki elemanın uzaklığını kabul

eder. Ġlk aĢamada mevcut verilerin mesafe/benzerlik matrisi elde edilir; bu matrisi bir ağaç haline dönüĢtürür. ġebeke modellerinden en küçük maliyetli ağaç elde edilerek verilen eĢik değerine göre kümeler oluĢturulur. Tek bağlantı tekniği ve SLINK algoritması toplaĢımlı algoritmaların tipik özelliklerini taĢımaktadır. Teknik literatürde en yakın komĢu kümesi olarak adlandırılmaktadır (Dunham, 2003).

CURE algoritması

Kümeleme iĢlemi esnasında kümelerin kalitesini en çok etkileyen unsur, veri topluluğu içinde diğer verilerden uzakta bulunan, sayıları az olup aslında hiçbir kümeye ait olmaması gereken uç verilerdir. CURE (Clustering Using Representattives- Temsilciler kullanarak kümeleme) algoritması, uç verilerin oluĢturulan kümelerin kalitesini etkilememesi amacıyla 1998 yılında geliĢtirilmiĢ bir algoritmadır. CURE algoritması baĢlangıçta her girdiyi sanki ayrı bir kümeymiĢ gibi ele alır. Her adımda bu küme temsilcilerin birbirlerine olan yakınlıklarına göre birleĢtirilir ya da ayrı küme olarak tutulur. Her bir küme için c adet iyi dağıtılmıĢ temsilci nokta seçilir ve seçilen bu noktalara göre kümelerin fiziksel Ģekli ortaya çıkarılmıĢ olur. Daha sonra dağıtılmıĢ noktalar bir katsayısıyla kümenin merkezine doğru kaydırılır. DağıtılmıĢ noktalar, bu kaydırma iĢleminden sonra artık o kümenin temsilcileri olarak kabul edilirler. Bu aĢamadan sonra iki küme arasındaki uzaklık, her biri bir kümeye ait olan en yakın temsilci çifti arasındaki uzaklıktır. Temsilcilerin bir katsayısıyla çarpılması sonucu kümenin merkezine kaydırılması, kümedeki yüzey anomalilerini tolere ettiği gibi uç verilerin etkisini de azaltmaktadır (Silahtaroğlu, 2008). nın alacağı değer 0-1 arasında yer alacaktır. Küçük değerli dağılmıĢ noktaların çok az yer değiĢtirmesine neden olacakken, büyük değerli ise küme merkezine daha çok yaklaĢtıracağı için toplu halde kümeler oluĢacaktır.

CHAMELEON algoritması

Chameleon algoritması 1999 yılında Karypis ve arkadaĢları tarafından geliĢtirilmiĢ bir algoritmadır. Chameleon algoritması iki küme arasındaki benzerliği dinamik bir model kullanarak belirlemektedir. Diğer algoritmalardan farklı olarak iki alt kümenin birbirlerine olan benzerliği ve yakınlığı bu iki kümeden her birinin kendi iç benzerlikleri ve yakınlıkları ile kıyaslanarak belirlenmektedir. Yapılan karĢılaĢtırmalar sonucunda bu iki alt küme birbirlerine yakınsa birleĢtirilmektedir. Bu yöntem sayesinde daha kaliteli ve homojen kümeler oluĢturulmaktadır.

Benzerlik/mesafe matrisinin oluĢturulabildiği tüm veri türleri ve veri kümeleri için uygulanabilecek bir algoritmadır (Silahtaroğlu, 2008). Algoritmanın çalıĢma mantığı ġekil 4.11‟ de gösterilmektedir.

ġekil 4.11 : CHAMELEON algoritması çalıĢma mantığı. BIRCH

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) çok büyük veri tabanlarının kümelenmesi için geliĢtirilmiĢ gürültülü verilerin kontrol edilmesi için de bu alanda öne sürülerin ilk algoritmadır (Zhang, 1996). BIRCH algoritması sadece sayısal veriler üzerinde kullanılabilmektedir. BIRCH algoritması kümeleme iĢlemini bir ağaç yapısı oluĢturarak gerçekleĢtirir. Burada belirtilen ağaç yapısına CF

ağacı olarak tanımlanmaktadır.

CF = (n,LS,SS) olarak 3 tane bilgiyi barındırır. Burada ki “n” kümedeki nokta sayısı, “LS” kümedeki noktaların toplam değeridir. “SS” kümedeki noktaların değerlerinin karelerinin toplamına eĢittir. CF ağacı yani toplaĢım algoritması değil, hiyerarĢik ama bölünür bir kümeleme algoritmasıdır. CF ağacının dallarının artıĢı, daha önceden belirlenmiĢ T (eĢik değeri) ne kadar devam eder. T değerinin aĢıldığı yerde bir alttaki düğüme geçilir. AĢağıdaki Ģekilde CF ağacının yapısı görülebilir.

CF ağacının yapısı ġekil 4.12‟de gösterilmektedir.

Belgede Hizmet Sektöründe Bir Veri Madenciliği Uygulaması (sayfa 86-90)