Kümeleme Algoritmaları - KÜMELEME VE KÜMELEME ALGORİTMALARI

2. KÜMELEME VE KÜMELEME ALGORİTMALARI

2.1. Kümeleme Algoritmaları

Küme analizi veya kümeleme aynı gruptaki (küme) nesnelerin diğer gruplardaki nesnelere göre daha benzer olacak şekilde gruplanması işlemidir. Kümeleme analizi belirli bir algoritmadan ziyade çözülmesi gerekli olan genel bir görevdir ve kümeleri oluşturma biçimleri ve hangi etkinlikte oluşturdukları bariz bir şekilde değişiklik gösteren çeşitli algoritmalar ile gerçekleştirilebilir [46].

Literatürdeki kümeleme algoritmaları hiyerarşik ve hiyerarşik olmayan şeklinde iki genel sınıfa ayrılarak ele alınmaktadır. Hiyerarşik algoritmaların yığmacı (agglomerative) ve bölücü (diversive) olmak üzere iki alt sınıfı mevcuttur. Hiyerarşik

olmayan sınıf ise ayırma (partitioning), yoğunluk tabanlı (density based), ızgara tabanlı (grid based) ve diğer yaklaşımlar olmak üzere dört alt sınıfa ayrılmaktadır [47].

Şekil 2.1. Kümeleme yaklaşımlarının sınıflandırılması [47]

2.1.1. Hiyerarşik kümeleme

Eğer kümeleme algoritması aşamalı olarak kümeler oluşturuyor ve veriyi kümelerden oluşan bir ağaç şeklinde gösteriyor ise hiyerarşik sınıfa aittir. Yığışımsal sınıf alttan- üste olarak adlandırılan bir yaklaşımdır ve bu yaklaşımda veri noktaları birbirleri ile birleştirilerek kümeler oluşturulur. Hiyerarşik sınıfa ait algoritmaların her toplamadan önce tüm nesneleri birbiri ile karşılaştırarak birbirine en fazla benzeyen iki nesneyi bir kümede toplama yaklaşımı hesaplama açısından maliyeti oldukça yüksek bir yöntemdir [47].

Aşağıda hiyerarşik sınıflandırmaya ait bir örnek gösterilmiştir. Yığmacı ve bölücü yöntemler işleyişi, işlem adımları Şekil 2.2’de okları 0’dan 4. düzeye doğru izleyerek gözlemlenebilir [45].

Şekil 2.2. Hiyerarşik ağaç yapısı örneği [45] Aşağıda verilmiş olan uzaklık matrisi ele alınacak olursa

1 1 0, 0 2 2, 0 0, 0 D 3 6, 0 5, 0 0, 0 4 10, 0 9, 0 4, 0 0, 0 5 9, 0 8, 0 5, 0 3, 0 0, 0                 

Matriste sıfırdan farklı en küçük değerler 1 ve 2. elemanlara aittir, bu yüzden bunlar 2 elemanlı bir küme oluşturmak üzere birleştirilirler. Bu küme ve diğer üç eleman arasındaki uzaklıklar aşağıdaki gibi elde edilir;

d(12)3 = min(d13,d23) = d23 = 5,0

d(12)4 = min(d14,d24) = d24 = 5,0

d(12)5 = min(d15,d25) = d25 = 8,0

İçeriği elemanlar arası ve küme – elemanlar arası uzaklıklardan oluşan yeni bir matris oluşturulur:

34 2 (12) 0, 0 3 5, 0 0, 0 D 4 9, 0 4, 0 0, 0 5 8, 0 5, 0 3, 0 0, 0             

D2 matrisinde en küçük değerler 4 ve 5. elemanlara aittir, bu yüzden bunlar ikinci iki

elemanlı kümeyi oluşturmak üzere birleştirilirler ve yeni uzaklık değerleri hesaplanır; d(12)3 = min(d13,d23) = d23 = 5,0

d(12)(4,5) = min(d14, d15, d24,d25) = d25 = 8,0

d(42)3 = min(d34,d35) = d34 = 4,0

Bu değerler D3 matrisinde bir araya getirilir ise:

3 (12) 0, 0 D 3 5, 0 0, 0 (45) 8, 0 4, 0 0, 0      _ _    

Bu durumda en küçük eleman d(45)3 olmuştur, ve 3 elemanı 4 ve 5’i içeren kümeye

eklenmiştir. Nihai olarak (1, 2) ve (3, 4, 5) elemanlarını içeren gruplar tek bir kümeye birleştirilmiştir. Yukarıda gösterilmiş olan işleme ait dendogram grafiği de aşağıda verilmiştir.

2.1.2. Hiyerarşik olmayan kümeleme

Hiyerarşik olmayan kümeleme (HOK) algoritmaları hiyerarşik yöntemin aksine aşamalı olarak kümelemek yerine doğrudan kümeleyen algoritmalardır. Kümelenmesi gereken çok sayıda verinin olduğu durumlarda birleştirme ağacı (dendogram) oluşturmak verinin sürekli olarak birbiri ile karşılaştırılmasını ve uzaklık mesafe matrisinin defalarca oluşturulmasını gerektirdiğinden oldukça fazla bir iş yükü ortaya çıkartmaktadır. Bu durumda hiyerarşik olmayan algoritmalar daha verimli olmaktadırlar. HOK yöntemleri kümeleri oluştururken çoğunlukla bir benzerlik kriterini optimize etmeye çalışır. Bu fonksiyonun muhtemel en iyi değerini bulmak yüksek sayıda kombinasyonun denenmesini gerektirdiği için algoritmalar birkaç başlangıç durumu için çalıştırılarak sonuç kümeleri bu çalıştırmalar üzerinden oluşturulur [47-49].

HOK yaklaşımları arasında üzerinde en çok çalışılanı merkez tabanlı kümeleme (MTK) yaklaşımıdır. MTK yaklaşımının başlangıcı 1960’lı yılların sonuna dayanmaktadır. Literatürde bu yaklaşıma prototip temelli kümeleme, amaç fonksiyonu temelli kümeleme adları da verilmektedir. Verilerin farklı kümeler arasında yinelemeli olarak yerleştirilmesi esasına dayanır. MTK’de en temel kümeleme algoritması K- ortalamalar kümeleme algoritmasıdır. Bulanık K-ortalama ve K-harmonik ortalamalar algoritmaları ise K-ortalamalar’dan türetilmiş esnek kümeleme algoritmalarıdır [48]. İlk olarak 1967 yılında MacQueen tarafından ortaya atılan K-ortalamalar algoritması eldeki veriyi kullanıcı tarafından belirlenen k adet kümeye kümelerin merkezlerine göre ayıran basit bir yol izlemekte ve her veri noktasını en yakın olduğu merkeze ilişkilendirmektedir. İlişkilendirilmemiş veri noktası kalmadığında ise bir önceki adımda yapılan kümelemeye bağlı olarak küme merkezleri yeniden belirlenmektedir. Böylece k adet yeni küme merkezi oluşturulmaktadır. Her bir veri noktası tekrar bu yeni merkezlere göre en yakın olduğu merkez ile ilişkilendirilecektir. Bu şekilde oluşturulan döngüde k tane merkez adım adım yer değiştirmektedir ve bu yer değiştirme durduğu zaman döngü sonlandırılmaktadır. Bu döngü içerisinde karesel hata fonksiyonu şeklindeki bir amaç fonksiyonu en azlanmaktadır [48-51].

Algoritma akış şeması Şekil 2.4’de verilen MTK’nin algoritma adımları aşağıdaki gibidir [48];

1. K küme merkezini K adet rasgele seçilen veriye ya da veri topluluğunu içeren uzayda k adet rasgele tanımlanan noktaya uygun şekilde seç.

2. Her bir veriyi en yakın kümeye ata.

3. Mevcut küme üyelik değerlerini kullanarak yeniden küme merkezlerini hesapla. 4. Eğer yakınsama koşulu sağlanmamış ise 2. adıma dön.

5. Küme sayısını mevcut kümeleri birleştirerek, parçalayarak, küçük veya sınır dışındaki kümeleri silerek küme sayısını düzelt.

K-ortalamalar kümeleme yöntemi basit ve geniş bir çeşitlilikte veriye uygulanabilirliği ile defalarca kez çalıştırılması gerekse de oldukça etkin bir yöntemdir. Ancak K- ortalamalar her veri tipi için uygun değildir ve bununla birlikte küresel olmayan kümeler veya farklı boyut ve yoğunluktaki kümelerin üstesinden gelememektedir. Ayrıca K-ortalamalar yöntemi uç değerler içeren verilerin kümelemesinde problem yaşamaktadır ve bu değerlerin dışlanması algoritmaya oldukça yardımcı olmaktadır. Ve nihai olarak K-ortalamalar yöntemi merkez kavramı olan veriler için kullanılabilmektedir [52].

Belgede Gezgin satıcı probleminin çözümünde parçacık sürü optimizasyonu algoritması performansının bulanık c-ortalamalar yöntemi ile iyileştirilmesi (sayfa 47-53)