• Sonuç bulunamadı

Kümeleme, adından da anlaşılacağı üzere verileri benzer daha küçük bölümlere ayırarak işlenmesini kolaylaştırmaya çalışan bir sistemdir. Bunu yaparken bazı ayrıntılar kaybedilirken karşılığında basitleştirme elde edilir. Kümelenme yapısı itibariyle denetimsiz öğrenme tekniğidir. Kümelenme algoritması yüksek miktardaki veri noktalarını daha küçük gruplar haline getirirken, aynı özellikteki veri noktalarını aynı küme içerisine yerleştirir (Rajagopal, 2011: 3). Veri madenciliği içerisinde kümelenme belki de en önemli araçlardan biridir. Çünkü yapısı itibariyle gerek keşif gerekse doğrulama analizlerinde kullanılabilirler (Trivedi, Pardos, Sarközy, Heffernan, 2011: 129). Bu işlem birçok veri madenciliği görevinde; denetimsiz sınıflandırma ve veri toplama, büyük heterojen veri kümelerini daha küçük homojen alt kümelerine ayırarak, kolay yönetmek, ayrı olarak modellemek ve analiz etmek için gereklidir (Huang, 1997: 34).

58

1854’te Londra’da meydana gelen kolera salgınında, John Snow hastaların evlerini işaretlediği özel bir harita kullanıyordu. Bu haritanın asıl amacı hastaların yoğunluklu olarak nerede ikamet ettiklerini belirlemekti. Yapılan bu harita sonucunda hastaların çoğunun merkez sokakta bulunan kuyu civarında oturdukları tespit edilmiş ve bu kuyunun kapatılması ile salgın sona ermiştir. Oluşturulan bu harita kümelenme analizlerinin ilki olarak kabul edilir. O zamandan beri kümelenme analizi istatistik, yazılım mühendisliği, biyoloji, psikoloji ve diğer sosyal bilimler alanlarında kullanılmaktadır (Andritsos, 2002: 1).

Kümelenme teknikleri temel olarak beşe ayrılır. Bunlar, hiyerarşik metodlar, bölümlendirme metodları, ızgara tabanlı, kategorik verinin birlikte gerçekleşmesine dayalı metodlar ve değişken bazlı metotlardır.

 Hiyerarşik Metotlar;

Hiyerarşik algoritmalar nesneleri ayrıştırırlar. Bu iki metotla olur. Bunlar; aşağıdan yukarıya (agglomerative) veya yukarıdan aşağıya (divisive) olarak ikiye ayrılır. Aşağıdan yukarıya olan sistemde öncelikle her nesne ayrı ayrı kümelerine ayrılarak mesafe ölçümüne dayalı gruplara ayrılır. Bundan sonra aşağıdan başlanarak kullanıcının isteğine bağlı olarak gruplandırılır (Şekil 24). Yukarıdan aşağıya olan sistemde ise bunun tam tersi bir strateji uygulanır. Bu sistemde bir tek gruptan başlanarak daha küçük gruplara ayrılarak daha küçük kümelere ayrılırlar (Andritsos, 2002: 8, 9).

59  Bölümlendirme Metotları;

Bölümlendirme metotları bölüm yeniden yerleştirme metodu, olasılıksal kümeleme (probabilistic clustering), k-medoid metodu, k-anlamlı (k-means) metot ve yoğunluk bazlı bölme metodları olmak üzere beşe ayrılmaktadır.

Bölüm yeniden yerleştirme metodu veriyi birkaç alt kümeye ayırır. Çünkü olabilecek tüm alt kümeleri incelenmek sayısal olarak mümkün olmamakla beraber, belirli açgözlü (greedy) sezgiseller yenilemeli optimizasyonun şekil almasını sağlar. Bu şu manaya gelmektedir, tekrar yerleştirme planları, tekrarlayarak noktaları k kümeleri arasına yerleştirir. Geleneksel hiyerarşik metotların aksine, kümeler oluşturulduktan sonra tekrar ziyaret edilmezler. Tekrar yerleştirme algoritmaları kümeleri giderek artan bir şekilde geliştirirler (Berkhin, 2002: 12).

Olasılıksal yaklaşımda veri, birden çok olasılıksal dağılımın karıştırılması ile oluşan birden çok modelden oluşur (Berkhin, 2002: 13).

K-medoid metodu ve k-anlamlı metodun ikiside aynı temel üzerinde çalışır. Bu iki algoritma veri setlerini gruplar halinde parçalayarak oluşan kümeler içerisinde yer alan veri noktalarının birbirine mümkün olduğunca yakın olmasını sağlamaya çalışırlar.

K-medoid metodunda seçilen noktayı merkez olarak kabul ederek kümelendirmeyi bunun üzerinde şekillendirir. Buna bağlı olarak küme içerisinde yer alan noktalardan biri ile temsil edilir.

K-anlamlı algoritmada ise 𝑛 adet veri nesnesinden oluşan veri setini girdi parametresi olarak verilen 𝑘 adet kümeye bölümlemektir. Bu işlem sonucunda elde edilen kümelerin birbiri ile maksimum farklı olması ve kendi içerlerinde bu farklılığın minimum olması amaçlanır (Han, Kamber, 2006: 402). K-anlamlı algoritma kümelendirme algoritmaları arasında en çok kullanılan algoritmalardan biridir. K-anlamlı kümelerin algoritma yapısı dört aşamadan oluşmaktadır.

İlk olarak küme merkezleri belirlenir. Bunun için iki farklı yol izlenir. Birinci yol nesneler arasından küme sayısı olarak rastgele nokta seçilmesidir. İkinci yol ise merkez noktaların tüm nesnelerin ortalaması alınarak belirlenmesidir.

İkinci olarak her nesnenin seçilen merkez noktalara olan uzaklığı hesaplanır. Elde edilen sonuçlara göre tüm nesneler k adet kümeden kendilerine en yakın olan kümeye yerleştirilir.

60

Üçüncü olarak oluşan kümelerin yeni merkez noktaları o kümedeki tüm nesnelerin ortalama değeri ile değiştirilir.

Dördüncü ve son olarak ise merkez noktalar değişmeyene kadar ikinci ve üçüncü aşamalar tekrarlanır.

Gelişigüzel şekilli kümelerin keşfedilmesi ile birlikte yoğunluk bazlı algoritmaların (density-based algorithms) geliştirilmesine olanak sağlanmıştır. Bu yöntem genellikle noktaların yoğun olarak bulunduğu bölgeleri baz alarak bir yoğunluk haritası oluşturur (Han, Kamber, 2006: 418). Bu haritalar daha çok fiziki haritalara benzer. Kümelendirme metotları; ızgara tabanlı kümeleme metotları, kategorik verinin birlikte gerçekleşmesi ve değişken bazlı kümeleme metotları olmak üzere üçe ayrılır.

 Izgara Tabanlı Kümeleme Metotları (Grid-Based Methods);

Izgara tabanlı kümeleme yaklaşımı ızgara veri yapısı üzerinde çok çözünürlüklü yaklaşım kullanır. Yöntem obje uzayı üzerindeki sonlu sayılı hücreleri bir ızgara yapısı olarak şekillendirir ve oluşan bu şekil üzerinde kümelenme işlemini gerçekleştirir (Han, Kamber, 2006: 424). Sistem veriyi ızgara şeklinde parçalayarak her ızgara haline getirerek işler ve kümelendirmeyi bu işlem sonucunda yapar.

 Kategorik Verinin Birlikte Gerçekleşmesi (Co-Occurrence of Categorical

Data);

Kategorik veri olarak adlandırılan veri metrik olarak ölçülemeyen ve sıralanamayan veridir. Araba markalarının isimleri ya da üretilen eşya isimleri bunlara örnek olarak verilebilir (Gibson, Kleinberg, Raghavan, 1998: 311). Bu verileri kümelendirmek için mozaiğe benzeyen bir yapı oluşturularak bunun üzerinde değişkenlerin ağırlıklarına bağlı olarak sınıflandırma yapılır.

 Değişken-Bazlı Kümeleme (Constaint-Based Clustering);

Değişken bazlı kümeleme analizlerinin amacı kümelendirme işlemine yol göstermektir. Eğer kümelenme görevi yüksek boyutlu bir düzlemde gerçekleşiyorsa bunlardan anlamlı küme çıkarımı yapmak oldukça zor olacaktır. Birçok uygulamada kümeleme seçenekler ve değişkenler gerektirir. Bu bilgilere örnek olarak kümenin minimum ya da maksimum boyutu, farklı objelerin ağırlıkları ya da boyutları ve diğer istenen kümelerin karakteristik özellikleri verilebilir. Kullanıcı; önemli boyutlarda ya da

61

istenilen sonuçlar için gerekli girişleri yaparak ve ipuçlarını vererek etkili sonuçlar alabilir (Han, Kamber, 2006: 444).

Benzer Belgeler