Kümeleme Yöntemleri - Veri Madenciliği Yöntemleri

3.7. Veri Madenciliği Yöntemleri

3.7.2. Kümeleme Yöntemleri

Kümeleme analizi sınıflandırmada olduğu gibi verileri gruplara ayırma işlemidir. Eldeki veriler incelenerek birbirine benzeyenler bir kümeye, benzemeyenler ise başka bir kümeye toplanmaktadırlar. Ancak sınıflandırma işleminde, sınıflar önceden belirli iken kümelemede sınıflar önceden belirlenmemiştir. Bu özelliği nedeniyle denetimsiz öğrenmeye örnek teşkil eden kümeleme analizi istatistik, makine öğrenmesi, matematik ve yapay zeka gibi bir çok disiplin tarafından biyoloji, tıp, antropoloji, pazarlama, ekonomi ve telekomünikasyon gibi alanlarda sıkça kullanılmaktadır.

Örneğin istatistikte sıkça başvurulan önemli birçok değişkenli analiz yöntemidir. Kümeleme analizinde belirlenecek kümelerin özellikleri ve sayısı önceden bilinmemektedir. Ancak algoritmaların zaman karmaşıklığını ve alınacak sonuçların kullanılabilirliğini artırabilmek için literatürdeki algoritmaların bir kısmı ya kümesayısını ya da her bir kümede bulunacak eleman sayısı veya bu elemanlar arasındaki minimum-maksimum benzerlik uzaklık ölçütünü kullanıcıdan istemektedir. Kümeleme analizinde amaç verileri birbirleriyle benzer alt kümelere ayırmaktır. Verilerin hangi kümelere ayrılacağı, hatta kaç değişik küme oluşturulacağı verilerinbirbirine olan benzerliğine ve uzaklığına göre belirlenmektedir. Verilerin benzerliği ile kastedilen şey ise aralarındaki mesafenin ölçülmesi ve değerlendirilmesidir. Bu veritabanında bulunan her bir kaydın diğer bir kayıtla olan benzerliği ya da diğer kayıtlara uzaklığı olduğu gibi oluşturulan gerçek ve aday kümeler arasındaki benzerlik ve uzaklığı da içermektedir. En çok kullanılan uzaklık ölçütleri Öklit, Manhatten, Minkowski; benzerlik ölçütleri ise Dice, Jaccard, Cosine, Overlap’dir. Bunlar dışında da birçok ölçüt önerilmiştir.

Şekil 3.19. İki nokta arasındaki Öklit uzaklığı

Öklit uzaklığı şu şekilde ölçülür:

Ö ( , ) = ∑ ( − ) (3.20)

veya çok büyük kümelerde = { , … , } = { , … , } dizileri için

Ö ( , ) = 1 − ∙

‖ ‖∙‖ ‖ (3.21)

ve özelliklerine sahip verilerin topluluğu için verilerin bulunduğu düzlem aşağıdaki gibi olsun.

Noktaların birbirlerine olan uzaklıkları dikkate alındığında iki farklı kümenin oluştuğu açıkça görülmektedir. O halde, küme oluşturmak için mesafe ölçüme ihtiyaç vardır. Örneğin; A={1,1,2,2,5}, B={1,2,3,4,2}, C={1,3,5,1,3} kümeleri beş ayrı sözcüğün üç farklı web sitesinde kullanım sıklığını göstersin. Hangi web sitesine ait metin diğerine daha çok benzemektedir?

Ö ( , ) = 1 − 1.1 + 1.2 + 2.3 + 2.4 + 5.2 √1 + 1 + 2 + 2 + 5 . √1 + 2 + 3 + 4 + 2 = 1 − 27 √35 . √34 = 0,217 bulunur. ( , ) = 1 − √ .√ = 0,218

de aynı şekilde bulunur.

( , ) < ( , ) olduğundan A metni B metnine daha fazla benzemektedir.

= { , … , } ve = { , … , } ∈ olmak üzere Minkowski uzaklığı

= (∑ – ) (3.22)

şeklinde hesaplanır. Pozitif tamsayısı için = 1 ise Manhatten uzaklığı, = 2 ise Öklit uzaklığı elde edilir.

Ses, karakter ve resim tanıması, makine öğrenimi, web sayfası aranması, DNA analizi, Coğrafi Bilgi Sistemleri ve bilgisayar alanlarında kullanılır (Atılgan, 2011).

3.7.2.1. Hiyerarşik Yöntemler

Kümeleme yöntemleri ya hiyerarşik ya da hiyerarşik değildir. Hiyerarşik kümelemede tekrarlı bölünmeler veya mevcut kümelerin birleştirilmesi şeklinde ağaca benzer bir yapı (dendrogram) oluşturulur. Hiyerarşik kümeleme yöntemleri, birimleri birbirleri ile değişik aşamalarda bir araya getirerek ardışık biçimde kümeler belirlemeyi ve bu kümelere girecek elemanların hangi uzaklık (ya da benzerlik) düzeyinde küme elemanı olduğunu belirlemeye yarayan yöntemdir. Hiyerarşik kümeleme iki grupta incelenebilir, bunlar yığılmalı (agglomerative) hiyerarşik kümeleme ve bölünmeli (divisive) hiyerarşik kümelemelerdir. Yığılmalı hiyerarşik kümeleme, verideki her bir gözlemi bir küme olarak düşünür. Birleştirme işlemleri uygulanarak kümeler tek bir küme elde edilinceye kadar devam ettirilir. Bölünmeli hiyerarşik kümelemede, başlangıçta tüm birimlerin bir küme oluşturduğu kabul edilerek, birimleri aşamalı olarak kümelere ayırır.

3.7.2.2. Bölümlemeli Yöntemler

Bölmeli metotlar, hiyerarşik olmayan kümeleme metotlarıdır. Bu metotlar, n adet birimden oluşan veri setini başlangıçta belirlenen k<n olmak üzere k adet kümeye ayırmak için kullanılır. Bölmeli metotların hiyerarşik metotlardan en önemli farkından birisi de budur. Hiyerarşik yöntemlerin tersine kullanıcı tarafından verilen bazı kriterlere uygun kümeler yatırılırken, yaratılacak küme sayısı önceden belirlidir. Kullanıcı algoritmayı kümeler arasındaki minimum / maksimum mesafeyi ve kümelerin iç benzerlik kriterlerini de vermek zorundadır. Bölmeli metotlarda işlemler şu sıra ile yapılır: İlk olarak başlangıç küme merkezleri gelişi güzel olarak seçilir. Birimlerin, belirlenen kümelerin merkezlerine olan uzaklıklarına göre yeni küme merkezleri oluşturulur. Ardından her küme için ortalama hesaplanır ve hesaplanan bu değer o kümenin yeni merkezi olur. Bu işlemler birbirilerinden farklı, kendi içlerinde homojen, birbirileri arasında benzerlik bulunmayan k adet küme oluşturuluncaya kadar

sürdürülür. Görüldüğü gibi, bu metotlar iteratif süreçlerden oluşan metotlardır. Bölmeli metotları arasında en bilinenleri k-ortalamalar kümeleme ve k-Medoids parçalamalar yöntemidir.

3.7.2.3. K-Ortalamalar (K-Means) Bölümleme Yöntemi

K-ortalamalar yönteminin uygulanabilmesi için en önemli koşul, veri setindeki

değişkenlerin en azından aralık ölçekte bulunmasıdır. Çünkü küme merkezleri oluşturulurken her bir iterasyonda oluşan kümeler için değişkenlerin ortalamaları alınır. İkinci önemli koşul ise, oluşturulacak olan küme sayısının başlangıçta biliniyor olmasıdır. K-ortalamalar yönteminin kullandığı algoritma aşağıdaki gibidir:

i. k adet birim başlangıç küme merkezleri olarak rastgele seçilir.

ii. Küme merkezi olmayan birimler, belirlenen uzaklık ölçütlerine başlangıç küme merkezlerinin ait oldukları kümelere atlanır

iii. Yeni küme merkezleri, oluşturulan k adet başlangıç kümesindeki değişkenlerin ortalamaları alınarak oluşturulur.

iv. Birimler en yakın oldukları oluşturulan yeni küme merkezlerine birimlerin uzaklıkları hesaplanarak kümeye atlanır.

v. Bir önceki küme merkezlerine olan uzaklıklar ile yeni oluşturulan küme merkezlerine olan uzaklıklar karşılaştırılır.

vi. Uzaklıklar makul görülebilir oranda azalmış ise iv. adıma dönülür.

vii. Eğer çok büyük bir değişiklik söz konusu olmamış ise iterasyon sona erdirilir. İterasyonun durdurulması için kullanılan ölçütlerden birisi, kareli hata ölçütleridir. Bu ölçüt veri uzayında bir nokta, ise kümesine ait ortalama ya da küme merkezi olmak üzere şu biçimdedir:

= ∑ ∑ _∈ | − | (3.23)

3.7.2.4. K-Medoids Bölümleme Yöntemi

k-ortalamalar kümeleme yöntemine benzer biçimde işlem yapan fakat her bir

iterasyon sonucunda referans alınacak küme merkezlerini seçerken değişkenlerin ortalama değerlerini almayıp birimleri küme merkezi olarak alan bir kümeleme yöntemidir. Eğer veri setindeki kümeleme için kullanılacak olan değişkenler kategorik değişkenler ise k- medoids yöntemi tercih edilir.

k-ortalamalar kümeleme yöntemi küme merkezlerini oluştururken ortalama

aldığı için aşırı değerlere duyarlı olmasına karşılık k-medoids parçalama yöntemi, birimleri küme merkezi olarak seçtiğinden dolayı aşırı değerlere karşı duyarlı değildir.

k-medoids parçalama yönteminin amacı her bir küme için temsili bir birim

bulmaktır. Bu temsili birime medoid adı verilir. Medoid küme içerisine en merkezi birimdir. Medoidler aşırı değerlerin varlıklarından etkilenmedikleri gibi, medoidler incelenen birimlerin sırasına da bağlı değildir. k-medoids parçalama yönteminin takip ettiği algoritma aşağıdaki gibidir:

i. k adet birim başlangıç medoidleri olarak rastgele seçilir.

ii. Her bir birimin yakın olduğu medoide atanır. iii. Medoid olmayan birimler sırasıyla seçilir.

iv. Sıra ile seçilen bir birim ile medoidin yer değiştirmesinin toplam maliyeti hesaplanır.

v. Toplam maliyetler sıralanır.

vi. En küçük toplam maliyet sıfırdan küçükse, iii. adıma dönülür.

vii. Toplam maliyet sıfırdan büyük veya sıfıra eşit çıkarsa, iterasyon sona erer. (Çıngı, 2007)

3.7.2.5. PAM Algoritması

PAM (Partitioning Around Medoids / Temsilciler Etrafında Bölümleme) yöntemi Kaufman ve Rousseuw tarafından 1990 yılında geliştirilmiş bir algoritmadır. PAM algoritması k adet kümeyi bulmak için seçilen temsilcilerin etrafına ana kümedeki tüm elemanları toplayarak ve her defasında bu temsilcileri değiştirerek kümeleme işlemini tamamlar. PAM algoritmasının temsilci olarak seçtiği noktaya medoid denilir; dolayısıyla bu algoritma k-medoid algoritması olarak da anılır. Bu temsilci (medoid) seçiminden kasıt ise kümenin merkezine yakın mesafede bulunan noktanın belirlenmesidir. k adet küme için seçilen k adet temsilci belirlendikten sonra, veri tabanındaki temsilci olmayan diğer noktalar (veriler) kendilerine en çok benzeyen temsilcinin etrafında toplanır. Temsilciler (medoid) belirlenmesi süreci k adet temsilcinin ana veri tabanından rastgele seçilmesiyle başlar. Daha sonraki her adımda seçilmiş bir temsilciyle, seçilmemiş bir noktasının yer değiştirmesinin kümenin kalitesi üzerinde yaratacağı iyileştirme hesaplanarak, temsilcilerin değiştirilip değiştirilemeyeceğine algoritma tarafından karar verilir.

3.7.2.6. CLARA Algoritması

CLARA (Clustering LARge Applications / Geniş Uygulamaların Kümelenmesi) büyükveritabanlarının daha kısa süre içerisinde kümelenmesi amacıyla Kaufman ve Rousseuew tarafından 1990’da geliştirilmiş bir algoritmadır. Kümeleme işleminin yapım süresi azaldığı halde gerçekte algoritmanın zaman karmaşıklığında herhangi bir iyileşme söz konusu değildir. CLARA algoritması bütün veritabanını tarayarak temsilci noktalar seçmek yerine, veritabanından rastgele bir kümeyi alarak, PAM algoritmasını bu örnek küme üzerine uygular. Bu uygulama sonucunda oluşacak olan kümelerin her birinin temsilcisi belirlenir. Daha sonra ana kümeyi oluşturan veritabanından bir örnek küme daha seçilir. Bu esnada ilk temsilcilerin rastgele seçilmesi yerine bir önceki aşamada belirlenmiş temsilciler kullanılır. Bu da algoritma içinde temsilci değişimini azaltacak ve algoritma hem daha hızlı bir şekilde işleyecek hem de daha kaliteli sonuçlar verecektir. Bu tekrar örnekleme işleminin 5 defa yinelenmesi ve her defasında 40 + 2 adet örnek seçilmesinin en iyi sonucu verdiği Kaufman ve Rousseuew (1990) tarafından rapor edilmiştir.

3.7.2.7. CLARANS Algoritması

CLARANS (Clustering Large Applications based on RANdomizedSearch – Rasgele Aramaya Dayalı Geniş Uygulamaları Kümeleme) algoritması isminden de anlaşılacağı gibi PAM ve CLARA algoritmalarının geliştirilmiş halidir. Algoritma verilen n adet temsilciler aracılığıyla ve bir şebeke diyagramından yararlanılarak k adet kümeye ayrılması şeklinde özetlenebilir (Atılgan, 2011).

Belgede Veri madenciliğinden birliktelik kuralı ile onkoloji verilerinin analiz edilmesi: Meram Tıp Fakültesi Onkoloji örneği (sayfa 57-64)