Karar ağaçları - Sınıflandırma Analiz - Elektrokariyogram ölçümleri, GPS ve sınıflandırma algor

2.5. Sınıflandırma Analiz

2.5.1. Karar ağaçları

Karar ağaçları, son yıllarda yaygın olarak kullanılan bir sınıflandırma yöntemidir. Radar sinyal sınıflandırma, karakter ve konuşma tanıma, uzaktan algılama, tıbbi tanı ve uzman sistemler gibi pek çok alanda başarıyla kullanılmaktadır (Gülkesen vd 2008, Albayrak ve Yılmaz 2009, Kavzoğlu ve Çölkesen 2010). Bu yöntem, karmaşık sınıflandırma sürecini bölerek basit bir karar verme işlemi gerçekleştirilmesini sağlar. (Safavian ve Landgrebe 1991). Karar alıcıya, göz önüne alınması gereken faktörlerin belirlenmesinde ve bu faktörler ile kararın farklı çıktıları arasındaki ilişkisinin öğrenilmesinde yardımcı olur. Karar ağaçları, kurulum maliyetlerinin az olması, yorumlanmalarının kolay olması, veri tabanları ile entegre olması ve güvenilirliklerinin tatmin edici düzeyde olması gibi nedenlerden dolayı tercih edilmektedirler (Emel ve Taşkın 2005, Albayrak ve Yılmaz 2009).

Karar ağaçları ile üretilen model bir ağaca benzemektedir. Bu ağaç yapısı genel olarak karar verme noktaları olan düğümler ve bu düğümleri birbirine bağlayan dallardan oluşmaktadır (Şekil 2.9). Yapı, tersine çevrilmiş ağaç gibi olduğundan en tepede kök düğüm bulunmaktadır. Karar kriterlerinin testi buradan başlamaktadır. Bu testin sonuçlarına göre kök düğümden dallar türemekte ve her bir dal yeni bir karar düğümüne bağlanmaktadır. Bu işlem yapının en altında bulunan ve kendisinden dal türemeyen yaprak düğümlere kadar devam eder (Seyrek ve Ata 2010). Temel prensip, verilere ilişkin sorulan sorulardan elde edilen cevaplar doğrultusunda en kısa sürede sonuca gidilmesi olarak açıklanabilir. Ağaç yapısının oluşturulması için sorular sorulur ve yaprak düğümler bulunana kadar bu işlem devam eder. Bu şekilde karar ağacı, sorulara aldığı cevapları toplayarak, kök düğümden yaprak düğüme kadar olan yol için karar kuralları oluşturur (Kavzoğlu ve Çölkesen 2010).

Şekil 2.9. Karar ağacı yapısı x₁≤ a x₂≤ b A B x₃≤ d x₂≤ c C A x₄≤ e B C

Eğitim veri seti ile oluşturulan ağaç yapının genelleme kabiliyetinin belirlenmesi için test veri seti kullanılır. Bu veri seti test işlemine kök düğümden başlar ve belirli bir yaprak düğüme ulaşana kadar bu işleme devam eder. Kökten her bir yaprağa giden tek bir yol vardır, bu da karar kuralıdır (Kavzoğlu ve Çölkesen 2010).

Karar ağacı oluşumunda çok geniş ve karmaşık bir yapı ortaya çıkabilir. Yapı içinde doğruluğu etkilemeyen veya yapıya katkısı olmayan kısımların ayıklanması gerekir. Bu işlem, ağaç yapısının budanması olarak adlandırılır ve bir alt ağaç atılarak yerine bir yaprak yerleştirilir. Budama sonucunda işlem karmaşıklığının azaltılması ve ağaç yapısının sadeleştirilmesi ile daha anlaşılabilir bir ağaç elde edilir (Kavzoğlu ve Çölkesen 2010).

Karar ağaçlarını oluşturmak için geliştirilmiş farklı yöntemler bulunmaktadır. Bu yöntemler arasında sıkça kullanılanlar CHAID, CART, ID3 ve C4.5 algoritmalarıdır. Bu yöntemler temel olarak karar ağacını oluştururken farklı özellikleri seçmeleri ile birbirinden ayrılmaktadırlar (Seyrek ve Ata 2010).

2.5.2. K-Means

K-means algoritması, basit ve yaygın kullanılan bir kümeleme tekniğidir. İlk olarak Hugo Steinhaus tarafından oluşturulmuş olup 1967 yılında J.B. MacQueen tarafından tanıtılmıştır. Bilimsel ve endüstriyel uygulamalarda yoğun bir şekilde kullanılan bu algoritmaya K-means adı verilmesinin nedeni, sabit bir k küme sayısına ihtiyaç duyulmasıdır (Dinçer ve Duru 2006). Algoritma, küme içi benzerliğin analiz edilmesinde, kümenin ağırlık merkezi ya da çekim merkezi olarak kabul edilen kümedeki nesnelerin ortalama değerini dikkate alır (Han ve Kamber 2006). Her verinin sadece bir kümeye ait olabilmesinden dolayı keskin bir kümeleme algoritmasıdır (Fırat 2012).

Algoritmanın genel mantığı, n adet veri nesnesinden oluşan bir veri setini k adet kümeye bölümlemektir. Burada küme sayısı giriş parametresi olarak verilir ve kümeleme işlemi bitinceye kadar değeri değişmez. İşlem sonuçları, verilecek k sayısına göre değişiklik gösterir. Eğer küme sayısı bilinmiyorsa, deneme yoluyla en uygun sayı bulunur (Fırat 2012).

K-means algoritmasının çalışma metoduna göre öncelikle ilk küme merkezleri belirlenir. Bunun için veri setindeki ilk k adet veri kullanılabileceği gibi seçim rastgele de yapılabilir. Belirlenen bu veriler tek elemanlı başlangıç kümeleridir. Kalan diğer veriler, kümelerin merkezine olan uzaklıklarına göre kendilerine en yakın kümeye yerleştirilirler. Her bir kümenin merkezi, küme elemanlarının ortalama değerine güncellenir. Daha sonra veriler ile küme merkezleri arasındaki uzaklılar hesaplanarak veriler tekrar en yakın kümeye yerleştirilirler. Bu süreç kümelerde herhangi bir değişim olmayıncaya kadar devam eder (Demiralay ve Çamurcu 2005, Yıldız vd 2010). K- means algoritmasının akış diyagramı Şekil 2.10’da verilmektedir.

Şekil 2.10. K-means algoritması akış diyagramı

Bir verinin küme merkezlerine olan uzaklıklarının hesaplanmasında en çok kullanılan yöntem Öklid uzaklığıdır. İki veri arasına çizilecek düz bir doğrunun uzunluğunun ölçümüdür. Öklid uzaklığı kümeleme analizindeki sıra dışı verilerden etkilenmezken, boyutlar arasındaki ölçek farklılıklarından önemli ölçüde etkilenir (Demiralay ve Çamurcu 2005, Günay ve Alkan 2009).

K-means kümeleme algoritmasının değerlendirilmesi ve başarısının ölçülmesinde değişik performans göstergeleri kullanılabileceği gibi en yaygın olarak hataların karelerinin toplamı (Summed Squared Error - SSE) kullanılır.

𝑆𝑆𝐸 = ∑ ∑(𝑥 − 𝑚𝑖)2 𝑥∈𝐶𝑖

𝑘

𝑖=1

(2.3)

Ci, k adet kümenin her birini; x, Ci kümesinin elemanlarını; mi, Ci kümesinin merkez noktasını belirtmektedir. Hataların karelerinin toplamının en düşük değeri, en iyi kümelemeyi gösterir (Günay ve Alkan 2009, Işık ve Çamurcu 2010, Yıldız vd 2010).

Başl a Sınıflara rastgele nesne ata Merkez noktayı hesapla Nesnenin merkeze uzaklığını hesapla Sınıflar sabit mi? Minimum uzaklığa göre nesneyi sınıfa

ata Bitir Sınıf Sayısını Belirle Hayır Evet

K-means yöntemi, sadece kümenin ortalamasının tanımlanabildiği durumlarda kullanılabilir. Kullanıcıların, oluşturulacak küme sayısı olan k değerini belirtmesi gerekmektedir ve bu durum dezavantaj olarak görülebilir. Bu yöntem, konveks (dışbükey, küresel) olmayan şekilli ve çok farklı büyüklükteki kümeleri keşfetmek için uygun değildir. Ayrıca, gürültü ve aşırı uç değerlere karşı duyarlıdır. Bu tür az sayıdaki veri, küme ortalama değerini büyük ölçüde değiştirebilir, bu durum da kümenin hassasiyetini bozabilir (Han ve Kamber 2006). Yöntemin en büyük problemi, başlangıçta küme merkezlerini belirlemek için kullanılan verilerin nasıl seçildiğidir. Kötü bir seçim yapılmışsa, verilerin kümelenmesinde çok sık değişiklikler olur ve farklı sonuçlar oluşabilir (Kaya ve Köymen 2008). Yöntemin uygulanabilirliği kolaydır. En önemli avantajı, büyük veri setlerinin işlenmesinde hızlı ve verimli olmasıdır (Yıldız vd 2010).

Belgede Elektrokariyogram ölçümleri, GPS ve sınıflandırma algoritmaları kullanılarak futbol hakemlerinin maç aktivite analizi (sayfa 56-59)