Deneylerde Kullanılan Sınıflandırma Algoritmaları

Bu çalışmada makine öğrenmesi tekniklerinin kullanılmasını teşvik eden etkenlerden ve makine öğrenmesi ile yapılan artgönderim çözümleme çalışmalarından önceki bölümlerde bahsedilmiştir. Yalnız burada üzerinde durulması gereken başka bir konu vardır. Makine öğrenmesi yöntemleri denetimsiz ve denetimli olarak ikiye ayrılmaktadır. Denetimsiz öğrenmede, öğrenme sırasında algoritmaya örneklerin sınıfları hakkında bir bilgi verilmez. Denetimli öğrenmede ise örneklerle birlikte sınıfları da öğrenme algoritmasına verilir. Böylece, sınıflandırma işlemi sonucunda örneklere ait sınıflar tahmin edilerek yakalanan başarım oranı üzerinde fikir yürütülebilmektedir. Deneyler için hazırladığımız özellik-değer vektörlerine artgönderimsel ilişki varlığını gösteren sınıf etiketleri eklendiğinden de bahsetmiştik. Böylece elimizdeki veri denetimli öğrenme yöntemleri için uygun bir hale gelmiştir.

Bütün deneyler Weka yazılımı (version 3.5.6) üzerinde onlu çapraz doğrulama (tenfold cross-validation) stratejisi kullanılarak gerçekleştirilmiştir (Witten ve Frank, 2005). Bu yazılım üzerinde gerçeklenmiş olan beş farklı denetimli makine öğrenme algoritması veri kümesine uygulanmıştır: naïve Bayes algoritması, örnek tabanlı (instance based) bir algoritma (k-en yakın komşu), bir karar ağacı algoritması, bir destek vektör (support vector) algoritması ve bir sinir ağı (neural network) algoritması (seçimli algılayıcı – voted perceptron). Şimdi deneylerde kullanılan her algoritmayı kısaca açıklayalım.

4.4.1. Naïve Bayes Sınıflandırması

Naïve Bayes sınıflandırması, sınıfları belirli örneklerin özelliklerinin birbirlerinden şartlı bağımsız oldukları varsayımı üzerine dayanır. Bu varsayım,

özelliklerin birbirleriyle güçlü bir şekilde bağımlı olduğu gerçek dünya problemleri için uygun olmasa da, problemi basitleştirerek çok boyutluluğun etkisini azaltmaya yardımcı olmaktadır. Özellik vektörü (x1,…,xn) olan bir X örneği verildiğinde, Naïve bayes sınıflandırıcısı,

( | )= ( ,..., _n | )

P X C P x x C (4.1)

denklemini kullanarak benzerliği en yüksek yapan bir C sınıf etiketi arar:

4.4.2. K-En Yakın Komşu Sınıflandırması

K-en yakın komşu (k-nearest neigbour - kNN) algoritması ve diğer örnek-tabanlı yöntemler, benzerlik yoluyla öğrenme teknikleridir. K-en yakın komşu sınıflandırması, istekli (eager) olarak da adlandırılan diğer sınıflandırma yöntemlerinden, bütün eğitim örneklerini n-boyutlu bir uzayda noktalar halinde tutması ve etiketsiz bir örnek sınıflandırılmak isteninceye kadar bir sınıflandırıcı oluşturmaması yönleriyle ayrılır. Bu yöntem, sınama öncesinde bir kural veya fonksiyonlar kümesi oluşturmadığı için eğitim zamanı açısından istekli yöntemlerden daha etkin olmaktadır. Ancak sınama aşamasında her örnek için yeniden hesaplama gerektirdiğinden daha yavaş olmaktadır. Bu yöntemin bir diğer dezavantajı da her özelliğe eşit ağırlık verdiği için ilgisiz özellikleri de sınıflandırmada kullanmak zorunda kalmasıdır. Yeni bir örnek sınanırken, k adet en yakın komşusu arasında en sık geçen sınıf etiketi bu örneğe atanır. n-boyutlu bir uzayda

X = (x1,...,xn) ve Y = (y1,...,yn) gibi iki veri noktası kNN algoritmasına verildiğinde, bunlar arasındaki Öklid uzaklığı şu şekilde hesaplanır:

2 2 2 2 1 1 2 2 1 ( ) ( ) ... ( ) ( ) = − + − + + n− n =

∑

n i− i i x y x y x y x y (4.2)

4.4.3. Karar Ağacı Sınıflandırması

Karar ağacı öğrenmesinde, ağaçlar karar düğümleri ve sonlandırıcı yapraklardan oluşmaktadır. Sınıflandırılacak yeni bir örnek verildiğinde, bir yaprak düğüme ulaşıp da örneğe bir değer ataması yapılana kadar, test fonksiyonları düğümlerde özyinelemeli bir şekilde uygulanmaktadır. Dallanma için, her düğümde örneğin bir özelliği test edilmektedir. Ağacı oluşturmak için, seçilen özellikten meydana gelecek bilgi kazancı hesaplanmalı ve ağacın derinliğini azaltmak için önceden belirlenmiş sayıda, en çok bilgi sağlayan özellikler seçilmelidir. Aşağıdaki denklemler, bir karar ağacı oluşturulurken A özelliğinin kullanılması durumunda elde edilen bilgi kazancını vermektedir:

(

)

2 1 ( ),..., ( ) ( ) log ( ) n n i i i I P v P v P v P v = =

∑

− (4.3) 1 ( ) , , v i i i i i i i i i p n p n p n Kazanç A I I p n p n ₌ p n p n p n     ₊ =  −   + + + + +  

∑

  (4.4)

Burada I bilgi içeriği, vi özelliğin alabileceği sonlu sayıdaki olası değer sayısı, p ve n de sırasıyla eğitim kümesindeki pozitif ve negatif örnek sayılarıdır.

Eğitim kümesinden birden fazla hipotez çıkarılan durumlarda, birleştirilmiş (ensemble) öğrenme yöntemleri hipotez uzayı içindeki bir grup hipotezi seçip birleştirerek sınıflandırıcının etkinliğini yükseltirler (Dietterich, 2000). Bu hipotezler, bileşenlerini derecelendirerek tahmin yürüten tek bir sınıflandırıcı altında toplanırlar. En çok kullanılan birleştirilmiş öğrenme yöntemi güçlendirmedir (boosting). Güçlendirme modeli, her tekrarda ağırlıkları düzenlenen eğitim örneklerinden sıralı olarak çıkarılır.

Weka yazılımı J48 sınıfında C4.5 karar ağacının (Quinlan, 1993) bir gerçeklemesini içerir.

4.4.4. Destek Vektör Makinesi Sınıflandırması

Destek vektör sınıflandırmasının arkasındaki temel düşünce, eğitim verisini bir eşleme fonksiyonuyla daha yüksek boyutlu bir uzaya taşımak ve burada maksimum genişlikte ayırıcı bir hiperdüzlem (hyperplane) oluşturmaktır. Destek vektör makinesi (SVM), sınıfları ayıran sonsuz sayıdaki hiperdüzlem arasında her sınıftan en uzak noktada bulunan düzlemi arar. Sınır hiperdüzlemleri üzerinde bulunan vektörler destek vektörleri olarak adlandırılmaktadır. Destek vektörleri, hiperdüzlemleri yeniden inşa etmek için gerekli tüm bilgiyi taşırlar.

Özgün olarak Vapnik (1963) tarafından önerilen optimal hiperdüzlem algoritması doğrusal bir sınıflandırıcıyken, daha sonra SVM’lerin, her nokta çarpımının doğrusal olmayan bir K(xi,xj) çekirdek fonksiyonuyla yer değiştirilmesi sonucu doğrusal olmayan sınıflandırma problemlerini de çözebilecekleri gösterilmiştir (Boser, Guyon ve Vapnik, 1992).

Bu çalışmadaki SVM deneylerinde, doğrusal ve radyal tabanlı çekirdek fonksiyonları kullanılmıştır. Deneylerde kullanılan destek vektör sınıflandırıcısı C-SVC, LIBSVM kütüphanesi (Chang ve Lin, 2001) içindeki 5 farklı SVM tipinden biridir. Weka bu kütüphaneye bir arayüz sağlar.

4.4.5. Seçimli Algılayıcı

Seçimli Algılayıcı (Voted Perceptron), özgün algılayıcı algoritmasının ağırlıklandırma işlemi değiştirilmesi ve çekirdek hilesi kullanılması yoluyla uyarlanmış hali olan bir sinir ağı algoritmasıdır (Freund ve Schapire, 1999). Algılayıcı öğrenmesinde sınıflandırıcının çıktısı, w ağırlık vektörü, x giriş vektörü ve b de eğilim olmak üzere, w.x + b > 0 olduğu durumlarda 1 olur. Özgün algılayıcı algoritmasında, sınıflandırıcıyı eğitebilmek için, özellik vektörleri ardışık olarak işlenir ve ağın çıkışında oluşan her hatada ağırlıklar güncellenir. Fakat, özgün algoritma sadece veri doğrusal olarak ayrılabilir olduğu durumda, iyi sonuçlara ulaşabilmektedir.

Doğrusal bir şekilde ayrılamayan veride seçmeli algılayıcı algoritması, tahminlerden biri üzerinde seçim yapabilmek için öğrenme işlemi sırasında karşılaşılan bütün ağırlık vektörlerini kullanır. Bu ise her ağırlık vektörü ile kaç tane eğitim vektörünün doğru sınıflandırıldığının hatırlanması yoluyla mümkün hale getirilmiştir.

BÖLÜM - 5

SINIFLANDIRMA DENEYLERĐ VE DEĞERLENDĐRME

Belgede Türkçe için derlem tabanlı bir anafor çözümleme çalışması (sayfa 41-46)