• Sonuç bulunamadı

Sınıflandırıcı performansının ölçümü 1 Çapraz onaylama (cross-validation)

Çapraz doğrulama sınıflandırmanın güvenilirliğini arrtırmak, özellikle aşırı-uygunluk durumlarını çözmek için kullanılan bir yöntemdir [130]. Bir veri seti grubu X'den öncelikle eğitim ve test grubu alınır. Eğer veri seti X yeterince büyükse K grubuna bölünebilir. Bu grubun bir bölümü eğitim diğer bölümü ise test için kullanılır. K genellikle 10 veya 30 olabilir. Bu ayrım oranları mümkün olmadığında aynı veriler tekrar kullanılır. Bu durum çapraz onaylama olarak adlandırılır.

Çapraz onaylamada hata oranını düşürebilmek için eğitim ve test veri grupları olabildiğince büyük seçilmeye çalışılır. Böylece hata oranı azalır.

K-kat çapraz onaylamada veri seti K adet gruba bölünür Xi,i=1,...,K. Bu veri

gruplarından biri test için, K-1 adedi ise eğitim için ayrılır. İşlemin tekrar adedi K'yı belirler. Örneğin 10 kez tekrarlandığında 10-kat çapraz onaylama (10-fold cross-validation) olarak adlandırılır. Şeki 4.13'deki adımlara bakacak olursak test için ayrılan grup V eğitim grubunda yer almaz ve her eğitim grubunun T, 8 adet grubu aynıdır.

4.9.2. Kesinlik-Geri çağırma performans parametreleri

Arama etkiliğini ölçmek için kullanılan performans parametrelerinden arama etkiliğini açısından kesinlik ve Geri çağırma sıklıkla kullanılmaktadır [59]. Bu performans parametrelerin alınan verilerin ilgililik düzeyini göstermektedir. Bir veri grubundan tüm ilgili verileri alabilmek ve değersiz verilerin tamamını eleyebilmek mümkün değildir. Ancak bu işlemlerin başarı oranı bir şekilde ölçülmelidir.

Şekil 4.14. Kesinlik-Geri çağırma hesaplamalarının şema ile gösterimi

Şekil 4.14'de kesinlik ve geri çağırma parametrelerine ait hesaplama yöntemleri şema ile gösterilmiştir. Burada tüm alınan kayıtlar A, tüm ilişkili kayıtlar B ile simgelendiğinde, tüm ilişkili alınan kayıt x, alınan fakat ilişkili olmayan kayıt y, alınmayan fakat ilişkili olan kayıtlar ise z ile gösterilir. Kesinlik ve Geri çağırma parametrelerinin 1 değerine sahip olduğu durumlar da ayrıca küme biçiminde gösterilmiştir. Kesinlik ve Geri çağırma parametreleri birbiriyle ters orantılı iki parametredir. Dolayısıyla asıl hedef iki parametrenin de en uygun noktasını yakalayabilmektir. Bunun için alınan verilerin belirli bir noktada durdurulması ve veri alış yönteminin iyi belirlenmesi gerekmektedir.

Geri çağırma parametresini hesaplayabilmek zordur, çünkü veri tabanında ne kadar ilişkili veri olduğunu tespit etmek de zordur. İkili verilere ait bir havuz yardımıyla bu

oran tahmin edilmeye çalışılır. Bu noktada araştırmacı kendine has arama yöntemleri geliştirmek zorundadır.

4.9.3. Karışıklık matrisi

Hata tahmini ikili sınıflandırmaya dayalı gerçekleştirildiği için eğer performans değerlendirilmesi yapılacaksa öncelikle karışıklık matrisi (confusion matrix) oluşturulması gerekir. Tahmin sırasında yazılım modülleri hakkında hata yatkın(fp) veya hata yatkın değil(nfp) şeklinde tanımlamalar yapılır. Eğer bir modül hata içermeyip doğru hüküm verildiyse TN, hata içerdiği halde yanlış hüküm verildiyse FN, hata içermeyip yanlış hüküm verildiyse FP, hem hata içerip hem de doğru hüküm verildiyse TP olarak etiketlenir. Bu tanımlamaların ardından Tablo 4.3 oluşturulur.

Tablo 4.3. Karışıklık matrisi

Tahmin nfp fp

Gerçek nfp TN FP

fp FN TP

Hata tahmininde performans analizi için kullanılan bir diğer terim İşlem karakteristik Eğrisi (Receiver Operating Characteristics ROC) dir [131]. İlk olarak sinyal belirleme teorisinde kullanılan ROC daha sonra birçok farklı alanda özellikle sağlık alanında yapılan karar-tabanlı çalışmalarda kullanılmıştır. Makine öğrenmesi ve veri madenciliğinde model değerlendirmesi için tercih edilen bir parametre olmuştur [132], [133].

Şekil 4.15'te ikili sınıflandırma başarısını ölçen ROC eğrisi görülmektedir. Y ekseninde ifade edilen değer TP/TP+FN formulü ile bulunur. Aynı şekilde x ekseninde ifade edilen değer FP/FP+TN formulü ile bulunur. Bir önceki bölümde tanımladığımız arama etkililiğini ölçerken kullanılan Geri çağırma ve FPR değerlerinin ROC eğrisinde de kullanıldığı anlaşılmaktadır. Eğrinin altında kalan alan Area Under Curve(AUC) ile ifade edilir. (1,0) noktası en iyi nokta olup hiç yanlış tahminde bulunulmadığı anlamına gelir. (0,1) noktası da en kötü nokta olup hiç doğru tahminde bulunulamadığı anlaşılır.

Köşegenin üstünde kalan eğri genellikle arzulanan sonuçtur. Köşegenin altında kalan eğri ise başarının yeterli düzeyde olmadığını gösterir.

Şekil 4.15. ROC eğrisi

Kesinlik ve Geri çağırma değerleri birbiriyle ters orantılı olup üretilen genel sonuç F-ölçüt olarak adlandırılmakta ve bu iki değerin harmonik ortalaması hesaplanarak Şekil 4.16'daki gibi elde edilmektedir. F-ölçüt değeri 1'e yaklaştıkça daha iyi performans elde edilmiş demektir.

Şekil 4.16. F-ölçüt

Makine öğrenmesi performans değerlendirme algoritmalarından biri de g-ortalama dır. Hassasiyet ve özgüllük değerlerinin geometrik ortalamasıdır. Bu performans parametresi özellikle dengesiz veri setlerinde kullanılmaktadır. Ayrıca öğrenme algoritmalarının başarım karşılaştırmasında da kullanılır. Hata tahmininde kullanılan performas parametresi formüllerinin özeti Tablo 4.4’te görülmektedir. Tablo

incelendiğinde ilk göze çarpan bazı performas parametresi formülleri aynıdır. Bunlar TPR-Hassasiyet- Geri çağırma ile TNR-Özgüllük parametreleridir. Literatürdeki çalışmalarda formüllerden bazıları seçilerek performans değerlendirmesi yapılmıştır. Hangi performans parametresinin seçileceği kullanılan yönteme bağlı olarak değişmekle birlikte seçim yöntemiyle ilgili herhangi bir standart bulunmamaktadır. Ancak parametreler arasındaki farkı tespit edebilmek için ANOVA gibi istatistiksel yöntemler kullanılabilir. Sonraki bölümde ANOVA yöntemi detaylandırılmıştır.

Tablo 4.4. Performas parametre formülleri

İsim Formül TPR Hassasiyet(Sensitivity) Recall TP/(TP+FN) FPR FP/(FP+TN) Kesinlik TP/(TP+FP) TNR Özgüllük(Specificity) TN/(TN+FP) F-ölçüt 2 ∗ Doğruluk(Accuracy) TN+TP/(TN+FN+FP+TP) Geometrik ortalama(G-mean) ∗ Ö ü ü 4.10. İstatistiksel Metotlar

Benzer Belgeler