Sınıflandırıcı Performansını Değerlendirme Metrikleri

5. MODEL TASARIMI

5.3. MODELĠN TEST EDĠLMESĠ

5.3.1. Sınıflandırıcı Performansını Değerlendirme Metrikleri

ÇalıĢmanın bu bölümünde sınıflandırıcımızın sınıf etiketini tahmin etmede ne kadar iyi ya da "doğru" olduğunu değerlendirmeye yönelik metrikler incelenmiĢtir.

161

Sınıflandırıcı değerlendirme metrikleri ve hesaplama formülleri Tablo 14‟te gösterilmiĢtir.

Tablo 14. Sınıflandırma Performansını Değerlendirme Metrikleri

Ölçüler Formül

Doğruluk, tanıma oranı

DP DN P N

 

Hata oranı, yanlıĢ sınıflandırma oranı

YP YN P N

 

Duyarlılık, doğru pozitif oran, geri çağırma

DP P

Özgünlük, gerçek negatif oran

DN N

Hassasiyet

DP DPYP

F-skoru, hassaslık ve geri çağırma harmonik ortalaması 2 hassasiyet geriçağırma hassasiyet geriçağırma   

F

_

, burada  negatif olmayan bir gerçek sayıdır





2 1 hassasiyet geriçağırma hassasiyet geriçağırma       

Bu tez çalıĢmasında ertesi gün kapanıĢ fiyatlarının doğru tahmin edilebilirliği literatürde en sık kullanılan iki metrik kullanılarak değerlendirilmiĢtir. Bu metriklerden birincisi doğruluk, ikincisi ise hata oranlarıdır.

5.3.1.1. Doğruluk

Doğruluk belirli bir metrik olmasına rağmen "doğruluk" sözcüğü, sınıflandırıcının tahmin yeteneklerine atıfta bulunmak için genel bir terim olarak da kullanılmaktadır. Sınıflandırıcının doğruluğunu ölçmek, modeli eğitmek için kullanılmayan sınıf etiketli verilerden oluĢan bir test kümesinin doğruluğunu ölçmek demektir. P pozitif sınıf sayısıdır ve N negatif sınıf sayısıdır. Her bir sınıf için sınıflandırıcının sınıf etiketi tahmini ile sınıfın bilinen sınıf etiketi karĢılaĢtırılır. KarıĢıklık (confusion) matrisi tahmin edilen sınıf etiketi ile gerçek sınıf etiketini karĢılaĢtırmak için kullanılmaktadır (Han, Kamber ve Pei, 2011: 364). KarıĢıklık matrisi Tablo 15‟te gösterilmiĢtir.

162 Tablo 15. KarıĢıklık Matrisi

Gerçek Değer T ah m in i De ğe r a b Toplam

a _{(Doğru Pozitif)}DP _{(Yanlış Negatif)}YN

b _{(Yanlış Pozitif)}YP _{(Doğru Negatif)}DN

Toplam

Genel tahminsel doğruluğun yanı sıra, sınıflandırıcının performansının dökümünü, yani X sınıfı örneklerinin X sınıfı olarak doğru sınıflandırıldığını veya baĢka sınıflar olarak yanlıĢ sınıflandırıldığını görmek de genellikle yararlıdır (Bramer, 2016: 89). Tablo 15‟in sütunlarında gerçek değerler yer alırken satırlarda ise tahmini değerler yer almaktadır. KarıĢıklık matrisinde aĢağıdaki bilgilere yer verilmiĢtir (Han, Kamber ve Pei, 2011: 364):

 Doğru pozitif (DP): Bunlar, sınıflandırıcı tarafından doğru Ģekilde etiketlenmiĢ pozitif sınıflara iĢaret eder.

 Doğru negatif (DN): Bunlar, sınıflandırıcı tarafından doğru Ģekilde etiketlenmiĢ negatif sınıflardır.

 YanlıĢ pozitif (YP): Bunlar, yanlıĢ pozitif olarak etiketlenmiĢ negatif sınıflardır.

 YanlıĢ negatif (YN): Bunlar, yanlıĢ olarak yanlıĢ etiketlenmiĢ pozitif sınıflardır.

KarıĢıklık matrisi, sınıflandırıcımızın farklı sınıfların etiketlerini ne kadar iyi tanıyabileceğini analiz etmek için yararlı bir araçtır. DP ve DN, sınıflandırıcının doğru olduğunu (yani, doğru etiketleme) bize bildirirken, YP ve YN sınıflandırıcının ne zaman yanlıĢ olduğunu (yani, yanlıĢ etiketleme) bize bildirir.

Sınıflandırıcının fiyat artıĢlarını ve azalıĢlarını ya da fiyat yönünü doğru tahmin edebilirliği doğruluk oranı Denklem 62 ile hesaplanır (Han, Kamber ve Pei, 2011: 364) DP DN Doğruluk Oranı DP DN YP YN      ₍₆₂₎

163

Doğruluk oranı 0 ile 1 arasında değer almaktadır. Doğruluk oranı 1‟e yakın değer aldıkça, sınıflandırıcının endeks yönünü o kadar baĢarılı bir Ģekilde tahmin edebildiği ifade edilir.

5.3.1.2. Hata Oranları

Sınıflandırma yöntemlerinde elde edilen tahmin sonuçlarını anlamlı hale getirmek için performans ölçülerine ihtiyaç vardır. Modellerin tahmin değerleri ile gerçek değerler arasındaki farkın hesaplanması ile hata oranları bulunur. Bu hata oranlarının gerçek değere ne kadar yaklaĢtığı tahmin performans ölçüleri ile belirlenir.

Sınıflandırma yöntemlerinde literatürde en çok kullanılan istatistiksel performans değerlendirme ölçütleri aĢağıda verilmiĢtir.

5.3.1.2.1. Ortalama Karesel Hata (MSE)

Ġstatistikte, ortalama karesel hata kavramı, bir tahmin edicinin performansını ölçmek için kullanılan önemli bir ölçektir. MSE, tahmin edici ile birlikte bir tahmin veya tahmin hedefi gerektirir. MSE değerleri iki veya daha fazla istatistiksel model arasında karĢılaĢtırma yapmak için kullanılabilir. MSE‟nin ölçü birimi, tahmin edilen miktarın ölçüm birimi ile aynıdır. MSE Denklem 63 kullanılarak bulunur.

2 1 1 ( ) n i i i MSE y y n  



 (63) 5.3.1.2.2. Ortalama Mutlak Hata (MAE)

MAE, bir takım tahminlerdeki hataların ortalama büyüklüğünü, yönlerini dikkate almadan ölçer. MAE doğrusal bir puandır, bu da tüm bireysel farklılıkların ortalama olarak eĢit olarak ağırlıklandırıldığı anlamına gelir. MAE Denklem 64 kullanılarak bulunur. 1 1 n _ˆ t t t MAE y y n  



 (64) 5.3.1.2.3. Kök Ortalama Karesel Hata (RMSE)

Bir tahmin edicinin veya bir modelin tahmini değeri ile gerçek gözlemlenen değerleri arasındaki farklılıkları ölçmek için çok sık kullanılan bir ölçektir. RMSE,

164

tahmin edilen değerler ile gözlemlenen değerler arasındaki farkların karekökü olarak tanımlanır. RMSE Denklem 65 kullanılarak bulunur.

2 1 1 _ˆ (y y ) n i i i RMSE n  



 (65) 5.3.1.2.4. Ortalama Mutlak Yüzde Hata (MAPE)

Tahmin ve nihai sonuçlar için ortalama mutlak yüzde hata fonksiyonunu hesaplar. MAPE, hatanın boyutunu yüzde cinsinden ölçer. MAPE ayrıca MAPD olarak da bilinir. Birçok araĢtırmacı, tahmin doğruluğunu değerlendirirken öncelikle MAPE'ye odaklanır. MAPE ölçeğe duyarlıdır ve düĢük hacimli verilerle çalıĢırken kullanılmamalıdır. MAPE Denklem 66 kullanılarak bulunur.

1 ˆ 100 n t t t t y y MAPE n  y  



(66) Tahmin performans değerlendirmeleri için literatürde en sık kullanılan ölçütler MAPE ve MSE değerleridir (Tayman ve Swanson, 1999: 300; Hyndman ve Koehler, 2006: 682). Çünkü tahmin değerlerinin gerçek değerlerden sapma davranıĢını en iyi gösterdiği için MAPE ölçütü kullanılır.

MAPE değerleri (Lewis, 1982: 32) tarafından;  %10‟un altında olan modelleri “çok iyi”,  %10 ile %20 arasında olan modelleri “iyi”,

 %20 ile %50 arasında olan modelleri “kabul edilebilir” ve

 %50‟nin altında olan modelleri ise “yanlıĢ ve hatalı” olarak gruplanmıĢtır.

MAPE‟nin hata sonuçları yüzde olarak elde edilirken MAE, MSE ve RMSE‟nin sonuçları birim olarak değerlendirilir. Birim olarak sonuç almak yanıltıcı olabilir. Yüzde sonucuna bakılarak daha gerçekçi tahmin oranları elde edebilir.

Belgede Borsa Endeksi Hareket Yönünün Tahmininde Sınıflandırma Yöntemlerinin Performanslarının Karşılaştırılması: Bist 100 Örneği (sayfa 181-185)