• Sonuç bulunamadı

7. DENEYSEL ÇALIŞMALAR VE SONUÇLARI

7.2. Yapılan Deneysel Çalışmada Kullanılan Yardımcı Yöntemler

7.2.1. k-kez çapraz doğrulama yöntemi

k-kez çapraz doğrulama yöntemi sınıflandırıcı modellerin bir veri kümesi üzerinde yapılan sınıflandırma işleminin sonuçlarının tutarlı olması için kullanılmaktadır. Metodun uygulanmasından önce k parametresinin belirlenmesi gerekmektedir. k parametresi veri kümesinin kaç parçaya bölüneceğini belirtmektedir.

Şekil 7.1. Örnek 10-kez çapraz doğrulama işlemi

k adet sınıflandırma işlemi yapılmaktadır ve her adımda bölünen parçalardan bir tanesi test işlemi için ayrılmakta geriye kalan k-1 tanesi sınıflandırıcının eğitimi için kullanılmaktadır. k adım sonra elde edilen sınıflandırma sonuçlarının ortalaması

alınarak genel sınıflandırma sonucu elde edilmektedir (Breiman ve ark., 1984, Kohavi, 1995). Şekil 7.1’de k parametresi 10 olarak belirlenen bir çapraz doğrulama işlemi görsel olarak ifade edilmiştir. 10 parçaya bölünen veri kümesindeki 9 parça eğitim kümesi ve geriye kalan diğer parça test kümesi olarak kullanılmakta ve bu işlem 10 adımda ve her adımda farklı bir parça test kümesi alınarak gerçekleştirilmektedir.

7.2.2. Wilcoxon işaretli sıralamalar testi

Wilcoxon işaretli sıralamalar testi birbirine bağımlı iki küme arasında anlamlı bir fark olup olmadığını test etmektedir (Wilcoxon, 1945). Wilcoxon işaretli sıralamalar testi, eşlenik t-testinin parametrik olmayan alternatifidir. Bu testin kullanılabilmesi için veri kümeleri bağımlı olmalıdır. Örneğin iki farklı tansiyon aleti ile yapılan ölçümler arasındaki farklılığa bakmak istiyorsak ölçüm yapılan kişiler aynı olmalıdır. Bu tez çalışmasında bu test aynı veri kümeleri üzerinde farklı sınıflandırma metotlarından elde edilen sonuçlarında anlamlı bir farklılığın araştırılmasında kullanılmıştır.

Wilcoxon işaretli sıralamalar testinde öncelikli olarak iki veri kümesinin karşılıklı gelen değerleri arasındaki fark hesaplanmaktadır. Bu farkların mutlak değeri alınır ve küçükten büyüğe doğru sıra değerleri verilir. Sıra değerleri verilirken 1. Veri kümesinin değerinin büyük olduğu durumlarda pozitif işaretli sıra, küçük olduğu durumlarda negatif işaretli sıra değeri verilir. Pozitif işaretli sıra değerleri ve negatif işaretli sıra değerleri ayrı ayrı toplanır. Veri küme değerleri arasındaki farkın 0 olduğu durumlar pozitif ve negatif işaretli sıralar için eşit şekilde dağıtılır. Bulunan toplam pozitif ve negatif işaret değerlerinden mutlak değer olarak küçük olan çıkış değeri olarak kullanılır. 7.1, 7.2 ve 7.3’deki ifadelerde pozitif ve negatif işaret sıra değerlerinin ve çıkış değerlerinin hesaplanması gösterilmiştir (Alcala ve ark., 2011). d , i’inci örnekler arasındaki farkı ifade etmektedir. R ve R pozitif ve negatif işaretli sıra değerlerinin toplamını ifade etmektedir. T ise çıkış değerini göstermektedir.

= ∑ ( ) + ∑ ( ) (7.1)

= ∑ ( ) + ∑ ( ) (7.2)

Çizelge 7.2. Wilcoxon İşaretli Sıralamalar Testi için Kritik Değer Tablosu Gözlem Sayısı α=0.10 α=0.05 α=0.01 Gözlem Sayısı α=0.10 α=0.05 α=0.01 1 16 35 29 19 2 17 41 34 23 3 18 47 40 27 4 19 53 46 32 5 0 20 60 52 37 6 2 0 21 67 58 42 7 3 2 22 75 65 48 8 5 3 0 23 83 73 54 9 8 5 1 24 91 81 61 10 10 8 3 25 100 89 68 11 13 10 5 26 110 98 75 12 17 13 7 27 119 107 83 13 21 17 9 28 130 116 91 14 25 21 12 29 140 126 100 15 30 25 15 30 151 137 109

Bu çıkış değeri kritik değer ile karşılaştırılır. Eğer çıkış değeri kritik değere eşit veya kritik değerden küçük ise sıfır hipotezi reddedilir. Çıkış değerinin, kritik değerden büyük olduğu durumlarda sıfır hipotezi kabul edilir (Demsar, 2006). Sıfır hipotezi şeklinde gösterilir ve “İki veri kümesi arasında anlamlı bir fark yoktur” şeklindedir. Çizelge 7.2’de farklı anlamlılık derecelerine ait gözlem sayılarına göre kritik değerler verilmiştir. α anlamlılık derecesini göstermektedir. α değerinin 0.05 olarak belirlenmesi %95 anlamlılık seviyesinde bir test yapılacağını göstermektedir.

Wilcoxon işaretli sıralamalar testini bir örnek ile açıklayalım. Çizelge 7.3’de iki sınıflandırıcının 18 adet veri seti ile yapılan sınıflandırma sonuçları gösterilmektedir. Amacımız bu iki sınıflandırıcının sonuçları arasında %95 anlamlılık derecesinde bir farklılık olup olmadığını incelemektir. hipotezimiz “sınıflandırıcı 1 ile sınıflandırıcı 2’ye ait sınıflandırma sonuçları arasında anlamlı bir fark yoktur” şeklindedir. di

kolonunda sınıflandırıcılar arasındaki fark gösterilmiştir. İşaret kolonu farklara bağlı olarak oluşturulmuştur. Bu farklar mutlak değerlerine göre sıralanır ve işaret kolonu ile işaretli sıra değer kolonu oluşturulur. ve değerleri 7.1 ve 7.2’deki ifadeler kullanılarak hesaplanır. = 9 + 8 + 11 + 17 + 4 + 13 + 1 + 15 + 16 + 2 + 18 + 12 + 10 + 3 = 139 ve = (−14) + (−5) + (−6) + (−7) = −32 şeklinde hesaplanır. Çıkış değerini 7.3’deki ifade ile hesaplarsak = min( 139, −32) = 32 olarak bulunur. Çizelge 7.2’de görüldüğü üzere 18 veri kümesi ve %95 anlamlılık seviyesinde kritik değer 40 olmaktadır. Çıkış değerimiz kritik değerden küçük olduğu

için hipotezi reddedilir. Bunun anlamı: sınıflandırıcı 1 ile sınıflandırıcı 2 arasında %95 önem seviyesinde anlamlı bir fark vardır.

Çizelge 7.3. Wilcoxon işaretli sıralamalar testi için örnek hesaplamalar

Veri Sınıflandırıcı 1 Sınıflandırıcı 2 di İşareti İşaretli Sıra Değerleri 1 65,39 67,64 -2,252512 - -14 2 55,89 54,53 1,362720 + +9 3 81,54 82,36 -0,821100 - -5 4 60,76 59,49 1,274810 + +8 5 94,44 95,56 -1,120000 - -6 6 82,11 80,46 1,650000 + +11 7 95,05 91,51 3,540000 + +17 8 84,44 84,27 0,170000 + +4 9 77,34 75,43 1,909390 + +13 10 92,74 92,71 0,025380 + +1 11 86,72 83,64 3,080000 + +15 12 71,03 67,94 3,090000 + +16 13 78,35 78,25 0,100000 + +2 14 85,26 61,56 23,700000 + +18 15 96,72 94,96 1,760000 + +12 16 94,76 93,38 1,380000 + +10 17 53,78 54,97 -1,190000 - -7 18 81,48 81,36 0,120000 + +3

Bu tez çalışmasında, Wilcoxon işaretli sıralamalar testi Matlab R2011b versiyonu kullanılarak yapılmıştır. p = signrank(x,y,as) komutu kullanılarak hesaplama yapılmıştır. x ve y değerleri veri kümleri, as ise 0 ile 1 arasında bir değer alarak anlamlılık seviyesini belirtmektedir. p çıkış değeri anlamlılık değerinden büyük olursa sıfır hipotezi kabul edilir, küçük ise hipotez reddedilir.

7.2.3. Kullanılan Programlar

Tez çalışmasında ortaya konulan model, Matlab R2011b ve Microsoft Visual Studio 2010 programları kullanılarak gerçekleştirilmiştir. Modelin genetik algoritmalar kısmı C# programlama dili kullanılarak Microsoft Visual Studio 2010 ortamında geliştirilmiştir. Bulanık sınıflandırıcı model ise Matlab R2011b programında geliştirilmiştir.

Geliştirilen modelin farklı genetik bulanık sistemler ile kıyaslanması için KEEL (http://www.keel.es/, erişim tarihi: 04.06.2013) adında ticari olmayan bir yazılım kullanılmıştır. KEEL yazılımı sınıflandırma, kümeleme ve ayrıklaştırma gibi farklı algoritmaları içeren ve farklı çalışma grupları tarafından geliştirilen açık kaynak kodlu

bir yazılımdır. KEEL yazılımında bulunan 4 farklı algoritma karşılaştırma için kullanılmıştır. Bu algoritmalar Çizelge 7.4’de gösterilmiştir.

Çizelge 7.4. KEEL yazılımda bulunan ve kıyaslama için kullanılan algoritmalar

Kısa Adı Algoritma Referansı

FH-GBML Fuzzy Hybrid Genetics-Based Machine Learning Ishibuchi ve ark., 2005b

GFS-GCCL Fuzzy rule approach based on a genetic cooperative-

competitive learning Ishibuchi ve ark., 1999b

SGERD Steady-State Genetic Algorithm for Extracting Fuzzy

Classification Rules From Data Mansoori ve ark., 2008

SLAVE Structural Learning Algorithm in a Vague

Environment with Feature Selection Gonzalez ve Perez, 2001

Bu algoritmalar dışında 2001 yılında Ishibuchi ve ark. (2001a) tarafından geliştirilen MOGA (Multi Objective Genetic Algorithm) algoritması da karşılaştırma işlemi için kullanılmıştır.

Benzer Belgeler