Sınıflandırıcı performanslarının değerlendirilmesi

4. ARAŞTIRMA SONUÇLARI VE TARTIŞMA

4.1.2. Sınıflandırıcı performanslarının değerlendirilmesi

Görüntü işleme aşamasından sonra kazanç oranları en yüksek olan ilk altı nitelik sınıflandırma işleminde kullanılmıştır. Sınıflandırma işleminden önce niteliklerden elde edilen tüm sayısal değerler normalize edilmiştir. Sınıflandırma işleminde DVM, NB, C4.5 ve kNN algoritmaları kullanılmış ve bu algoritmaların sınıflandırma performansları incelenmiştir. Sınıflandırma işlemi aşamasında 10 katlı çapraz geçerlilik örnekleme yöntemi kullanılmıştır.

Bu çalışmada kullanılan kNN algoritmasında k en yakın komşu sayısı sınıflandırma performansına etki eden önemli bir parametredir. Bu parametrenin seçimi genellikle deneysel olarak yapılmaktadır. Bu çalışmada da k en yakın komşu sayısı parametresi en az hata oranını verdiği için 24 seçilmiştir. Ayrıca en yakın komşuları bulmak için Öklid ve Manhattan mesafe ölçümleri denenmiş ve yine en az hata oranını veren Manhattan mesafe ölçümü kullanılmıştır.

Bu çalışmada kemik yaşı tespiti için kullanılan DVM yönteminde de çekirdek fonksiyonları olan lineer, polinomiyal ve radyal bazlı fonksiyon çekirdek fonksiyonları ve bu fonksiyonlara ait parametreler farklı aralıklarda denenmiş ve en iyi sonucu veren lineer çekirdek fonksiyonu kullanılmıştır. DVM temelde ikili bir sınıflandırıcıdır. Çoklu sınıflandırmalar için literatürde bire karşı bir, bire karşı hepsi gibi çeşitli yaklaşımlar mevcuttur. Çalışmamızda da altı sınıf olduğu için çoklu sınıflandırmada bire karşı bir yaklaşımı kullanılmıştır. Bire karşı bir yaklaşımı her bir ikili sınıf için bir makinenin oluşturulması esasına dayanır. Dolayısıyla n sınıf sayısı olmak üzere n(n-1)/2 makinenin oluşturulması gerekmektedir. Herhangi bir test noktasına uygulandığı zaman her bir sınıflandırma işlemi kazanan sınıfa bir puan getirir. Sonuç olarak işleme alınan test noktası en çok puanı kazanan sınıfa etiketlenir.

Bu tez çalışmasında sınıflandırıcıların performanslarını değerlendirmek için sınıflandırma doğruluğunun yanında belirlilik ve duyarlılık analizleri de uygulanmıştır. Belirlilik ve duyarlılık analizleri tanısal testlerin performansının değerlendirilmesinde kullanılan önemli ölçümlerdir. Çalışmamızda kullanılan sınıflandırıcıların belirlilik ve duyarlılık analizleri ile sınıflandırma doğrulukları çizelge 4.4'de verilmiştir.

Çizelge 4.4. Sınıflandırma sonuçları

Metotlar Sınıflandırma Doğruluğu Duyarlılık Belirlilik

DVM 0,7282 0,7369 0,9452

NB 0,6821 0,7024 0,9371

C4.5 0,6718 0,6810 0,9338

kNN 0,7026 0,7167 0,9400

Çizelge 4.4'de görüldüğü gibi en yüksek sınıflandırma doğruluğuna %72,82 ile DVM sahiptir. Yine en yüksek duyarlılık ve belirlilik oranlarına DVM sahiptir. Belirlilik ve duyarlılık analizlerinin yanı sıra çalışmamızda en yüksek performansa sahip olan DVM'nin hata matrisi de incelenmiştir. Çizelge 4.5'de DVM'nin hata matrisi verilmiştir.

Çizelge 4.5. DVM'nin hata matrisi Çıkış/İstenen Yaş Aralığı 0-1 1-2 2-3 3-4 4-5 5-6 0-1 17 3 0 0 0 0 1-2 4 28 2 1 0 0 2-3 0 3 26 4 2 0 3-4 0 0 5 25 5 0 4-5 0 0 4 7 17 7 5-6 0 0 0 1 5 29

Çizelge 4.5'de verilen hata matrisi incelendiği zaman hataların genellikle gerçek yaşın 1 yaş üstü ve 1 yaş altında çıktığı gözlenmektedir. Örneğin 1-2 yaş aralığına ait örnekler incelendiği zaman 4 hatalı sınıflandırma sonucunun 0-1 yaş aralığında, 2 hatalı sınıflandırma sonucununsa 2-3 yaş aralığında alındığı görülmektedir. Sadece 1 hatalı sınıflandırılan örnek 3-4 yaş aralığında bulunmuştur.

Farklı sınıflandırıcı performanslarının değerlendirilmesinden sonra, bu çalışmada önermiş olduğumuz niteliğin DVM'nin performansına etkiside incelenmiştir. Nitelik 3'ün DVM performansı üzerine etkisi çizelge 4.6'da verilmiştir.

Çizelge 4.6. Nitelik 3'ün DVM üzerine etkisi Kullanılan Nitelikler DVM'nin Sınıflandırma Doğruluğu

İlk 6 Nitelik 0,7282 İlk 6 Nitelik – Nitelik 3 0,7179

Çizelge 4.6'da, çalışmada kullanılan 6 nitelikten önermiş olduğumuz nitelik 3'ün çıkarılmasının DVM'nin sınıflandırma doğruluğunu düşürdüğü görülmektedir. Dolayısıyla çalışmamızda kullanmış olduğumuz nitelik 3'ün sınıflandırma doğruluğu açısından belirleyici bir nitelik olduğu anlaşılmaktadır. Bu tez çalışmasının ilerleyen bölümlerinde, en iyi sınıflandırma doğruluğunu elde ettiğimiz DVM, yine en iyi sonucu elde ettiğimiz 6 nitelik ile beraber kullanılmıştır.

4.2. 0-6 Yaş Arası Kemik Yaşı Değerlendirmesinde Destek Vektör Makineleri için Temel Bileşenler Analizi ve Mesafe Tabanlı Ölçümlere Dayanan Farklı Eğitim Verisi Azaltma Yaklaşımları

Bu çalışmamızda daha önce DVM ile oluşturduğumuz sistemin daha hızlı sonuç verebilmesi için DVM'nin eğitimi aşamasında eğitim verilerinin azaltılması üzerinde durulmuştur.

Eğitim seti içerisinden destek vektörlerin seçimi karesel (kuadratik) programlama (quadratic programming) gibi döngüsel bir süreci içermektedir. Dolayısıyla optimum ayırıcı hiperdüzlemin bulunması hesaplama açısından oldukça külfetlidir.Özellikle büyük eğitim verilerinin sınıflandırılmasında eğitim süreci oldukça yavaştır. Dolayısıyla eğitim örneklerinin çok fazla olduğu durumlarda tüm eğitim örneklerinin eğitim süreci içerisinde kullanılması eğitim sürecini fazlasıyla uzatmaktadır (Cervantes ve ark., 2008, Koggalage ve Halgamuge, 2004). Dolayısıyla böyle durumlarda eğitim sürecini hızlandıracak bir eğitim sürecine ihtiyaç vardır. Bu çalışmada bu süreci hızlandırabilecek 3 farklı yöntem üzerinde durulmuştur.

Genel olarak bir sınıflandırıcı eğitim ve test olmak üzere iki aşamadan oluşur. Eğitim aşamasında sistem parametrelerin nasıl ağırlandırılacaklarına ve eğitim setine bağlı olarak kombine bir şekilde farklı sınıfları nasıl ayıracağına karar vermelidir. DVM'nin eğitim aşamasında sistem eğitim verilerini kullanarak optimum ayırıcı düzlemi bulmaktadır. Optimum ayırıcı düzlemi bulurken de eğitim kümesinin yalnızca bir kısmını oluşturan destek vektörleri kullanır (Javed ve ark., 2007). Destek vektörlerin seçimi esnasında tüm eğitim verileri kullanılmaktadır ve bu işlem döngüsel bir süreci içermektedir. Dolayısıyla hesaplama açısından oldukça külfetlidir. Buradan da anlaşılabileceği gibi destek vektörlerin seçimi aşamasında tüm eğitim kümesine aslında gerek yoktur.

Çalışmamızın bu aşamasında DVM'nin eğitimi aşamasında, eğitim kümesi içerisindeki etkin örneklerin belirlenebilmesi ve dolayısıyla eğitim kümesinin azaltılması için TBA, MD ve OD ölçümlerine dayanan farklı yöntemler önerilmiştir.

4.2.1. Destek vektör makineleri için temel bileşenler analizine dayanan eğitim

Belgede Yapay zeka teknikleri kullanarak kemik yaşı tespiti (sayfa 60-63)