• Sonuç bulunamadı

Bu tez çalışmasında, biyomedikal veri kümelerini sınıflamada sınıflama algoritmasının performansını arttırmak için ön-işleme yöntemi olarak çeşitli veri ağırlıklandırma ve özellik seçme yöntemleri önerilmiş ve kullanılmıştır. Bu çalışmadaki diğer bir amaç da bu medikal verileri en iyi sınıflayan hibrid bir model oluşturmaktır. Bu bölümde, tezden elde edilen sonuçlar yorumlanmış ve gelecekte konu üzerinde çalışacaklar için bazı öneriler sunulmuştur.

7.1. Sonuçlar

Medikal veri kümeleri, eksik değerler, yanlış olarak girilmiş değerler, fazla boyutlu özellikler ve gürültü içerebilirler. Bu durum medikal verileri sınıflandırken sınıflama performansını negatif yönde etkilemektedir. Bunu önlemek için; veri normalizasyonu, veri temizleme, boyut azaltımı gibi veri ön-işleme yöntemlerinin kullanılması gerekmektedir. Bu tez çalışmasında veri ön-işleme yöntemleri iki şekilde incelenmiştir. İlki, veri ağırlıklandırma ve veri azaltma yöntemi, diğeri ise boyut azaltımı ve özellik seçme yöntemidir.

Önerilen veri ağırlıklandırma ve veri ön-işleme yöntemleri; bulanık ağırlıklandırma ön-işleme, k-NN (k- en yakın komşu) tabanlı veri ağırlıklandırma ön-işleme, genelleştirilmiş ayrışım analizi (Kernel Fisher Ayrışım Analizi-Kernel LDA) ve benzerlik tabanlı veri ağırlıklandırma ön-işleme yöntemleridir. Kullanılan ve önerilen özellik seçme yöntemleri ise temel bileşen analizi, bilgi kazancına dayanan özellik seçme algoritması ve Kernel F-skor özellik seçme yöntemleridir. Önerilen bu veri ön-işleme yöntemleri, University of Califoria Irvine (UCI) veritabanından alınan; Kalp hastalığı veri kümesi, SPECT (Single Photon Emission Computed Tomography-Tek Foton Yayılmalı Hesaplamalı Tomografi) görüntüleri ile kalp hastalığı veri kümesi ve Promoter gen dizileri veri kümeleri ve Fatih

Üniversitesi Öğretim Üyesi Prof. Dr. Sadık Kara ve Erciyes Üniversitesindeki ekibi tarafından alınan ve Atherosclerosis (damar sertliği) hastalığını sınıflamak için hasta ve normal kişeye ait Doppler sinyallerinden spektral analiz yöntemi ile özelliği çıkarılmış Atherosclerosis hastalığı veri kümesi, Macular (Sarı Nokta Hastalığı) hastalığını sınıflamak için yine hasta ve normal kişeye ait PERG (Pattern Electroretinography) sinyallerinden spektral analiz yöntemi ile özelliği çıkarılmış Macular hastalığı veri kümesi ve son olarak da Optik Sinir Hastalığını sınıflamak için hasta ve normal kişeye ait VEP (Visual Evoked Potentials) sinyallerinden spektral analiz yöntemi ile özelliği çıkarılmış olan Optik Sinir hastalığı veri kümelerine ait çalışmalar yapmışlardır.

Veri ön-işleme ile birlikte medikal verileri sınıflamada ANFIS, C4.5 karar ağacı, AIRS, Fuzzy-AIRS ve YSA sınıflama algoritmaları kullanılmıştır. Sınıflandırma performanslarını karşılaştırmak ve en iyi yöntemi seçmek için 5-kat çaprazlama, sınıflama doğruluğu, duyarlılık-seçicilik değerleri ve ROC eğrisi altında kalan değerler kullanılmıştır.

Bulanık mantık tabanlı veri ağırlıklandırma yöntemi, 6 medikal veri kümesi içinden; kalp hastalığı veri kümesi, E.coli promoter gen dizileri veri kümesi, SPECT görüntüleri ve VEP sinyali ile optik sinir hastalığı veri kümelerinde ön-işlemesiz sınıflama doğruluklarına göre yüksek doğruluklar elde etmiştir.

k-NN tabanlı veri ağırlıklandırma yönteminde, 6 medikal veri kümelerini sınıflamada k’ nın 5, 10, 15 ve 20 değerleri kullanılmış ve her bir k değeri ayrı ayrı değerlendirilmiştir. k’ nın 5 ve 20 değerleri için, kalp hastalığı, E. coli promoter gen dizileri, SPECT görüntüleri, VEP sinyali ile optik sinir hastalığı ve PERG sinyali ile Macular hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir. k’ nın 10 değeri için kalp hastalığı, E. coli promoter gen dizileri, VEP sinyali ile optik sinir hastalığı ve PERG sinyali ile Macular hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir. k’ nın 15 değeri için ise, kalp hastalığı, VEP sinyali ile optik sinir hastalığı ve PERG sinyali ile Macular hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir.

Genelleştirilmiş ayrışım analizinde, 6 medikal veri kümelerini sınıflamada; kalp hastalığı, E.coli promoter gen dizileri, SPECT görüntüleri ve VEP sinyali ile optik sinir hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir.

Benzerlik tabanlı veri ağırlıklandırma ön-işleme yönteminde, kosinüs genliği (cosine amplitude), minimum-maksimum metodu, mutlak üstel (absolute exponential) yöntemi ve üstel benzerlik katsayısı (exponential similarity coefficient) içeren dört çeşit benzerlik fonksiyonları kullanılmış ve veri birlikteliği ile birleştirilmiştir. Bu benzerlik fonksiyonlarının etkileri de ayrıca ayrı ayrı incelenmiştir. Kosinüs genliği benzerlik fonksiyonu veri ağırlıklandırma yöntemi dikkate alındığında, kalp hastalığı, E. coli promoter gen dizileri, VEP sinyali ile optik sinir hastalığı ve PERG sinyali ile Macular hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir. Minimum-maksimum metodu benzerlik fonksiyonu veri ağırlıklandırma yöntemi dikkate alındığında, kalp hastalığı ve E. coli promoter gen dizileri veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir. Mutlak üstel (absolute exponential) benzerlik fonksiyonu veri ağırlıklandırma yönteminde ise, kalp hastalığı ve SPECT görüntüleri veri kümelerinde ön-işlemesiz sınıflama doğruluklarına göre yüksek doğrulukları elde etmiştir. Son olarak üstel benzerlik katsayısı benzerlik fonksiyonu veri ağırlıklandırma yönteminde, kalp hastalığı, E. coli promoter gen dizileri, VEP sinyali ile optik sinir hastalığı ve PERG sinyali ile Macular hastalığı veri kümelerinde ön- işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir.

Temel bileşen analizi ile medikal veri kümelerinin boyutlarında azalma gerçekleşmiş ve bu sayede hem işlem maliyetinde düşüşler olmuş hem de sınıflama performansında artışlar kaydedilmiştir. Ayrıca kullanılan tüm medikal veri kümelerinde ön-işlemesiz sınıflama doğruluklarına göre yüksek oranda doğruluklar tespit edilmiştir.

Bilgi kazancı tabanlı özellik seçme yönteminde, 6 medikal veri kümesi içinden; kalp hastalığı, E. coli promoter gen dizileri, VEP sinyali ile optik sinir

hastalığı ve PERG sinyali ile Macular hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek doğruluk oranları elde edilmiştir.

F-skor özellik seçme yöntemi ile sınıflandırıcının birleşimi hibrid sistem, 6 medikal veri kümesi içinden; kalp hastalığı, E. coli promoter gen dizileri, Doppler sinyali ile damar sertliği, VEP sinyali ile optik sinir hastalığı ve PERG sinyali ile Macular hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek düzeyde doğruluk oranları elde edilmiştir.

Bu tez çalışmasında ilk kez önerilen Lineer Kernel F-skor özellik seçme yöntemi ile sınıflandırıcının birleşimi hibrid sistem, 6 medikal veri kümesini sınıflamada; kalp hastalığı, E. coli promoter gen dizileri ve Doppler sinyali ile damar sertliği veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek düzeyde doğruluk oranları elde edilmiştir.

Bu tez çalışmasında ilk kez önerilen RBF Kernel F-skor özellik seçme yöntemi ile sınıflandırıcının birleşimi hibrid sistem, 6 medikal veri kümesini sınıflamada; kalp hastalığı, E. coli promoter gen dizileri, Doppler sinyali ile damar sertliği ve PERG sinyali ile Macular hastalığı veri kümelerinde ön-işlemesiz sınıflama doğrulukları dikkate alınırsa yüksek düzeyde doğruluk oranları elde edilmiştir.

Ayrıca, özellik seçme, veri ağırlıklandırma ve sınıflandırma algoritmaları birleştirilerek 12 yeni hibrid model önerilmiş ve 6 medikal veri kümesine ilk kez uygulanmıştır. Her bir medikal veri kümesi için en iyi sonucu sağlayan hibrid model seçilmiştir. Kalp hastalığı veri kümesini sınıflamada en iyi hibrid model bilgi kazancına dayanan özellik seçme, genelleştirilmiş ayrışım analizi ve YSA’ nın birleşimi hibrid bir model; E.coli promoter gen dizileri veri kümesini sınıflamada en iyi hibrid model bilgi kazancına dayanan özellik seçme, benzerlik tabanlı veri ağırlıklandırma ön-işleme ve C4.5 karar ağacı veya Fuzzy-AIRS sınıflandırıcılarından birinin kullanımı ile oluşan hibrid bir model; SPECT görüntüleri veri kümesini sınıflamada en iyi hibrid model temel bileşen analizi, k-NN tabanlı veri ağırlıklandırma ön-işleme ve YSA’ nın birleşimi hibrid bir model; Doppler sinyali ile damar sertliği veri kümesini sınıflamada en iyi hibrid model temel bileşen analizi, benzerlik tabanlı veri ağırlıklandırma ön-işleme ve ANFIS veya C4.5 karar ağacı veya YSA sınıflandırıcılarından birinin kullanımı ile oluşan hibrid bir model; VEP

sinyali optik sinir hastalığı veri kümesini sınıflamada en iyi hibrid model KFSÖS (RBF Kernel fonksiyonu), benzerlik tabanlı veri ağırlıklandırma ön-işleme ve C4.5 karar ağacı veya YSA sınıflandırıcılarından birinin kullanımı ile oluşan hibrid bir model; PERG sinyali macular hastalığı veri kümesini sınıflamada en iyi hibrid model; temel bileşen analizi, benzerlik tabanlı veri ağırlıklandırma ön-işleme ve AIRSveya Fuzzy-AIRS sınıflandırıcılarından birinin kullanımı ile oluşan hibrid bir model olmuştur.

7.2. Öneriler

Burada kullanılan veri ön-işleme teknikleri gerçek hayatta elde edilmiş medikal veri kümelerine uygulanmış ve orijinal haline göre yüksek sınıflama performansı elde edilmiştir. Bu medikal karar verme mekanizmaları bu tez çalışmasında çevrimdışı (offline) çalışmaktadır. Ancak, DSP (Digital Signal Processing) kartları kullanılarak hastadan elde edilen laboratuvar sonuçları çevrimiçi (online) olarak analiz edilmek suretiyle hastalığın karar verme aşamasında, doktora yardımcı olabilecek olacak bir uzman sistemin tasarlanmasına kapı aralayabilir.

Temel bileşen analizi veya bir boyut azaltımı algoritması kullanma yoluna gidilerek, hastadan alınacak kan veya idrar numunelerinin laboratuvar sonuçlarına göre hastanın zamana göre iyileşip iyileşmediğini gösteren görsel bir uzman sistem gerçekleştirilebilir. Bu öneri, hastadan düzenli olarak veri alınması şartıyla yapılabilir.

Bu tez çalışmasında kullanılan özellik seçme yöntemlerinin dışında, çok sınıflı veri kümelerinde özellik seçme işlemini gerçekleştirirken, sınıf etiketlerini ikili gruplar halinde her bir özelliğin karşılıklı bilgi kazancını hesaplamak için ve içlerinden en yüksek kazancı sağlayan özelliklerin seçilmesi için kullanılabilir. Bu yöntemde, her bir ikili durum için en yüksek kazancı sağlayan özellikler seçilir ve içlerinden en çok tekrarlanan özellikler yeni özellik kümesine atılır. Önerilen özellik seçme işlemi genel olarak 3 veya daha fazla sınıfa sahip veri kümelerinde kullanılabilir.

Bulanık mantık veri ağırlıklandırma yöntemini Matlab’ da bir GUI programı tasarlanabilir. Böylelikle kullanıcının bölütleme sayısını seçmesine, üyelik fonksiyon tipinin değiştirmesine izin veren bir sistem ortaya çıkarılabilir. Bu şekilde işlenecek veri kümesi için en iyi optimum yapı elde edilebilir.

Değişkenlerin (veya özellikler) kendi aralarındaki ve özellikler ile çıkışlar arasındaki korelasyon hesaplanarak, birbirleriyle ilişkili özelliklerin veri kümesinden çıkartılmasına yani özellikler ile çıkış arasında yüksek korelasyon sağlayan özelliklerin seçilmesine yönelik yeni bir özellik seçme yöntemi oluşturulabilir.

Sınıflama algoritmalarının performanslarını arttırmak için diğer bir yöntem de ön-işleme adımı olarak “Kümele Yöntemleri” ni kullanmaktır. İlk olarak veri kümesinde kaç sınıf varsa o sayıda veri kümesini kümeye bölmek daha sonra özelliklerin küme merkezlerine olan uzaklıklarına göre veri kümesini ağırlıklandırmaktır. Bu işlem ile özelliğin küme merkezine en yakın veriye yüksek değerli ağırlık, uzak olana da daha düşük ağırlık verilerek yeni bir özellik uzayı oluşturulması yoluna gidilir.

Benzer Belgeler