• Sonuç bulunamadı

4. ARAŞTIRMA BULGULARI VE TARTIŞMA

4.8. Performans Değerleri

Sonuçlar hem sıfırdan eğitilen modelin hem de ön-eğitimli derin ESA’ların genel olarak yüksek performansa sahip olduğunu göstermiştir. Modeller (1-4), 0,97'nin

73

üzerinde gösterdikleri AUC ortalaması ile DDG ve YDG lezyonlarını ayırt edebilmiştir. Her model için sınıflandırma doğruluğunun karşılaştırması Çizelge 4.4'te listelenmiştir. Model 1’in ortalama doğrulama kaybı, duyarlılık, özgüllük, kesinlik, F1 skor, doğruluk ve AUC değerleri sırasıyla 0,980, 0,963, 0,961, 0,970, 0,971 ve 0,989'dur. Model 3 (GoogLeNet-tabanlı), ön-eğitimli diğer modellerden daha iyi performans göstermiştir ve 0,980 duyarlılık, 0,889 özgüllük, 0,891 kesinlik, 0,933 F1 skor, 0,933 doğruluk ve 0,987 AUC elde etmiştir. Model 2 (AlexNet-tabanlı) ise duyarlılık, özgüllük, kesinlik, F1 puanı, doğruluk ve AUC için sırayla 0,940, 0,907, 0,904, 0,922, 0,923 ve 0,970 performans değerlerine sahiptir. Model 4 (SqueezeNet-tabanlı) performansı ise AUC değeri açısından AlexNet'e yakın bulunmuştur.

SqueezeNet'in duyarlılığı, özgüllüğü, kesinliği, F1 skoru, doğruluğu ve AUC değeri sırasıyla 0,920, 0,870, 0,868, 0,893, 0,894 ve 0,975’tir. Şekil 4.6’da, sonuçlara ilişkin her bir eğitimde hesaplanan ROC eğrileri AUC değerleriyle birlikte raporlanmıştır.

Çizelge 4.4’te test sonuçları, her bir modele ait ortalama doğrulama kaybı, duyarlılık, özgüllük, kesinlik, F1 skoru, test doğruluğu ve AUC değerleri ile raporlanmaktadır.

Çizelge 4.4. Modellerin performans değerleri

Model 1, iki yanlış pozitif ile 50 DDG lezyonundan 49'unu ve bir yanlış negatif ile 54 YDG lezyonundan 52'sini doğru bir şekilde tahmin etmiştir. Model 2, Model 3 ve Model 4 için ise doğru sınıflandırılmış DDG lezyonlarının sayısı sırasıyla beş yanlış pozitif ile 47, altı yanlış pozitif ile 49 ve yedi yanlış pozitif ile 46’dır. YDG lezyonları için Model 2, Model 3 ve Model 4 sırasıyla üç yanlış negatif ile 49, bir yanlış negatif ile 48 ve dört yanlış negatif ile 47 vakayı doğru şekilde tahmin etmiştir. En az gerçek pozitif ve gerçek negatif değerleri Model 4 sağlarken, Model 1'de en az yanlış pozitif ve en az yanlış negatif değerler elde edilmiştir. Sonuçlara ilişkin model-bazlı kümülatif karışıklık matrisleri Şekil 4.7'de sunulmuştur.

74

Uygulanan ön deneysel çalışmalar hariç, modellerin eğitimi için programın toplam çalışma süresi 41,7 saat sürmüştür. Tüm yinelemeler dikkate alındığında Model 1, Model 2, Model 3 ve Model 4’e ait ortalama dosya boyutları ve ihtiyaç duyulan ortalama eğitim süreleri sırasıyla 3 MB ile 19,58 dk., 217,02 MB ile 123.32 dk., 23,12 MB ile 237,74 dk., 2,91 MB ile 120.30 dakikadır. Eğitim sürecince, Model 1, Model 2, Model 3 ve Model 4 sırasıyla ortalama 1556,40, 658,40, 484,00, 578,20 yineleme (iterasyon) içeren ortalama 39,20, 16,60, 12,80 ve 15,00 epok gerçekleştirmiştir.

Şekil 4.6. Her bir eğitim için ROC eğrileri ve ortalama AUC değerleri

Şekil 4.7. Kümülatif karışıklık matrisleri

75

Modellerin her bir çapraz doğrulamaya bağlı test performansı değerleri Çizelge 4.5'te raporlanmıştır. Tüm modeller ele alındığında 0,900-1,000 duyarlılık, 0,818-1,000 özgüllük, 0,778-1,000 kesinlik, 0,857-1,000 doğruluk ve 0,737-1,000 F1-skor elde edilmiştir.

Çizelge 4.5. Her bir çapraz doğrulamanın test performans değerleri

Fold Model Duyarlılık Özgüllük Kesinlik Doğruluk F1 skor eğrileri Şekil 4.8’de sunulmuştur. Elde edilen değerlerinin değişim aralıkları renklendirilmiş alanlar üzerinden ve ortalama değerler ise çizgiler ile gösterilmiştir.

76

Şekil 4.8. Eğitim/doğrulama grafikleri: 5-kat çapraz doğrulamada her bir modelin eğitiminde izlenen doğrulama (mavi alan) ve eğitim (kırmızı alan) dahilinde veri setine ait doğruluk (accuracy) ve kayıp (loss) standart sapma alanları ve ortalama değer çizgileri

77 4.9. Lezyon Analizi

Tüm modellerin her bir lezyon için performansları incelendiğinde, kümülatif karışıklık matrislerinde de raporlandığı üzere, en az bir modelin yanlış tahminlemede bulunduğu 16 lezyon bulunduğu anlaşılmıştır. Yanlış tahminlenen lezyonların (G1-G16) detaylı analizi Şekil 4.9’da sunulmuştur. Bu lezyonlardan G15, dört model tarafından da doğru bir şekilde tanımlanamamıştır. G1 ve G12 lezyonları ise modellerden yalnızca bir tanesi tarafından doğru şekilde sınıflandırılmıştır. Sonuçlar, patolojik veriler eşliğinde değerlendirildiğinde, G1, G12 ve G15 lezyonlarında bulunan özellikle kistik morfolojik oluşumların getirdiği heterojen yapıların, modellerin sınıflandırma performansını düşürmeye eğilimli olduğu anlaşılmıştır. Şekil 4.9’da modellerden en az birinin doğru tahminlemede başarısız olduğu model-bazlı lezyon sınıflandırma sonuçları tahminlemede elde edilen yüzde değerleri ile raporlanmıştır.

Sonuçlar, tüm modellerin yüksek ve düşük dereceli gliomlar için özellik temsillerini ve etkinleştirmeleri etkili bir şekilde öğrenebileceğini göstermiştir. Modellerin sınıflandırma katmanlarındaki özellik görselleştirmesi, algoritmaların her sınıf için karmaşık dokular ve desenler oluşturabildiğini göstermektedir. Modeller tarafından örnek girdilere (G1 ve G4 lezyonlarına) yönelik öğrenilmiş aktivasyonların nasıl şekillendiği Şekil 4.10'da sunulmuştur. Model bazlı öğrenilen DDG ve YDG özelliklerinin görselleştirilmesi ise Şekil 4.11’de verilmektedir. Model 1’in son ReLU katmanındaki öğrenilen örnek özellikleri Şekil 4.12'de, seyreltme katmanı tarafından öğrenilen örnek özellikleri ise Şekil 4.13'te gösterilmektedir.

Şekil 4.9’da tahmin edilen sınıflar, her bir model için sınıflandırma katmanından dönen derece tahminleme yüzdeleri ile gösterilmektedir. Lezyonların derecelerini doğru tahminleyen modeller yeşil renkte gösterilmiştir. Lezyonları yanlış şekilde sınıflandıran modeller ise kırmızı renktedir. G1, G12 ve G15 lezyonlarındaki kistik oluşumlar sarı renkte kesikli dikdörtgen kutular ile kabaca belirtilmiştir.

78

Şekil 4.9. Model-bazlı lezyon analizi: en az 1 hatalı tahminleme raporu

79

Şekil 4.10. Model-bazlı örnek düşük ve yüksek-dereceli gliomlara yönelik öğrenilen aktivasyon analizi

Şekil 4.11. Model-bazlı düşük ve yüksek-dereceli gliomlara yönelik öğrenilen örnek özellikler

80

Şekil 4.12. Model 1’in son ReLU katmanı (#27) tarafından öğrenilen örnek özellikleri

Şekil 4.13. Model 1’in seyreltme katmanı (#28) tarafından öğrenilen örnek özellikleri

81 4.10. Literatür Karşılaştırması

Gliomların makine öğrenmesi ile derecelendirilmesi ve analizine yönelik son yıllarda gerçekleştirilen bazı araştırmalar Çizelge 4.6’da sunulmuştur. Bu araştırmalar, sınıflandırmada kullanılan algoritma/metot, ele alınan veri seti ve sonuçta elde edilen doğruluk ve AUC düzeylerine göre raporlanmıştır. Çalışmaların bazıları (%47) halka açık veri setlerinden yararlanırken, bazıları da (%53) gerçek klinik verilerine dayanmaktadır. Son yıllarda yapılan bazı çalışmaların (%35) derin öğrenme odaklı olduğu, ESA mimari yapılarından ve transfer öğrenme yaklaşımlarından yararlandığı görülmektedir.

Ortalamaları BraTS %91,5 Benzerlik 8 [103] DVM, ROA, LR BraTS %92,13 Doğruluk

82

Raporlanan çalışmalar, sonraki tedavi süreçlerinin planlanmasında önceki teşhis ve tedavi kararlarına ilişkin bilgilerden yola çıkarak MR görüntüleme temelli bilgisayar ve görüntü işleme tekniklerinin yardımıyla gliomların makine öğrenme algoritmaları ile analizinin, tanısal doğruluğu destekleyici fikirlerin aranmasında katkı sağlayıcı olabileceğini göstermektedir. Çizelge 4.7 listelenen son çalışmalar (12,14-21) sınıflandırmayı verilerde otomatik özellik çıkarımı ile desteklemiştir. Bu kapsamda, tez çalışmasında sunulan modellerin de (Model 1-4) özellik çıkarımı sürecini MRG verilerini kullanan ön-eğitimli veya özelleştirilmiş ESA mimari yapıları üzerinden otomatik kılarak rekabet edici sonuçlar elde ettiği görülmektedir. Araştırmalardaki, mimari yapılar, veri kümelerindeki farklılıklar ve ele alınan gruplama yaklaşımları performansı etkilemektedir. Tez çalışması dahilinde önerilen modeller, DSÖ’nün güncel standartlarına göre gruplanmış ve önerilen 2B mimari yapılar üzerinden özgün veri temsilleri çıkarılarak eğitilmiştir. Retrospektif incelemeye alınan vaka sayısı çalışmanın kısıtlarındandır. Bu çalışma kapsamında, en iyi performans ortalaması

%97,1 Doğruluk; %98,9 AUC ile önerilen ESA modeli üzerinden elde edilmiştir.

83

Benzer Belgeler