Sınıflandırma Katmanı - Mimari Yapıların Bileşenleri

3. MATERYAL VE YÖNTEM

3.3. Evrişimsel Sinir Ağı (ESA)

3.3.1. Mimari Yapıların Bileşenleri

3.3.1.9. Sınıflandırma Katmanı

Sınıflandırma problemlerine yönelik oluşturulan derin öğrenme modellerinde, mimari yapı üzerinde çıktı katmanından önce, genellikle bir sınıflandırma katmanına yer verilir [162]. Sinir ağı üzerinde sınıflandırma katmanına gelen ham değerler vektörünün, hedeflenen kategoriler (sınıflar) dikkate alınarak etiketlenmiş bir olasılık vektörüne çevrilmesi ve bu sayede çıktının yorumlanabilir hale dönüştürülmesi beklenir. Bu dönüşümde kullanılabilecek işlevlerden Sigmoid, bir lojistik regresyon fonksiyonu olup, gerçek bir sayının olasılığa dönüştürülmesi gerektiği durumlarda ileri beslemeli sinir ağlarında yer alabilmektedir [163]. Sigmoid fonksiyonu Eşitlik 3.14’te verilmiştir.

/_QRN†S =_OX‡^O_ˆ‰Š (3.14)

Eşitlik 3.14’te sağlanan girdi değerleri vektörüne (N†) ait her bir değer için 0 ile 1 arasında değerler döndürülür. Şekil 3.13’te -5 ile +5 arasında değerler alan doğrusal aralıklı bağımsız bir vektör girdisi için Sigmoid fonksiyonunun döndürdüğü değerler gösterilmiştir. Sigmoid fonksiyonu, görüldüğü üzere, doğrusal değildir, 0 ile 1 arasında değerler döndürür ve negatif girdi değerleri için içbükey, pozitif girdi değerleri için ise dışbükey eğri oluşturarak “S” şeklinde bir geçiş sergiler [164].

Şekil 3.13. Sigmoid fonksiyonu

Bir diğer aktivasyon fonksiyonu Softmax, sınıflandırmada yer alan kategorilerin bağımsız olduğu durumlarda kullanılan ve bu nedenle lojistik regresyonun çok sınıflı yapıya genelleştirilebildiği bir sınıflandırma fonksiyonudur [165, 166]. Softmax fonksiyonu, bu sayede, çok değişkenli sınıflandırma görevleri için kullanılabilmektedir. Softmax ile normalleştirme işlemi, Eşitlik 3.15’te gösterildiği üzere, alınan girdinin üstel değerinin, vektör içindeki her bir değerin üstel değeriyle elde edilen toplamına bölünmesiyle hesaplanır [165]. Giriş değerleri vektörü (N†) negatif ve pozitif değerler içerebilir. Burada, N Softmax için girdi vektörü değerlerini temsil etmektedir. Bu vektör ‹ tabanlı standart üstel fonksiyona dönüştürülür ve tüm değerler boyunca normalleştirilir [164]. Böylece çıktı değerleri toplamı 1 olur. İşlem sonunda, çıktı vektörü Z sayıda sınıf için normalleştirilmiş olasılıklar içermiş olur.

Sonuçta, sınıflandırma katmanı ile sinir ağının çıktı katmanı aynı sayıda düğüme sahip olmuş olur.

/QRN†S =_DŒ•Ž•^‡^‰g_‡_‰Š (3.15)

Softmax işlevi her bir örnek girdi kümesinin yalnızca bir kategori ile eşleştirildiği durumlarda kullanılabilir. Bu işlev, gerçek değerler içeren bir sayı vektörünü değerler toplamı 1 olan bir olasılık vektörüne dönüştürülmesini sağlar. Şekil 3.14’te -5 ile +5 aralığında değerlerden oluşan bağımsız bir vektör girdisi için Softmax fonksiyonunun döndürdüğü değerler gösterilmiştir. Softmax fonksiyonu, görüldüğü üzere, girdi olarak alınan değerleri, normalleştirerek bir olasılık dağılımına dönüştürüp 0 ile 1 aralığında çıktılar oluşturur.

Şekil 3.14. Softmax fonksiyonu

Sigmoid aktivasyonunda girdi değerlerinin 0’dan uzaklaşmasıyla birlikte gradyanların kaybolma sorunu ortaya çıkarmaktadır ve çıktı değerlerinin 0’a ortalı olmaması gradyanların negatif ve pozitif değerler arasında dalgalanmasına sebep olmaktadır [164].

43 3.3.1.10. Kayıp (Maliyet) Fonksiyonu

Kayıp fonksiyonu sinir ağı modellerinin işlevselliğini belirlemede en önemli bileşenlerden biridir [167]. Sinir ağı ile tanımlanan algoritma, işlevini yerine getirdiğinde, modelin bu işleve bağlı tahmin hataları kayıp fonksiyonu üzerinden hesaplanır. Bu süreç, modelin daha iyi işlev yürütmesi ve daha doğru sonuçlara ulaşmasında parametrelerin optimize edilmesi için kullanılabilir. Bu bağlamda, kayıp fonksiyonu, ağın gerçekleştirmeyi amaçladığı görevi ne ölçüde başardığını gösteren skaler bir değer üretmektedir. Şekil 3.15’te gösterildiği üzere, ilk aşamada model girdi verileri üzerinden eğitildikten sonra, ikinci aşamada çıktılar elde edilir. Sonraki aşamada ise eğitim verileri kullanılarak çıktılardaki tahmin hataları hesaplanır (IV.a).

Bu evrede, geri yayılım algoritması uygulanarak dönen hataların türevleri alınır, modeldeki ağırlıkların katkı seviyelerini tekrar düzenlemek için ise gradyan temelli bir metot kullanılabilir [168]. Bu sayede, elde edilen kayıp değerleri modelin eğitiminde ağırlıkların güncellenmesine (IV.b) yönelik kullanılmak üzere bir geri bildirim mekanizması oluşturmuş olur.

Şekil 3.15. Kayıp fonksiyonu

Bir model için kullanılabilecek kayıp fonksiyonunun belirlenmesi, problemin tanımı ve istenilen çıktı ile doğrudan ilişkilidir [169]. Derin öğrenmede, ikili sınıflandırma veya regresyon gibi tahmine dayalı problemlerde çapraz-entropi yaygın olarak kullanılan bir yöntemdir [162, 166]. İkili çapraz-entropi kayıp fonksiyonu, Eşitlik 3.16’da gösterildiği gibi iki olasılık dağılımı arasındaki farkı hesaplarken örnek veri için ortaya çıkan kaybı ortalama kullanarak bulur.

44 0R,•; ,S = 5G_I^OD ,I Q

Q ‘’“”/QRNS– ^ R: G ,QS —5‘’“”: G /QRNS– (3.16)

Kayıp değerinin hesaplanmasında kullanılan aktivasyon fonksiyonu farklılık gösterebilir; örneğin Softmax veya Sigmoid aktivasyonlarına bağlı kayıp fonksiyonları tanımlanabilir [166]. Eşitlik 3.16’daki 0 fonksiyonu çapraz entropi için iki parametreye ihtiyaç duymaktadır. İlk parametre, aktivasyonu temsil eden ,• , yani /QRNS'in çıktısıdır ve tahmin edilen değerlerin olasılık dağılımını içerir. İkinci parametre ise, doğru sınıf etiketlerini temsil eden , vektörüdür. Kayıp fonksiyonu öğrenme sürecinin gerçekleşebilmesine yönelik bir parametre akışı oluşturulmuş olur.

Bu akış, seçilecek bir gradyan iniş optimizasyonu yöntemiyle birlikte çalışarak sinir ağında eğitim yinelemesi amacıyla kullanılmaktadır [162].

3.3.1.11. Çıktı Katmanı

ESA mimarisindeki sinir ağlarında gizli katmanlardan gelen değerler en son bir çıktı katmanında değerlendirilir. Çıktı katmanı nihai sonucun üretilmesini sağlayan katmandır. Bir sınıflandırma problemini ele aldığımızda çıktı katmanı, sınıflandırma katmanıdır. Bu katmanda, önceki katmandan alınan girdi değerleri bir aktivasyon fonksiyonu ile (örneğin Softmax) çıktı değerlerine, olasılık dağılımına dönüştürülür.

Bu dönüşümün sağlanabilmesinden sorumlu olan sınıflandırma katmanı, sınıflandırılacak sınıf sayısına eşit nöron sayısı içeren bir sınıflandırıcı işlevden yararlanır. İkili sınıflandırma problemi için çıktı katmanı 2 nöron içerirken, çok sınıflı problemlerde bu sayı daha fazla olabilir.

Belgede Makine öğrenme temelli glioma analizi ve derecelendirme sistemi (sayfa 55-59)