Yapay Sinir Ağı Modellerinde Kullanılan Süreçler ve Algoritmalar Algoritmalar

LİTERATÜR TARAMASI

3. YAPAY SİNİR AĞLARI VE MODELLERİ 1 Yapay Sinir Ağları 1 Yapay Sinir Ağları

3.1.4 Yapay Sinir Ağı Modellerinde Kullanılan Süreçler ve Algoritmalar Algoritmalar

İstatistiksel yöntemlerde verilerden en iyi performansla doğru sonuçları elde etmek için çeşitli algoritmalar kullanılmaktadır. Yapay sinir ağı modelleri olan Bi-LSTM ve feed forward methodlarında da performansı artırmak için kullanılan optimizasyon ve öğrenme algoritmaları mevcuttur. Bunlarla beraber büyük ölçekli verilerin oluşturduğu modellerde bilgilerin doğru işlenebilmesi ve okunabilmesi için de normalleştirme yöntemlerini kullanılması gerekmektedir.

3.1.4.1 Verileri Normalleştirme Yöntemleri

Yapay sinir ağlarının eğitiminde belirli ön işleme (preprocess) adımları uygulayarak sinir ağı eğitimi daha verimli hale getirilebilir. Yapay sinir ağı işleme fonksiyonları, ağ kullanımı için girdileri daha iyi bir forma dönüştürmektedir. Ham girdiler için normalleştirme sürecinin, verilerin eğitime uygun olması için hazırlanmasında çok büyük etkisi vardır. Bu normalleşme olmadan, sinir ağlarını eğitmek çok yavaş olabilmektedir. Birçok veri normalleştirme türü vardır. Sinir ağlarındaki olumsuz etkileri en aza indirmek amacıyla normalleştirme her bir giriş verisini aynı değer aralığında ölçeklendirmek için kullanılabilir. Girdilerin genellikle farklı ölçeklerde olduğu modellemelerde özellikle yararlıdır. Normalleştirme sürecinde farklı teknikler kullanılabilmektedir (Jayalakshmi, Santhakumaran 2011: 91). Doğru verilerin işlenemebilmesi ve yorumlanabilmesi için tercih

edilen methodlardan ikisi “normalizasyon” ve “z-score standardizasyon”dur.

3.1.4.1.1 Normalizasyon

Normalizasyonun amacı, Öklid norm matrisiyle elde edilebilecek olan değerler için 0 dan 1 e kadar karakter kazandırmaktır (Trebuna vd. 2014: 383).

Normalizasyonda en çok tercih edilen tekniklerden birisi “min-max normalizasyonu”dur. Bu tekniğin formülü aşağıdaki gibidir;

𝑋𝑛𝑜𝑟𝑚 =_{𝑚𝑎𝑘(𝑋) − min⁡(𝑋)}^{𝑋 − min⁡(𝑋)} 3.1.4.1.2 Z-Score Standardizasyonu

İstatistikî analizlerde en çok kullanılan normalleştirme metotlarından birisi de Z-Score standardizayonudur. Bu yöntemde standardize edilmiş değer alınan değer ile ortalama değer arasındaki fark standart sapmaya bölünerek elde edilmektedir (Larose 2005: 37).

𝑋𝑠𝑡𝑎𝑛𝑑 =_{𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑡⁡𝑠𝑎𝑝𝑚𝑎(𝑋)}^{𝑋 − 𝑜𝑟𝑡𝑎𝑙𝑎𝑚𝑎(𝑋)}

3.1.4.2 Feed Forward Öğrenme/Eğitim/Optimizasyon Algoritmaları

Eğitim, YSA'nın en uygun ağırlıklarını ve bias’ını belirleme sürecidir. Bu süreç ağın çıktısı ile istenen hedef arasındaki toplam hata işlevini tanımlanarak ve ardından ağırlıklar en aza indirilerek yapılır. İleri

beslemeli yapay sinir ağlarının öğrenilmesind kullanılan ve çalışmada ele alınan öğrenme algoritmaları aşağıdaki gibidir (Zhou, Jang 2010: 946; Baghirli 2015: 9-12):

• Lavenberg-Marquardt (LM) • Bayesian regularization (BR) • Scaled conjugate gradient (SCG)

• Conjugate Gradient Backpropagation with Fletcher-Reeves Restarts (CGF)

3.1.4.2.1 Lavenberg-Marquart Algoritması

LM algoritması, f(x) fonksiyonunun ikinci derece kısmı türevini içeren ve simetrik yapıda olan Hessian matrisini hesaplamak zorunda kalmadan ikinci dereceden eğitim hızına yaklaşmak için tasarlanmıştır. Performans işlevi bir toplam kareler şeklinde olduğunda, Hessian matrisi yaklaşık olarak hesaplanabilir ve eğim ölçümlenebilir (akt. Baghirli 2015: 9).

LM algoritmasının eşitliği aşağıdaki gibidir;

𝑤𝑖𝑗(𝑘 + 1) = 𝑤𝑖𝑗(𝑘) − (𝐽_𝑘𝑇𝐽𝑘+ 𝜇𝐼)−1𝐽𝑘𝑒𝑘

wij, ith nöronunun jth girdisi ağırlığı; ek, kth iterasyonundaki hata sayısı; Jk wij(k) ağırlığına ilişkin ek jakobisi; her zaman pozitif olan µ kombinasyon katsayısı ve I ise birim matrisidir (Keshavarz-Hedayati vd. 2015: 2).

3.1.4.2.2 Bayesian Regularization Algoritması

Yapay sinir ağlarında düzenleme, eğitim algoritmasına kısıtlama getirme sürecidir. Bu sınırlama, kötü bilgilendirilmiş problemi, belli bir bilgi ve varsayım ekleyerek iyi bir soruna dönüştürür. Bayesian düzenlemesinde, performans işlevi bir hata teriminin toplamı ve ağın ağırlığına bağlı bir terim olarak oluşturulur. Örneğin (Keshavarz-Hedayati vd. 2015: 2);

𝐸_𝐷 = ∑(𝑡_𝑖− 𝑜_𝑖)2 𝑁

𝑖=1

N, giriş veri noktası sayısı; ti, ith veri noktası için hedef değer, oi ise ağın veri noktasına verdiği cevaptır. Performasn işlevi ise aşağıda gösterildiği gibidir;

𝐹 = 𝛽𝐸_𝐷+

α ve β amaç fonksiyonu parametreleridir. wij, jth nöronuna olan girdinin ağırlığıdır. Bu metodoloji kullanıldığında, eğitim süreci genellikle küçük ağırlıkları olan ağları seçerek aşırı esnek veya karmaşık ağlardaki problemleri çözümleyebilir (Keshavarz-Hedayati vd. 2015: 2).

Ancak, α ve β'nın optimal değerlerini bulmak zor bir iştir. Bayesian düzenleme algoritmasında, α ve β bir başlangıç değeri kabul eder ve LM kullanılarak, bir eğitim iterasyonu gerçekleştirilir. Daha sonra bir olasılık dağılımı (normal dağılım) kullanılarak, α ve β'nın optimal değerleri hesaplanır. Sonra bu işlem yakınsama sağlanana kadar

tekrarlanarak devam eder (Foresee, Hagan 1997: 1930-1931). Anlaşıldığı üzere Bayesian regularization algoritması, lavenberg-marquart optimizasyonuna göre ağırlıkları ve bias değerlerini güncelleyen bir eğitim algoritmasıdır. Hata karelerini ve ağırlıkların kombinasyonunu en aza indirir ve daha sonra genel olarak iyi bir ağ oluşturmak için doğru kombinasyonu belirler (akt. Baghirli 2015: 12).

3.1.4.2.3 Scaled Conjugate Gradient Algoritması SCG algoritması, eşlenik gradyan yönteminin, ölçeklendirilmiş adım büyüklüğüne sahip bir varyasyonudur. Ağırlıklar eşlenik doğrultular boyunca ayarlanmaktadır. Bununla birlikte, her bir yinelemede zaman alan hat aramalarını önlemek için, SCG algoritması, adım boyutunu ölçeklendirmek adına model-güven bölgesi yaklaşımını birleşik gradyan yaklaşımı ile birleştirir. Bu algoritma, diğer eşlenik gradyan algoritmalarından daha fazla yakınsama yapmak için daha fazla yineleme gerektirebilir, ancak genellikle daha az hesaplama karmaşıklığı içerir ve her yineleme için daha az bilgisayar belleği gerektirmektedir (Zhou, Yang 2010: 947).

SGC'yi kullanarak bir sinir ağını eğitmek için; ağırlıklar, girdiler ve transfer fonksiyonları türev fonksiyonlara sahip olmalıdır. SCG, Newton metodu ile gradyan azalma arasında olan bir yöntemdir. Newton’un yönteminde, Hessian matrisinin ters çevrilmesi, saklanması ve değerlendirilmesi gibi bazı bilgiler gereklidir ve SCG bu bilgilerden kaçınır. SCG, gradyan azalma yöntemiyle bağlantılı olarak yavaş yakınsamayı hızlandırmak için uygulanmaktadır. w0’ın başlangıç parametresi vektörü ve “vo = -g0”ın başlangıç eğitim

vektörü olduğu düşünüldüğünde, eğitim fonksiyonu eşitliği şu şekilde oluşturulabilir (Bataineh, Kaur 2018: 176);

vi+1 = gi+1 + viXi, i = 0,1,2,3,…

Burada v eğitim vektörü, X ise eşlenik (konjuge) parametredir. SCG'de eğitim daima gradyanın negatifine doğru sıfırlanır (Bataineh, Kaur 2018: 176-177).

3.1.4.2.4 Gradient Backpropagation with Fletcher-Reeves Restarts Algoritması

Bu algoritma Fletcher ve Reeves tarafından 1964’te önerilmiştir. Modelde algoritma mevcut gradyanın norm karesinin önceki gradyanın norm karesine oranı alınarak hesaplanmaktadır (Zhou, Yang 2010: 946).

Eşlenik gradyan algoritmalarının çoğunda, her bir yinelemede adım boyutu ayarlanır ve steepest descent algoritması yönünde (gradyanın negatifi) bir arama yapılmakta ve küçültme, geçerli arama yönünde gerçekleştirilmektedir. Yeni arama yönü, steepest descent algoritması yönü ile önceki arama yönü olan βk ile birleştirilerek, Fletcher-Reeves güncellemesinde parametre olarak belirlenir (Payal vd. 2014: 2).

Belgede ( Feed Forward : Bi-Lstm ) (sayfa 195-200)