• Sonuç bulunamadı

3. MATERYAL VE YÖNTEM

3.2. Tek-Noktalı Türeve Bağlı Optimizasyon Yöntemleri

En temel klasik optimizasyon yöntemlerinden olan türeve bağlı teknikleri araştırmadan önce temel bazı ifadelerin bilinmesi gereklidir. Buna göre; D-boyutlu bir parametre vektörü şu şekilde tanımlanır (Arora 2004):

(

) ( ) (3.3)

Burada; italik karakterde ve küçük harfler ile yazılan parametreler tekil parametreleri ifade ederken, koyu karakterde ve küçük harf ile yazılan ifade bir vektörü temsil etmektedir. Bunların dışında koyu ve büyük harf ile yazılan ifade ise bir MATRİSİ temsil etmektedir. Bazı özel operatörler ise formülasyonları basitleştirmek için klasik

22

optimizasyon yöntemlerinde sıklıkla kullanılmaktadırlar. Bunlardan bir tanesi değişkenlerin birinci dereceden türevlerini almaya yarayan gradyan vektörünü oluşturmada kullanılan nabla operatörüdür:

şeklinde ifade edilmektedir. Bu ifadeden yararlanarak bir fonksiyonun ikinci-dereceden kısmi türevlerini ifade eden Hessian kare matrisi şu şekilde tanımlanır (Arora 2004):

( ) ( ) serisine açılarak aşağıdaki denklem elde edilir:

23 ( ) ( ) ( )

( ) ( )

( )

(3.7)

Temel matematik bilgisinden hatırlanacağı üzere bir noktanın ekstremum olması için türevinin sıfıra eşit olması gerekir:

( ) ( ) ( ) (3.8) Bu nedenle, noktası etrafında Taylor serisine açılan ( ) amaç fonksiyonunda optimum nokta, birinci türevin sıfıra eşit olduğu noktasıdır. Ancak Denklem 3.7 sadece birinci türevler içermemektedir. Görüleceği üzere ikinci ve daha üst dereceden türevleri de içermektedir. Üçüncü terimden sonraki ifadelerin fonksiyona etkisi çok küçük olduğundan hassasiyet açısından önemsenmeyebilir, dolayısıyla üçüncü terimden sonraki ifadeler değerlendirmeye katılmayabilir. Yine de amaç fonksiyonu olan Taylor serisi açılımı, ikinci derece türev ve ile `ın farkının karesini ihtiva etmektedir.

Burada Hessian matrisi tarafından negatif bir etkinin söz konusu olmaması için Hessian matrisi ( )`in yarı-kesin pozitif matris olması gerekmektedir (Arora 2004). Tüm bu halleri dikkate alarak ekstremum noktayı elde edebilmek için birinci türevin sıfıra eşit olduğu durum Denklem 3.7`ye uygulanacak olursa;

( ) ( ) ( ) ( ) (3.9) denklemi elde edilmiş olur. Bu denklem yalnız başına bırakılacak şekilde tekrar düzenlenecek olursa;

( ) ( ) (3.10)

ifadesine ulaşılmış olur. Burada, ifadesi Hessian matrisinin tersini ifade etmektedir.

Eğer amaç fonksiyonu ikinci dereceden ve türevi mevcut bir denklemse Denklem 3.10`daki ifade yardımı ile bu fonksiyonun gerçek optimum noktası rahatlıkla hesap edilebilir. Bununla birlikte yukarıda çalışma prensibinin üzerinde kısaca durulan klasik optimizasyon yöntemlerinin bu görevlerini başarıyla yerine getirebilmeleri için iki önemli gereksinim vardır:

24

1. Amaç fonksiyonunun iki kez üst üste türevi alınabilir olmalıdır.

2. Amaç fonksiyonu sadece bir tane global optimum noktaya sahip olmalıdır.

İki kez türevi alınabilir ve sadece bir tane optimum noktaya sahip iki tane örnek amaç fonksiyonu şu şekilde olabilir:

( ) ( ) (3.11)

( ) ( ) (3.12)

Denklem 3.11`deki amaç fonksiyonu sadece bir tane minimuma sahip iken Denklem 3.12`de verilen amaç fonksiyonu ise sadece bir tane maksimuma sahiptir. Bu amaç fonksiyonlarının grafikleri Şekil 3.1`de verilmiştir. Bu şekilden de görüleceği üzere belirlenen aralıkta her iki fonksiyon da sürekli ve sadece 1 tane optimum noktaya sahiptirler.

(a) (b) Şekil 3.1 Minimuma (a) ve maksimuma (b) sahip iki amaç fonksiyonu

Dik-iniş yöntemi (steepest descent), türevi alınabilen ve tek minimum noktaya sahip olan bir fonksiyonun minimumunu bulan türeve bağlı en basit yöntemlerden birisidir.

Denklem 3.10`a bağlı olarak bu yöntem ters Hessian matrisi ( )`ın birim matris ile yer değiştirebileceğini varsaymaktadır:

(

) (3.13)

25

Bu yer değiştirme direkt olarak minimuma etki etmese de noktasına etki etmektedir:

( ) (3.14)

Burada `dan `e uygun bir ilerleme veya adım ile hareket edildiğinde gradyanın negatif etkisi ile yeni nokta minimuma daha yakın olacaktır. Bu işleme adım boyutu ile bir iterasyon süresince devam edilecek olursa dik-iniş yönteminin temel prensibi elde edilmiş olur:

( ) (3.15)

Burada ilk önce negatif gradyan hesap edilerek yön tayin edilir, sonra belirlenen adım boyutu kadar ilerleme gerçekleştirilerek ekstremum noktaya adım büyüklüğünün değerine bağlı olarak belirli yakınlıkta ulaşılmaya çalışılır. Şekil 3.2 dik-iniş yönteminde bu prensibi kullanarak ve adım boyutunun her iterasyonda küçültülerek başlangıç noktasından optimum nokta olan noktasına ilerlemeyi göstermektedir.

Şekil 3.2 Dik-iniş yönteminde ekstremum noktaya ilerleme aşamaları

Minimum noktaya erişme zamanı ve bulunan minimum noktanın gerçek minimum değere olan yakınlığı adım büyüklüğüne bağlıdır. Örneğin eğer adım büyüklüğü çok küçük seçilirse minimum noktaya ulaşma zamanı çok artacak ancak bununla birlikte bulunan minimum noktanın gerçek minimum değerine olan yakınlığı artacaktır yani hassasiyet de artacaktır. Ancak eğer adım büyüklüğü çok büyük seçilirse bu sefer bulunan minimum noktanın gerçek minimum noktadan uzaklığı artacak ve hassasiyet

Başlangıç 𝐱𝟎

𝐱𝑒𝑘𝑠𝑡

𝐱

𝐱

𝑓(𝑥 𝑥 ) fonksiyonunun eşyükselti çizgileri

26

azalacaktır. Bir diğer önemli husus da her problem için en uygun adım büyüklüğünün seçilmesi gerekliliğidir. Diferansiyel gelişim algoritmasının bir üstünlüğü de burada bahsedilen adım büyüklüğü probleminin olmamasıdır.

Hessian matrisinin tersini, ( ), birim matris ile değiştirmenin getirdiği bir takım olumsuzlukları gidermek için daha detaylı ve düzenli hazırlanmış yöntemler geliştirilmiştir. Gauss-Newton, Davidon-Fletcher-Powell, Broyden-Fletcher-Goldfarb-Shanno bu yöntemler arasında sayılabilir (Arora 2004). Bu yöntemler kabaca iki kısma ayrılmaktadır. Quasi-Newton olarak adlandırılan birinci gruptakiler Hessian matrisinin tersinin yerine bir dizi matris hesaplamaları kullanmaktadırlar, ancak burada yoğun matris hesaplamaları yapılmaktadır. Bunun tersine conjugate gradyan yöntemleri olarak adlandırılan ikinci gruptakiler ise Hessian matrisinden tamamen vazgeçmekte onun yerine ikinci türev hesaplarından kaçınmak için conjugate yönlerde doğrusal optimizasyonları kullanmaktadırlar. Quasi-Newton ve conjugate gradyan yöntemlerine ek olarak bu iki yöntemin karışımı şeklinde de yöntemler mevcuttur. Buna rağmen tüm bu yöntemler amaç fonksiyonunun bir veya iki defa türev alınabilir olmasını gerektirmektedirler. Bununla birlikte ikinci dereceden amaç fonksiyonlarında gösterdikleri hızlı yakınsama özelliklerini ikinci derece olmayan diğer fonksiyonlarda kaybetmektedirler. Amaç fonksiyonunun tekillik göstermesi veya çok fazla sayıda ve derecede türevler içermesi durumlarında ise yüksek sayılabilecek sayısal hesaplama hataları oluşabilmektedir. Bu noktada amaç fonksiyonunun türev alınabilir olmasına bir başka deyişle türevlerinin mevcut olmasına gerek duymayan yöntemler bir esneklik getirmektedir.

3.3. Tek-Noktalı Türevden Bağımsız Optimizasyon Yöntemleri ve Adım