Değerlendirme Kuralları ve Yöntemleri

3. MATERYAL VE YÖNTEM

3.7. Değerlendirme Kuralları ve Yöntemleri

İfade edilen değerlendirme aşamalarında, sonuçların tutarlılığına emin olmak adına çeşitli kurallara uymak da oldukça önemlidir. Ayrıca, çalışmayla birlikte geliştirilen tekniklerin – algoritmaların başarımlarını ve literatürdeki yerlerini doğru bir şekilde tespit edebilmemiz için de, objektif yapıda, farklı perspektiflerden değerlendirme tekniklerini uygulamamız gerekmektedir.

Öncelikli olarak, değerlendirme süreçlerinde uyulan başlıca kuralları kısaca şöyle sıralayabiliriz:

 Değerlendirme işlemlerinde aynı konfigürasyondaki bilgisayar sistemi kullanılmış ve yine test süreçlerinin tümünde objektif sayısal bulgular elde

edilmesi adına sistemin harcamakta olduğu kritik kaynakların (Örneğin; kullanılabilir ana bellek – RAM miktarı) sürekli aynı düzeyde olması sağlanmıştır.

 Kullanılan sürekli optimizasyon algoritmaların – tekniklerin tümü MATLAB ortamında, standart ve ilgili varyasyon yapılarına uygun bir şekilde kodlanmıştır.

 Değerlendirme süreçlerine dahil edilen sürekli optimizasyon tabanlı algoritmaların test fonksiyonları süreçleri ve diğer uygulamalarda (hibrit kullanım ve görüntü yeniden oluşturma çalışmaları hariç) süreçlerinde 50’şer çözüm elemanı – parçacık ile çalıştırılması sağlanmış, yine bütün algoritmaların parametreleri, literatürde standart olarak kabul edilen değerler çerçevesinde seçilmiştir. Hibrit kullanım uygulamalarındaki parçacık sayıları eğitilen hedef sistemlerin ihtiyaçlarına göre belirlenmiş, görüntü yeniden oluşturma çalışmalarında ise problem çözümlerine her ne kadar 50’şer parçacık ile başlanmışsa da, hesaplanan hata değerleri ve piksel durumlarına göre var olan parçacıkların ek parçacıklarla desteklenmesi şeklinde bir eklenti, ilgili algoritmalara (GOA ve BiGOA) eklenmiştir.

 Tutarlılığın ölçülmesi adına, optimizasyon algoritmalarının aynı problem üzerinde defalarca çalıştırılması ve bu çalıştırmalar netices elde edilen sonuçların bütünü üzerinden yargılara ulaşılması yolu tercih edilmiştir. Buna göre, her bir algoritmanın test fonksiyonları için 50’şer kez, diğer uygulamalarda (gerçek yaşam tabanlı problemler; görüntü yeniden oluşturma çalışmaları hariç) ise 30’ar kez çalıştırılması yoluna gidilmiştir.

 Başta geliştirilen algoritmalar olmak üzere, değerlendirme süreçlerine dâhil olan algoritmaların başarım durumlarını anlamak adına şu kriterler çevresinde bulgular elde edilmiştir:

 Bulunan optimum değerlerin isabetliliği,

 Farklı test – problemler kapsamında genel istikrar.  Hata durumları ve yakınsama performansları,

 Sürekli optimizasyon test fonksiyonlarının çözümlenmesi aşamasında algoritmaların durma kriteri olarak belirli iterasyon sayılarının kullanılması tercih edilmiştir. Buna göre, tek-amaçlı (kısıtlı-kısıtsız) iki-boyutlu fonksiyonlarda her çalıştırmada 1.000 iterasyon seçilmiştir. Tek-amaçlı, (kısıtlı-kısıtsız) çok-boyutlu ve IEEE CEC 2015 test fonksiyonları çözümlemelerinde ise, tercih edilen 30 boyut kapsamında 10.000 iterasyon gerçekleştirilmiştir. Çok-amaçlı fonksiyonlarda ve gerçek yaşam tabanlı problemlerin çözümlenmesi süreçlerinde ise iterasyonun 20 ve altı boyutlar için 20.000, üstü boyutlar için ise 30.000 olarak belirlenmiştir.

İfade edilen kurallar ve kriterler çerçevesinde, ihtiyaç duyulan bulguların elde edilmesi amacıyla şu yöntemler izlenmiştir:

 Bulguları geniş çerçevede kolayca yorumlayabilmek adına yeri geldiğinde grafiklerden de faydalanılmıştır.

 Test fonksiyonlarının çözülmesinde, algoritmaların kendi içindeki istikrarlarını anlamak için, gerçekleştirilen 50 çalıştırma aşamasının elde edilen en iyi sonuçları, ortalama değeri ve standart sapma gibi istatistiksel bulgular kullanılmıştır (10-15’ten küçük değerler 0 olarak kabul edilmiştir. Ancak 10-15_{’ten küçük değerlerin büyüklüğü de algoritmalar arası sıralamayı}

belirlemede dikkat edilen bir kriter olmuştur).

 Her farklı test fonksiyonu içerisinde ilgili algoritmalar için elde edilen sonuçların istatistiksel anlamda kanıtlanması ve çalışmada geliştirilen algoritmaların başarımı hakkında ayakları yere basan yorumlara ulaşabilmek için ikili kıyaslamalar yapılmıştır. Bu amaçla, geliştirilen her bir algoritma değerlendirmelere konu olan 11 farklı algoritma – teknik ile sırayla karşılaştırılmış ve parametrik olmayan veriler kapsamında kullanılabilen Wilcoxon İşaretli Sıralama Testi (Wilcoxon Signed‐Rank Test) (Woolson, 2008), hangi algoritmanın daha iyi olduğu ve farkın istatiksel bağlamda önemli olup olmadığı (H0 – null hipotezine göre önemli değil; H1 – alternatif hipoteze göre önemli) sonuçlarına ulaşmak için gerçekleştirilmiştir. Burada, α = 0,05 anlamlılık düzeyi, yani %95 güven aralığında tercih edilmiştir.

 Farklı test fonksiyonları kapsamında algoritmaların genel istikrarını yorumlayabilmek adına, her test – problem için 50 farklı çalıştırma içerisinde bulunan (en iyi) optimum değer ve arzu edilen değer arası farkların genelinden faydalanılarak Denklem 3.35., Denklem 3.36., ve Denklem

3.37.’de sırasıyla verilen, Ortalama Hataların Karesi [OHK – Mean Square

Error (MSE)], Ortalama Hataların Karesinin Kökü [OHKK – Root Mean Square Error (RMSE)], ve Ortalama Mutlak Hata Yüzdesi [OMHY – Mean Absolute Percentage Error (MAPE)] değerleri hesaplanmıştır. Burada hesaplanan değerler, geliştirilen algoritmaların – tekniklerin genel istikrarı konusunda fikir sahibi olmamızı sağlayan bulgular olarak kabul edilmiştir.

=∑ _ (3.35.)

= ∑ _ (3.36.)

= ∑ ( _ )/ _ (3.37.)

Denklem 3.35., Denklem 3.36., ve Denklem 3.37. kapsamında tp dikkate

alınan test – problemi, n toplam test – problem sayısını, bulunantp dikkate

alınan test – problem için 50 farklı çalıştırma içerisinde bulunan (en iyi) optimum değeri ve arzu_edilentp ise dikkate alınan test – problem için

bulunması beklenen optimum değeri temsil etmektedir.

 Test fonksiyonları kapsamında işe koşulan son değerlendirme kriteri, algoritmaların bu çalışmadaki genel başarı sıralamalarını belirlemek için araştırmacı tarafından düşünülmüş olan, basit bir Genel Performans Sıra Değeri (GPSD) sistemi olmuştur. Bu sistemde her bir algoritma, çözülen her bir test fonksiyonundaki başarı sırasını puan olarak almakta ve toplam GPSD’si hesaplanmaktadır. Anlaşılacağı üzere, daha düşük GPSD’ye sahip algoritma – teknik daha başarılı sayılmaktadır.

 Gerçek yaşam tabanlı problemler – uygulamalarda, ilgili problemlerin başarılı çözülüp çözülmediğini gösteren, bilinen optimum kriterler ya da belirli algoritmalara karşı başarım bulgularından faydalanılmıştır.

 Hibrit sistemlere dair değerlendirmeler kapsamında YSA, ASBÇS, ve DVM modellerine dayalı çalışmalar da, başarımı dikkate çeken algoritmaların sürece dâhil edilmesi ve genelde önceki maddelerde açıklanan ölçütlerin kullanılması yaklaşımına dayanmıştır.

 Kimi zaman bazı uygulamalarda sayısal bulguların yanında, ulaşılması arzu edilen ürünlere yönelik elde edilen çıktılar da tekniklerin başarımı konusunda bizlere bilgi verebilmektedir. Bu bağlamda, görüntü yeniden oluşturma, eğitilen YSA modellerinin çok-disiplinli problem çözümleri, oyun eğitimi gibi problemlerdeki tecrübeler de geliştirilen algoritmaların başarımı hakkında fikir sahibi olunması için kullanılmıştır.

4. YAPAY ZEKÂ TABANLI OPTİMİZASYON İÇİN GELİŞTİRİLEN

Belgede Yapay zeka tabanlı optimizasyon algoritmaları geliştirilmesi (sayfa 119-124)