Akıllı Avcılar – Akıllı Av (Deney 4 ve 7)

4. DENEYLER

4.4 Akıllı Avcılar – Akıllı Av (Deney 4 ve 7)

Akıllı bir avcının kendisiyle rekabet edebilecek düzeyde öğrenme gücüne sahip bir av ile karĢılaĢtırılması bu çalıĢmanın asıl ilgilendiği konudur. Bu doğrultuda bütün ajanların Q(λ)-öğrenmesi yöntemini uyguladıkları 1 avcı – 1 av ve 2 avcı – 1 av simülasyonları gerçekleĢtirilmiĢtir. Bu deneylere iliĢkin bilgiler,

Tablo 4.5 Deney 4 ve 7’nin özellikleri (P=avcı, E=av)

Ģeklindedir. Bu simülasyonlarda hem avcı takımı hem de av Watkins’in Q(λ) yöntemini kullanmaktadırlar. Deneylerin bu aĢamasında ilk kez av akıllı ajan halini alarak öğrenme yetisine sahip olmuĢtur. Yalnız avın öğrenme stratejisi avcı kadar kolay anlaĢılır değildir. Bizim çalıĢmamızda uygulanan stratejiye göre eğer av, avcı takımının herhangi bir üyesi tarafından yakalanırsa büyük bir ceza almakta ve sakladığı uygunluk izleri sayesinde onu yakalanma durumuna getiren hamlelere hata bilgisi göndermektedir. Bir baĢka deyiĢle av, avcıda olduğu gibi bir hedefi kovalama motivasyonuna sahip değildir. Aksine yakalanması durumunda alması muhtemel bir cezadan kaçmaya çalıĢmaktadır. Avcı ise bu noktada ilk defa öğrenebilen bir ava karĢı mücadele etmektedir.

Hem av, hem de avcı Watkins’in Q(λ) öğrenmesi yöntemini kullanmalarına rağmen ödül ve ceza anlayıĢları birbirlerinden farklı olduğu için, öğrenme faktörüne de farklı tepki gösterirler. Daha önceki deneylerden yola çıkarak hareketli bir avı yakalamaya

No Oyuncu S. P Davranış E Davranış α γ Λ

4 1 P – 1 E Q(λ) Q(λ) 0.05 , 0.9 0.9 0.1 – 1

7 2 P – 1 E Q(λ) Q(λ) 0.0.5, 0.9 0.9 0.1 – 1

çalıĢan avcının yavaĢ öğrenmesinin kendisi adına daha verimli olduğunu bilmekteydik. Akıllı av için ise bu detaya dair bir tecrübe bulunmamakta, bu deneylerde bu bilginin ortaya çıkması beklenmektedir. Akıllı avcılar – akıllı av kullanarak yapılan kaçma-kovalama deneylerine iliĢkin sonuçlar grafikler 4.7’den 4.12’ye kadar gösterilmektedir. Bu sıraya göre ilk üç deney 1 avcı – 1 av senaryosunu, sonraki üç deney ise 2 avcı – 1 av senaryosunu temsil etmektedir.

Ayrıca, söz konusu simülasyonların hangi konfigürasyonlarla gerçekleĢtirildiğine dair bilgiler ve bunun sonucunda oyunu sonlandıran ortalama hamle sayıları tablo 4.6’da bulunabilir.

Deney α - Avcı 1 α - Avcı 2 α - Av Ortalama hamle

4-1 0.9 - 0.9 137

4-2 0.05 - 0.05 60

4-3 0.05 - 0.9 102

7-1 0.9 0.9 0.9 50

7-2 0.05 0.05 0.05 33

7-3 0.05 0.05 0.9 42

Tablo 4.6 Akıllı avcı(lar) – akıllı av deney düzenlemeleri

Grafik 4.7 Deney 4-1 Sonuçları (1 avcı – 1 av, αavcı, av=0.9) 0

50 100 150 200 250 300

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101

Hamle Sayısı

Bölüm

Deney 4 - 1

Tek akıllı avcı ve tek akıllı av ile gerçekleĢtirilen deneyler (4-1, 4-2 ve 4-3) incelendiğinde simülasyon sonuçlarının öğrenme faktörüne göre kritik düzeyde Ģekillendiği görülmektedir. Deney 4-1’e bakıldığında iki ajan için de öğrenme faktörü 0.9’dur. Önceki deneyler göz önüne alındığında yüksek öğrenme faktörünün hareketli ava karĢı mücadele eden avcı söz konusu olduğunda verimsiz olduğu gözlemlenmiĢti. Bu sonuçlara göre de bölümler ilerledikçe iĢlerin avcı açısından yolunda gitmediği rahatlıkla söylenebilir. Öyle ki, avcı performansını iyileĢtirmek yerine son bölümlere doğru daha önce hiç maruz kalmadığı düzeyde baĢarısızlığa maruz kalmıĢtır. Avcı için, oyunu sonlandıran hamle sayısının giderek arttığı grafikte kolaylıkla görülebilmektedir. Tablo 4.6’daki ortalama hamle değerine bakıldığında da bir bölümün ortalama 137 hamle sürdüğü anlaĢılır. Öğrenme faktörünün 0.9 seçilmesi avcı için ne kadar baĢarısız bir performansa yol açtıysa; avcının öğrendiği hamlelere hızlıca yanıt verebilen av için de o kadar baĢarılı olduğu söylenebilir.

Grafik 4.8 Deney 4-2 Sonuçları (1 avcı – 1 av, αavcı, av=0.05)

Deney 4-2 incelendiğinde, bu simülasyonda öğrenme faktörünün 0.05 seçildiği görülmektedir. Önceki tecrübeler ıĢığında bunun avcı için olumlu sonuçlar doğurması beklenecektir. Grafikteki deney sonuçları incelendiğinde bu yorumun doğru olduğu anlaĢılmaktadır. Bir önceki deney ile karĢılaĢtırıldığında oyunun bir

içerisinde geliĢtirdiği görülmektedir. Av açısından bakılırsa da, bu deney içerisinde çok yavaĢ öğrenmesi onun avcının hamlelerine karĢı adapte olamayıp kendini savunamaması anlamına gelmiĢtir. 4-1 ve 4-2 deneylerinin sonucunda avcı ve av için farklı öğrenme değerlerinin verimli olduğu görülerek bu doğrultuda bir düzenleme yapılmıĢtır. (Deney 4-3).

Grafik 4.9 Deney 4-3 Sonuçları (1 avcı – 1 av, α_avcı=0.05, αav=0.9)

Bahsedildiği üzere deney 4-3’te akıllı avcı ve akıllı avın en verimli oldukları öğrenme değerleri seçilmiĢtir. Ġki tarafın da en iyi performansını göstereceği bir çarpıĢmada kimin üstün taraf olacağı merak edilmektedir. Bu deneyin sonuçları incelendiğinde oyunu sonlandıran hamle sayısının 102, yani yaklaĢık olarak önceki iki deneyin ortalaması olduğu görülmüĢtür. Grafik incelendiğinde simetriğe yakın bir görüntü ortaya çıkmakta ve oyunun baĢında sonuna kadar iki taraf adına da bir üstünlük göze çarpmamaktadır. Yalnız, grafik üzerinde dikkat edilmesi gereken bir nokta; süreç içerisinde zaman zaman avcının performansını iyileĢtirerek avı az sayıda hamleyle yakalayabildiği, buna karĢın avın derhal adapte olarak cezalara maruz kalmamak için tehlikeyi bertaraf ettiğidir. Elde edilen bu sonuçlar iki tarafın da verimli bir Ģekilde öğrenme gerçekleĢtirebildiğini gösterir.

0 50 100 150 200 250 300

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101

Hamle Sayısı

Bölüm

Deney 4 - 3

Deneyler 7-1, 7-2 ve 7-3’te avcı takımı iki ajana çıkartılmıĢtır. Daha önceki çok ajanlı deneylerde olduğu gibi bunun harita üzerinde düzgün dağılımı sağlaması ve dayanıklılığa sebep olması beklenmektedir. Kullanılan öğrenme değerleri 4. deneyde olduğu gibi düzenlenmiĢtir. Bu deneylerin sonuçları grafikler 4.10, 4.11 ve 4.12’de sunulmuĢtur.

Bu bölümde sunulan simülasyonların tamamı için iz kaybolma oranı 1’dir. 0.1’den itibaren farklı değerler kullanılarak yapılan deneyler sonucunda optimal sonuca λ=1 atamasıyla ulaĢıldığı görülmüĢtür. Bu doğrultuda, ajan yaptığı her hamlenin ardından kendisini bu yola teĢvik eden hamlelere sorumluklarıyla orantılı olarak hata değerlerini döndürür ve aksiyon-değer tablosu güncellenir. Sorumluluk bilindiği gibi iz kaybolma oranıyla belirlenir. En son yapılan hamlenin sonuç üzerindeki sorumluluğu yüksekken, geçmiĢe doğru gidildikçe bu sorumlulukların değeri düĢer.

Deney 7’nin sonuçları çok ajanlı sistemlerin kullanımı açısından incelendiğinde, daha önceden de olduğu gibi coğrafi dağılımdan yararlanılarak iyi bir sonuç ortaya konduğu görülmektedir. Bu noktada iyi düzeyde öğrenme gerçekleĢtirebilen bir akıllı ajana kıyasla birden fazla ajan kullanmanın daha verimli bir yöntem olduğu tartıĢmaya açıktır; çünkü ajanlar arasında henüz bir iĢbirliği dahi yokken, takımın sayıca fazla olmasının getirdiği avantajlar bir alana dağılmayı kolaylaĢtırmaktadır.

45 BÖLÜM 5

Belgede ÇOK AJANLI KAÇMA KOVALAMA PROBLEMLERĠNE. TAKVĠYELĠ ÖĞRENME YAKLAġIMI AHMET TUNÇ BĠLGĠN YÜKSEK LĠSANS TEZĠ BĠLGĠSAYAR MÜHENDĠSLĠĞĠ (sayfa 52-58)