Bağışıklık sistemleri kullanılarak çoklu etmen sistemlerinde öğrenme

(1)

İÇİNDEKİLER ... 1

ŞEKİL VE ÇİZELGELER... 3

Simgeler ve kısaltmalar... 4

1. GİRİŞ ... 5

2. BAĞIŞIKLIK SİSTEMİ ... 7

2.1. Bağışıklık Sistemi İle ilgili Temel Kavramlar ... 7

2.1.1. Bağışık yanıt ... 7 2.1.2. İmmunojen ... 7 2.1.3. Antijen... 8 2.1.4. Antikor ... 8 2.1.5. Lenfoid organlar... 10 2.2. Bağışıklık Sistemi ... 11 2.3. Bağışıklık Hücreleri ... 14 2.3.1. lenfositler ... 15 2.3.1.1. B hücreleri ve antikorlar... 15 2.3.1.2. T hücreleri ve lenfokinler... 15

2.3.1.3. Doğal killer hücreler ... 16

2.3.2.Fagositler, Granülositler ve onların ilişkileri ... 17

2.3.3.Tamamlayıcı Sistem... 17

2.4. Bağışıklık Siteminin Çalışma Mekanizması ... 18

3. YAPAY BAĞIŞIKLIK SİSTEMİ ... 20

3.1. Yapay Bağışıklık Sistemleri Algoritmaları ve İşlemleri... 20

3.1.1. Klonal Seçim Algoritması... 20

3.1.2. Self / Nonself Ayrımı ... 21

3.1.2.1. Pozitif Seçim Algoritması... 21

3.1.2.2. Negatif Seçim Algoritması... 23

3.1.4. Şekil Uzayı... 24

(2)

4.ETMEN... 33

4.1. Etmen Tanımı... 33

4.2.Etmenlerin Kullanıldığı Alanlar... 34

4.3. Etmen Çeşitleri... 34

4.3.1. Akıllı Etmenler... 35

4.3.1.1. Etmenlik zeka ve öğrenme ... 35

4.3.2. İşbirliği Yapan Etmenler... 36

4.3.3. Arabirim Etmenleri ... 37

4.3.4. Hareketli Etmenler ... 38

4.4. Çoklu Etmen Sistemleri ... 38

4.5. Çoklu Etmen Sistemlerinde Öğrenme... 42

4.5.1. Takviyeli Öğrenme... 43

4.5.1.1.Q-Öğrenme Algoritması... 46

4.5.1.1.1 Q- Öğrenme için bir örnek ... 49

5. Av-Avcı (“PURSUIT DOMAIN”) UYGULAMASI... 52

5.1. Av-Avcı Algoritmasında Kullanılan Parametreler... 55

5.2. Av-Avcı Algoritması... 57

5.2.1. Q-Öğrenme ile av-avcı algoritması... 57

5.2.1. Q-Öğrenme ile av-avcı algoritması sonuçları: ... 58

5.2.1. Yapay Bağışıklık Sistemi ile av-avcı algoritması ... 59

5.2.1. YBS ile av-avcı algoritması sonuçları... 62

6. SONUÇLAR ... 63

KAYNAKLAR ... 64

(3)

ŞEKİL VE ÇİZELGELER

Şekil-2.1: Bağışık Yanıt... 8

Şekil-2.2 : Antikorun Temel Yapısı ve Antijene Bağlanma Noktaları ... 9

Şekil-2.3 : Lenfoid Organlar ... 11

Şekil-2.4 : Bağışıklık Sistemi... 12

Şekil-2.5 Bağışıklık Sisteminin Çok Katmanlı Yapısı... 14

Şekil-2.6 : Bağışıklık Hücreleri ... 14

Şekil-2.7 : Bağışıklık Sisteminin Çalışma Mekanizması... 19

Şekil-3.1 : Pozitif Seçim Algoritması ... 22

Şekil-3.2 : Negatif Seçim Algoritması... 24

Şekil-3.3: Antijen Yapısı... 25

Şekil-3.4 : Şekil uzayı gösterimi ... 26

Şekil-3.6 : Tanıma çemberi kavramı ve repertuar tamlığı ... 28

Şekil-4.1 : Etmen Yapısı ... 33

Şekil-4.2 : Tek bir Etmen ve Özellikleri ... 38

Şekil-4.3 : Çoklu Etmen Sistemi ve Etmenlerin birbirleriyle etkileşimi ... 39

Şekil-4.4 : takviye öğrenme modeli ... 44

Şekil-4.5 : Takviyeli Öğrenme... 49

Şekil-4.6: Ayrık durumlardan meydana gelen belirli bir etmen ortamı. ... 50

Şekil-5.1: 16X16’lık bir alanda Av-Avcı Uygulaması örneklendirilmiştir. Kırmızı ile gösterilen etmen av etmeni, mavi ile gösterilen etmenler avcı etmenler ve ok işaretleri etmenin gidebileceği muhtemel durumları göstermektedir... 53

Çizelge 5.1 : Av ve Avcı etmen Parametreleri... 55

Şekil-5.3 : Q-Öğrenme ile av-avcı uygulamasının sonuçları ... 59

(4)

SİMGELER VE KISALTMALAR

DYZ : Dağıtık Yapay Zekâ YZ : Yapay Zekâ

DPÇ : Dağıtık Problem Çözme ÇES : Çoklu Etmen Sistemleri YBS : Yapay Bağışıklık Sistemleri

 AISIMAM :“An Artificial Immune System Based Intelligent Multi Agent Model”

ASH : Antijen Sunan Hücre

MHC : “Major histocompatibility complex” PAMPs : “ Pattern Associated Molecular Patterns “ AE : Akıllı Etmen

PÖ : Planlı Öğrenme

DÖ : Denetleyerek Öğrenme TÖ : Takviyeli Öğrenme  NAG :” Non/self Agent”  SAG :”Self Agent “

(5)

1. GİRİŞ

Dağıtık Yapay Zekâ (DYZ) son yıllarda Yapay Zekânın (YZ) en çok ilgilenilen bir alt dalı haline gelmiştir. Belli bir alanda birbirinden bağımsız nesneleri içeren sistemlerle ilgilenen DYZ, iki alt disiplin altında incelenebilir;

¾ Dağıtık Problem Çözme (DPÇ)

¾ Çoklu Etmen Sistemleri (ÇES)

DPÇ, bir amacı gerçekleştirmek için birkaç farklı daldaki sistemlerin birlikte çalışmasıyla meydana gelen sistemlerin bilgi yönetimi üzerine odaklanırken, ÇES, birlikte çalışan ve birbirinden bağımsız etmenlerin veya nesnelerin davranış yönetimi ile ilgilenir. (Stone, Veloso, 1997)

Son yıllarda hızla artan yapay zekâ uygulamalarından biride insan biyolojisinden esinlenerek oluşturulan Yapay Bağışıklık Sistemleridir (YBS). YBS esas olarak insandaki bağışıklık (immune) sistemini model almaktadır. Bağışıklık sisteminin aşağıdaki özellikleri bilim adamları ve mühendislerin ilgisini çekmiştir(De Castro, Von Zuben 1999):

¾ Eşsizlik (uniqueness ): Her birey bağışıklık sistemine sahiptir.

¾ Yabancının tanınması: Bağışıklık sistemi ile vücudun doğasında olmayan moleküller tanınabilir ve yok edilebilir.

¾ Anormal keşif (anormal detection): Bağışıklık sistemi vücutta daha önceden hiç rastlanmamış patojenleri keşfedebilir ve tepki verebilir.

(6)

¾ Dağıtık keşif (distributed detection): Sistemin hücreleri vücudun bütün her tarafına dağıtılmıştır ve daha önemli olarak herhangi bir merkezi kontrole maruz değildir.

¾ Gürültü toleransı (noise tolerance): Patojenlerin kesin olarak tanınmasına gerek yoktur bu yüzden sistem esnektir.

¾ Takviyeli öğrenme ve hafıza (reinforcement learning and memory): Sistem patojenlerin yapılarını öğrenebilir bu yüzden gelecekte aynı patojenlere yanıtlar daha hızlı ve güçlüdür.

ÇES ve YBS’nin benzerlikleri göz önüne alındığında birlikte kullanılabileceği düşünülmüştür. Bu benzerlikler şu şekilde sıralanabilir;

¾ Her ikisi de dağıtık ve bağımsız yönetilebilen sistemlerdir. ¾ Her ikisi de çokça yapısal nesneye sahiptir.

¾ Her ikisi sistemde kendi tecrübeleriyle öğrenirler. ¾ Her ikisi de uyarlanabilirler.

¾ Her ikisi de çevreye göre değişir ve adapte olabilirler. ¾ Her ikisi de haberleşebilirler.

¾ Her ikisi de sistemde akılcı kararlar vererek bilgiyi işlerler

Bu çalışmada yapay bağışıklık sistemleri tabanlı akıllı etmen sistemleri için tasarlanmış AISIMAM (“An Artificial Immune System Based Intelligent Multi Agent Model” ) modeli (Sathyanath, Sahin 2002) av-avcı problemine uygulanmıştır. Av-avcı uygulaması öncelikle ÇES öğrenme metodu olan Q-Öğrenme algoritması ile gerçekleştirilmiş, daha sonra bir YBS algoritma modeli olan AISIMAM ile gerçekleştirilmiş ve aralarındaki performans analizi kıyaslanmıştır.

(7)

2. BAĞIŞIKLIK SİSTEMİ

2.1. Bağışıklık Sistemi İle ilgili Temel Kavramlar

2.1.1. Bağışık yanıt

Vücuda giren yabancı maddelerin etkisiz hale getirilmesi, dışarıya atılması veya kimyasal bir değişime tabii tutulması için vücudun oluşturduğu bütün fizyolojik mekanizmalara denir. (Baysal 2001)

Bağışık yanıt birincil ve ikincil yanıt şeklinde iki kısımdan oluşur. Birincil bağışık yanıt antijenlerin ilk kez vücuda girdiğinde vücudun verdiği tepkidir ve yavaştır. İkincil bağışık yanıt ise daha hızlı ve kısa sürelidir. Şekil-2.1’de öncelikle verilen Ag1 antijenine verilen bağışık yanıt ile ikinci kez verilen Ag1 antijenin bağışık yanıt gösterilmektedir. Görüldüğü gibi ikincil bağışık yanıt çok daha hızlı ve daha yoğun bir antikor konsantrasyonu ile gerçekleşmektedir.

2.1.2. İmmunojen

Girdiği canlının vücudunda hümoral veya hücresel bağışık yanıt oluşturan maddeye denir (Baysal 2001 ).

(8)

Şekil-2.1: Bağışık Yanıt

2.1.3. Antijen

Organizmada bağışık yanıta neden olabilen (immunojenik) yabancı molekülleri antijen olarak tanımlıyoruz (Yeğin 1992). Diğer bir deyişle antijen, kendisine karşı oluşan antikorlarla özel şekilde birleşme yeteneğinde olan maddedir. Antijenlerin çoğu hem immunojen, hem antijen özelliğine sahiptirler. Antijenin reseptörlerine epitop adı verilir.

2.1.4. Antikor

Antikor diğer adıyla immünglobulin serum ve doku sıvılarında bulunan bir grup glikoproteindir. Antikor belirli bir antijene yönelik immünglobulindir. Antikorlar B lenfositleri tarafından antijene karşı yapılırlar ve yapılmalarına neden olan antijene özgül bir şekilde bağlanırlar (Yeğin 1992).

(9)

İnsanda 5 farklı antikor molekülü tipi bilinmektedir; IgM, IgG, IgA, IgD, IgE. İmmünglobulinler molekül büyüklükleri, aminoasit dizilimleri, karbon hidrat içerikleri ve işlevleri yönünden farklılık gösterir (Yeğin 1992).

Antikorun antijene bağlanmasını sağlayan reseptörlerine idiotop veya paratop adı verilir.

Antikorun temel yapısı Şekil-2.2’de verilmektedir. Şekil-2.2’de Vh ile gösterilen kısımlar antijenlere bağlandıkları noktalardır. Bu şekilde altta kalan kök kısmı Fc, Üst kısmı ise Fab olarak isimlendirilir.

(10)

2.1.5. Lenfoid organlar

Bağışıklık sistemini meydana getiren dokular ve organlar vücudun her tarafına dağıtılmıştır. Lenfositlerin üretimi, büyümesi ve gelişmesi ile ilgilenen bu organlar lenfoid organlar olarak bilinirler. Lenfoid organların temel fonksiyonları ise şöyledir(De Castro 1999, Von Zuben 1999):

¾ Bademcik (tonsil) ve lenf bezi (adenoid): Solunum sistemine saldırılara karşı vücudu koruyan bağışıklık hücreleri içeren özelleşmiş lenf düğümleridir.

¾ Lenf damarları (lymphatic vessels): Bağışıklık organları ve kan için lenf taşıyan kanalların ağından oluşmaktadır.

¾ Kemik iliği(bone marrow): En uzun kemiklerin içindeki yumuşak dokudur ve bağışıklık hücrelerinin oluşturulmasından sorumludur.

¾ lenf düğümleri(lymph node): Her düğümün B ve T bağışıklık hücrelerini depoladığı lenf damarlarının yakınında bulunur.

¾ Timüs(thymus): Kemik iliğinde çoğalıp olgunlaşan ve timüsün içerisine göç eden birkaç hücre timüste çoğaltılarak T hücrelerine gönderilir.

¾ Dalak (spleen): Lökositlerin kan akışına saldıran organizmayı yok ettiği yerdir.

¾ Apandis (appendix) ve (Peyer’s patchs): Bağışıklık hücreleri içeren özelleşmiş lenf düğümleri sindirim sistemini korumak için ayrılır.

(11)

Şekil-2.3 : Lenfoid Organlar

2.2. Bağışıklık Sistemi

Bağışıklık sistemi, hücrelerimizden ve dışarıdan gelen bulaşıcı mikroorganizmaların hareketlerini algılama ve savaşma yeteneği olan hücreler, moleküller ve organların karışımıdır. Çok çeşitli bulaşıcı yabancı hücreleri ve maddeleri (nonself element) tanıyabilir ve bulaşıcı olmayan doğal hücreleri (self element) ayırt edebilir. Bir patojen (bulaşıcı yabancı eleman) vücuda girdiği zaman yok edilmek için taranır ve yok edilmeye çalışılır. Sistemin her enfeksiyonu hatırlama yeteneği vardır. Aynı patojenle ikinci kez karşılaşınca daha etkili bir şekilde yok edilir(De Castro, Von Zuben 1999).

Vücuttaki yabancı materyalleri tanıyan birbirleriyle ilişkili 2 sistem söz konusudur. Bunlar doğal (innate) bağışıklık sistemi ve edinsel-sonradan kazanılan (adaptif) bağışıklık sistemidir.

(12)

Şekil-2.4 : Bağışıklık Sistemi

Doğal bağışıklık sistemi adı verilmesinin sebebi vücudun doğumla birlikte mikropları tanıma ve hemen yok etme yeteneğinin olmasıdır. Bizim doğal bağışıklık sistemimiz ilk karşılaşmada çoğu patojenleri yok edebilir. Doğal bağışıklık sisteminin önemli bir bileşeni “complement” olarak bilinen bir kan proteini sınıfıdır. Complement antikorların aktif olmasına yardım etmektedir. Doğal bağışıklık, pattern associated molecular patterns (PAMPs) olarak adlandırılan mikrobik patojenlerle birleştirilmiş moleküler patternleri tanımak için pattern recognition receptors(PRRs) olarak bilinen germinal merkezde kodlanmış alıcıların bir kümesi esasına dayanmaktadır. PAMPs sadece mikroplar tarafından üretilir ve asla organizma tarafından üretilmez bu yüzden PRRs ile onların tanınması, patojenik maddelerin bulunduğuna işaret eden bir sinyalle sonuçlanabilir. Bu şekilde bağışıklık tanıması ile ilgili yapılar bulunduğu vücuda zarar vermekten kaçınmak için özel hücre ve moleküllerden tamamen bağımsız olmak zorundadır. Bu mekanizmanın sonucu olan doğal bağışıklık aynı zamanda self/nonself ayırım yeteneğine sahiptir ve adaptif bağışıklığın desteklenmesinde rol oynar(De Castro, Von Zuben 1999).

Doğal bağışıklık tanımasının en önemli aşaması, adaptif bağışıklık tepkisinin başlamasını sağlayan T hücrelerinin aktivasyonunda rol oynayan antijen sunan

(13)

(presenting) hücrelerde (ASHler) uyarıcı sinyal ifade etmesidir. Bu şekilde doğal bağışıklık tanıması olmaksızın adaptif bağışıklık tanıması, adaptif tanımada reseptörleri ifade eden lenfositlerin negatif seçimi ile sonuçlanabilir(De Castro, Von Zuben 1999).

Adaptif bağışıklık sistemi, B ve T hücreleri şeklindeki iki tip lenfosit klonal olarak dağıtılmış antijen reseptörlerinin somatik olarak oluşturulmasını kullanır. Bu antijen reseptörleri rast gele proseslerle oluşturulur ve sonuç olarak adaptif bağışıklık tepkisinin genel dizaynı, belirli özellikleri olan reseptörleri ifade eden lenfositlerin klonal seçimine dayanmaktadır (Burnet 1959-1978). Antikor molekülleri (Ab) adaptif bağışıklık sisteminde önemli bir rol oynar. Adaptif bağışıklık tepkisinde kullanılan reseptörler gen segmentleri ile birlikte parçalanarak düzenlenmiştir. Her hücre farklı olarak tekil bir reseptör yapmak için uygun parçaları kullanır. Müşterek olarak bulaşıcı organizmayı tanımak için aktif edilen hücrelerle bir yaşam boyunca karşılaşılır (Tonegawa, 1983). Adaptif bağışıklık daha önce saldırganla hiç karşılaşılmasa bile vücudun her hangi bir mikrobu tanımasını ve tepki vermesini sağlar(De Castro, Von Zuben 1999).

Bağışıklık sisteminin mimarisi doğal olarak çok katmanlıdır (multi-layered). Savunma çeşitli katmanlara yayılmıştır (şekil-2.5). Koruma katmanları aşağıdaki kısımlara ayrılabilir (Janeway Jr. & Travers 1997, Rensberger 1996, Hofmeyr 1997, 2000):

¾ Fiziksel engeller: Bizim derimiz saldırılara karşı vücudumuzu korumak için kalkan gibi çalışır. Solunum sistemi aynı zamanda antijenlerden uzak durmada yardımcı olur. Deri ve mukoz zarı solunum ve solunum ile makrofajları ve antikorları içerir.

¾ Psikolojik engeller: tükürük, ter, göz yaşı gibi sıvılar yıkıcı enzimler içermektedirler. Mide asitleri yeme ve içme ile vücuda giren mikroorganizmaları öldürürler. Vücudun sıcaklığı ve pH değeri bazı saldırganlar için elverişsiz hayat şartları sunar(De Castro, Von Zuben 1999).

(14)

Şekil-2.5 Bağışıklık Sisteminin Çok Katmanlı Yapısı

2.3. Bağışıklık Hücreleri

Bağışıklık Hücreleri Şekil-2.6’da gösterilmiştir.

(15)

2.3.1. lenfositler

Lenfositler bağışıklık sisteminde önemli bir sorumluluğa sahip küçük lökositlerdir. Lenfositlerin iki ana tipi vardır. Bunlar antikor salgılama yeteneğine sahip plazmosidler (veya plazma hücreleri) içerisinde ayrılmayı aktif eden B lenfositleri (veya B hücresi) ve T lenfositleridir (veya T hücresi).

Lenfositlerin çoğu sadece özellikli bir aktivasyonun çoğalması için gerekli ayrı antijenlerle etkileşime girdikten sonra fonksiyonel aktivite sergileyen küçük dinlendirici hücreler şeklinde düzenlenir. B ve T lenfositleri yüzeylerinde belirli bir antijenik determinat için oldukça özellikli reseptörleri ifade eder. B hücresi reseptörleri zar etrafındaki antikor molekülünün bir şeklidir ve hücre uygun bir şekilde aktive edildikten sonra salgılanır.

2.3.1.1. B hücreleri ve antikorlar

B hücrelerinin temel fonksiyonu bakteri, virüs ve tümor hücreleri gibi dış kaynaklı proteinlere tepki vermek için antikor üretmek ve salgılamaktır. Her B hücresi belirli bir antikor üretmek için programlanmıştır. Antikorlar bir başka belirli proteini tanıyan ve ona bağlanan belirli proteinlerdir. Antikor üretimi ve bağlanması genellikle maddeyi kuşatıp sindirme veya yok etme diğer hücreleri öldürmek için sinyal verme şeklinde olur.

(16)

T hücreleri timüs içerisinde olgunlaştığı için bu isimi almışlardır (Dreher, 1995). Onların fonksiyonu diğer hücrelerin hareketlerini düzenlemeyi ve direkt olarak bünyeye bulaşmış hücrelere atak yapmayı içermektedir. T lenfositleri üç temel alt sınıfa ayrılabilirler. Bunlar T hepler hücreleri (Th), sitotoksik (cytotoxic- killer) T hücreleri ve bastırıcı (suppressor) T hücreleridir.

T hepler hücreleri veya basit olarak Th hücreleri B hücrelerinin, diğer T hücrelerinin, makrofajların ve doğal killer (DK) hücrelerinin aktivasyonu için gereklidir. Onlar aynı zamanda CD4 veya T4 hücreleri olarak bilirler.

Killer T hücreleri veya zehirli (cytotoxic) T hücrelerinin mikrobik saldırganları, virüsleri veya kanserli hücreleri yok etme yeteneği vardır. Bir kez aktive olunca ve onların ligandlarını kuşatınca onlar diğer hücrelerin yüzey zarına nüfuz ederek ve onların yıkımına sebep olarak zararlı kimyasal maddeleri sindirirler.

Bastırıcı (supressor) T lenfositleri bağışıklık tepkisini muhafaza etmek için hayatidir. Onlar bezen CD8 hücreleri olarak adlandırılır ve diğer bağışıklık hücrelerinin hareketini engeller. Onların aktivitesi olmaksızın bağışıklık, alerjik reaksiyonlar ve autoimmune hastalılarda kesinlikle kontrolü kaybeder.

T hücreleri öncelikle sitokinler olarak bilinen veya daha spesifik olarak lenfokinler ve onlarla ilişkili monositler ve makrofajlar tarafından üretilen monokin maddelerini salgılayarak çalışır. Bu maddeler güçlü kimyasal haberciler meydana getirir. Lenfokinler hücresel gelişme, aktivasyon ve regulasyonu sağlarlar. Ayrıca lenfokinler aynı zamanda öldürme hedefli hücrelerdir ve makrofajları uyarabilirler.

2.3.1.3. Doğal killer hücreler

Doğal killer hücreler (NK) öldürücü lenfositlerin bir başka türünü meydana getirir. Öldüren T hücreleri gibi onlar güçlü kimyasal maddelerle doldurulmuş

(17)

tanecikler içerir. Onlar doğal öldürenlerden gösterilir. Öldüren T hücrelerinin aksine onlar harekete başlamadan önce özellikli bir antijeni tanımalarına gerek yoktur. Onlar başlıca tümörlere saldırırlar ve bulaşıcı mikroplara karşı vücudu korurlar. Bu hücreler aynı zamanda bağışıklık düzenlemesine, limpokinlerin geniş miktarda salgılanmasına katkıda bulunur.

2.3.2.Fagositler, Granülositler ve onların ilişkileri

Fagositler ("hücre yiyenler") mikro organizmaları ve antijenik tanecikleri yeme ve sindirme yeteneği olan beyaz kan hücreleridir. Bazı fagositlerin aynı zamanda lenfositler için antijen sunma yeteneği vardır. Bu fagositler antijen sunan hücreler (ASHler) olarak adlandırılmaktadır.

Önemli fagositler monositler ve makrofajlardır. Monositler kan içinde dolaşır ve makrofaj("büyük yiyiciler") haline geldikleri yerde dokular içine göç ederler. makrofajlar çeşitli fonksiyonları uygulayan çok yönlü hücrelerdir. Onlar T lenfositleri için antijen sağlarlar sonra onları yerler ve sindirirler. Onlar bağışıklık tepkisinin başlamasında önemli bir rol oynarlar.

Nötropiller ve ösonopiller aynı zamanda makrofajlara benzer fonksiyonları olan fagositlerdir. Basopiller kan akımında bulunur ve ayrı nesillerden türemelerine rağmen mast hücrelerine benzerler. Onlar alerjiye yanıt vermek için önemlidir ve güçlü kimyasal maddelerle doldurulmuş tanecikler içerirler. Bu kimyasal maddeler mikro organizmaları yok eder, tahrik edici reaksiyonla katkıda bulunur.

(18)

Tamamlayıcı sistem, antikorların fonksiyonunu tamamlayan dolaşan plazma proteinlerinin bir kümesi tarafından karmaşık şekilde meydana getirilir. Tamamlayıcı saldırgan bir organizmayı bulduğu zaman onun bileşenlerinin her biri bir zincir reaksiyonu ile ilerler (complement cascade). Sonuç, fagositlerin operasyonlarını kolaylaştıran veya zarı koruyarak yaralara sebep olan saldırganların ara yüzü olan proteinlerin bir karışımıdır.

2.4. Bağışıklık Siteminin Çalışma Mekanizması

Bağışıklık sistemi, vücudumuzu enfeksiyonlara karşı koruyan bir grup hücreden oluşmaktadır. Vücudumuz sürekli olarak antijenlerin saldırılarına maruz kalmaktadır. Bu antijenler yabancı hücreler olabileceği gibi vücudumuzun kendi hücresi de olabilir. Şekil-2.7 de temel bağışıklık tanıma sistemi ve aktivasyon mekanizması anlatılmaktadır(De Castro, Von Zuben 1999).

I. Antijen sunucu hücrelerin(ASH, Antigen Presenting Cells ) nasıl özeleştiği gösterilmektedir. Bu antijenler peptitlerine ayrılır.

II. Peptit molekülleri MHC (Major histocompatibility complex) moleküllerine bağlanırlar. ASH hücresi içinde bunlar MHC/Peptit bileşimi şeklinde bulunur.

III. T-hücreleri yüzeylerinde reseptörler yardımıyla farklı MHC/Peptit bileşimlerini tanırlar.

IV. MHC/Peptit bileşiminin tanınmasıyla aktif hale gelen T-hücresi, parçalanarak, lenfokin ve kimyasal salgılar. Bu salgılar bağışıklık sisteminin diğer bileşenleri de aktif hale geçmesini sağlar.

V. B-hücreleri, T-hücrelerinden farklı olarak antijenleri MHC moleküllerinin yardımı olmadan da reseptörleri yardımıyla tanıyabilir.

VI. B-hücrelerinin yüzeyindeki reseptörler belli bir antijene cevap verebilecek şekildedir. B-hücrelerinden reseptörleri bu şekilde bir antijene yanıt verdiğinde diğer B-hücreleri aktif hale geçmekte ve farklılaşarak plazma hücrelerini oluşturmaktadır. Daha sonrada antikor molekülleri salgılar.

(19)

VII. B-hücreleri reseptörleri tarafından çözülebilecek formda olan antikorlar zararlı maddelerin yok edilmesinde kullanılır. Bazen aktive edilmiş bu B-hücreleri ve T-B-hücreleri hafıza B-hücrelerine dönüşür.

(20)

3. YAPAY BAĞIŞIKLIK SİSTEMİ

Immunoloji nispeten yeni bir bilim dalıdır. Orijini Edward Jenner’in yaklaşık 200 yıl önce 1796 da insanı çoğu zaman öldürücü olan çiçek hastalığından (smallpox) korumak için ineklerdeki çiçek hastalığını (vaccinia veya cowpox) keşfetmesine dayanmaktadır (Janeway Jr. , Travers, 1997).

İnsan vücudunun çalışmasını örnek alarak gerçekleştirilen yapay zekâ tekniklerinden biri olan yapay bağışıklık sistemi insandaki bağışıklık sistemini model almaktadır. Bağışıklık sistemi yabancı antijenlerle(non-self), kendi vücut antijenlerinin(self) ayrılmasını sağlayan ve yabancı maddelerin yok eden karmaşık bir mekanizmadır. Verilerin işlenmesi boyutundan olaya baktığımızda öğrenme yeteneğine sahip paralel ve dağıtık akıllı bir sitemdir( Diao, Passino,2003) .

3.1. Yapay Bağışıklık Sistemleri Algoritmaları ve İşlemleri

3.1.1. Klonal Seçim Algoritması

Antikor kendi paratopuna uyan bir epitop ( bir antijene ait) veya başka bir antikorun paratopunu tanırsa bu durumda hemen uyarılıyor ve uyarılmış bu antikorlar kendilerini çoğaltıyorlar. Bu işleme bağışıklık sisteminde “klonal seçim” denir.

Klonal seçim algoritması Sürekli değişen ortamlarda bilinmeyeni keşfetme problemlerinin çözümü için kullanılmaktadır. (Kim , Bentley 2002).

(21)

Bu yapı self antijenlerin küçük bir alt kümelerinin tecrübelerini kullanarak normal durumlardaki sonuçlar elde edebilir özelliktedir. Çok küçük alt dağılımları bile verilse bunlardan genel bir dağılım bulabiliyor. Bununla birlikte self ve non-self antijenleri tanıyan ve bunların nasıl bir davranış içinde bulunacaklarına da karar verir.

Algoritma temel olarak şu şekilde ifade edilebilir(De Castro, Timmis 2002):

¾ Başlangıç olarak rasgele bireyler topluluğu oluşturuluyor (P).

¾ Her bir antijen örneği için:

o P bireyler topluluğunun her bir elemanı ile bir duyarlılık sınırı oluştur. o En yüksek duyarlılığa sahip elementi P topluluğundan seç ve bu

bireyi orantılı olarak çoğalt,

o Bütün bu kopyaları duyarlılık değeriyle ters orantılı olacak şekilde mutasyona uğrat,

o Bu yeni bireyleri de P topluluğuna ekle ve en iyi bireyi m hafıza hücresi olacak şekilde sakla.

o Düşük değerliliğe sahip bir bireyi rasgele belirlenmiş bir başka bireyle değiştir,

¾ Bir önceki adımı durdurma ölçütü ile karşılaşıncaya kadar devam et. ( Bkz : EK 1 )

3.1.2. Self / Nonself Ayrımı

(22)

hücrelerinin pozitif seçimi, kendi MHC hücrelerini tanıyabilen T-hücrelerinin olgunlaşmasını sağlar. Yani sadece t-hücresi bir antijeni sadece kendi MHC molekülü içinde üretilmişse tanıyabiliyor. Bu sayede MHC sınırlaması getirilmiş oluyor(De Castro, Timmis 2002).

Pozitif seçim algoritması ile gerçekleştirilen uygulamalardan biri Seiden ve Celada’ya (1992) ait “modeling immune cognition” adlı makaledir. Bu uygulamada her biri belli bir L uzunluğunda ikilik sayılarla ifade edilmiş T-hücreleri, B-hücreleri ve antijen sunucu hücreler (ASH), yer almaktadır. Bu hücrelerden B-hücreleri ve ASH üzerinde MHC’ye de ait ikilik kodlar bulunmaktadır. Siteme sunulan antijenler bu koda göre üretilir. T-hücreleri de bu sadece kendi MHC’sinden tanımlanan antijeni tanıyacağından, yabancı antijenler sistemden atılır(Celada, Seiden 1992).

(23)

Kısaca pozitif seçme algoritması şu şekildedir (De Castro, Timmis 2002) :

¾ Olgunlaşmamış T hücrelerinden oluşan bir repertuar P üret. Bütün ikilik dizilerin L uzunluğunda olduğu kabul edilecek,

¾ Bütün P elemanları için eşik değerini hesapla,

¾ Eğer bir MHC molekülünün P elementinin duyarlılığı eşik değerinden (ε) büyük yada eşitse T-hücresi bu antijeni tanıdı denir ve uygun repertuara eklenir. Aksi tekdirde bu hücre elenir. (Bkz : Şekil-3.1)

3.1.2.2. Negatif Seçim Algoritması

Yapay bağışıklık sisteminde herhangi bir antijenin vücut antijeni mi yoksa yabancı bir antijen mi olduğunu tespit etmek için negatif seçim yapar. Bu insan vücudu için oldukça önemlidir Bu tam olarak gerçekleşmezse otoimmün (autoimmune) hastalıklar meydana gelir ki bu da insanın kendi vücudunu yabancı bir antijenmiş gibi görmesi demektir. T hücreleri reseptörleri uyum sağlıyorsa antijen yabancı antijendir. (Bkz Şekil-3.2)

Negatif seçim algoritması çoğunlukla bilgisayar güvenliği ile ilgili konularda uygulanmıştır(Forrest & Perelson 1994). Dasgupta negatif seçim algoritmasını şu şekilde özetler ;

¾ Self hücreleri S stringleri şeklinde tanımlanır. Bitiş uzunluğu L olarak tanımlanmalı ki gözlemek kolay olsun.

(24)

¾ S’deki stringlerden farklı olarak birde R hücre kümesi tanımlanır

¾ S kümesiyle R kümesindeki değerlerle eşleşiyorsa bu hücre yabancı bir antijendir denir. Buradaki uyumu kontrol etmek için XOR işlemi kullanılıyor.

Şekil-3.2 : Negatif Seçim Algoritması

3.1.4. Şekil Uzayı

Şekil uzayı yaklaşımı, bağışıklık hücresi molekülleri ve antijenler arasındaki etkileşimleri niceliksel olarak modellemek için 1979 yılında Perelson ve Oster tarafından ortaya atılmıştır(De Castro, Von Zuben 1999).

Bağışıklık sisteminde iki hücre arasındaki etkileşim sırasında birçok fizikokimyasal olay meydana gelir. Bağışıklıktaki bu iki hücre, N boyutlu bir şekil uzayında iki nokta olarak gösterilebilir. Söz konusu N boyutlu şekil uzayında N tane

(25)

eksen vardır ve her bir eksen, iki hücre arasında gerçekleşen fizikokimyasal etkileşimlerden birini temsil eder. Bağışıklık sisteminde bir etkileşimin gerçekleşmesinde tamamlayıcılık esastır. Örneğin, bir Antijenin epitopu ile bir Antikorun paratopunun şekilleri birbirlerini tamamlar nitelikte ise etkileşim en fazladır (Sahan, 2004).

Şekil-3.3: Antijen Yapısı

Bağışıklıktaki tamamlayıcılık özelliği, şekil uzayında uzaklık kavramı ile modellenmiştir. Şekil uzayında bağışıklık sistemindeki iki hücreyi temsil eden iki nokta birbirinden ne kadar uzak ise bu iki hücre arasındaki tamamlayıcılık o kadar fazladır. Örneğin, bir A antijeni ile bir B antikoru arasında iki çeşit fizikokimyasal etkileşim gerçekleşebilir kabulü yapılsın. Bu durumda her bir fizikokimyasal etkileşimi temsilen 2 eksen kullanılacağı için iki boyutlu bir şekil uzayı, A antijeni ile B antikorunu göstermek için kullanılabilir (Bkz Şekil-3.3 ) (Sahan, 2004).

Şekil-3.4’de A antijeni, B ve C antikoru ve sahip oldukları fizikokimyasal özellikler gösterilmektedir. A antijeni ile C antikoru arasındaki uzaklık, B

(26)

Antikorundan fazla olduğu için, A Antijeni ile C Antikoru arasındaki etkileşimin şiddeti, A antijeni ile B antikoru arasındaki etkileşimin şiddetinden daha fazladır. (Sahan, 2004).

Şekil-3.4 : Şekil uzayı gösterimi

Şekil uzayı gösteriminde çoğunlukla antijenler, direkt değil tersleri alınarak gösterilirler. Örneğin yukarıdaki örnekte A antijeni sahip olduğu fizikokimyasal özelliklerle (2,4) noktasında değil, (-2,-4) noktasında gösterilir (Bkz Şekil- 3.4) (Sahan, 2004).

(27)

Şekil-3.5 : Şekil uzayında complement gösterim

Bu durumda maksimum etkileşim için maksimum uzaklık teoremi yerini maksimum etkileşim için minimum uzaklık teoremine bırakır. Yeni teoreme bağlı olarak yukarıdaki örnek şu şekilde sonuçlandırılabilir: A antijeni ile C antikoru arasındaki uzaklık, B antikorundan daha az olduğu için A antijeni ile C antikoru arasındaki etkileşimin şiddeti A antijeni ile B antikoru arasındaki etkileşimin şiddetinden daha fazladır (Sahan, 2004).

Bağışıklık sisteminde B ve T lenfositlerinin antijenik yapıları tanıyabilmeleri için bu antijenik yapılardan gelen uyarımların belirli bir eşik seviyesini aşması gerekmektedir. Bu özellik ise şekil uzayında tanıma çemberi (ya da tanıma topu) adı verilen modelleme ile ifade edilmiştir. Şekil uzayında gösterilen her bir self hücrenin (B ve ya T hücresi) yarıçapı bir eşik seviyesi ile belirlenen bir tanıma çemberi vardır. Her bir self hücre sadece bu çemberin içinde kalan antijenleri tanıyabilir. Şekil-3.6’da tanıma çemberi kavramı ve şekil uzayında repertuar tamlığı gösterilmektedir(Sahan, 2004).

(28)

Şekil-3.6 : Tanıma çemberi kavramı ve repertuar tamlığı

Şekilde üç tane self hücre ve antijenler iki boyutlu bir şekil uzayında gösterilmişlerdir. Her bir hücrenin tanıma çemberi e eşik seviyesi ile belirlenen Ve çemberidir. Şekilde H1 tanıma çemberi içinde kalan iki antijeni, H3 ise sadece bir antijeni tanır. H2’nin tanıma çemberinde herhangi bir antijen olmadığı için H3 antijen tanımamaktadır. Doğada mevcut olabilecek antijen türleri, protein dizilimleri ile belirlendiği için belirli bir çeşitlilikte bulunabilirler. Şekil-3.6’daki iki boyutlu şekil uzayında bulunabilecek tüm antijen türleri bir V hacmi ile ifade edilmiştir. Başka bir deyişle bulunabilecek tüm Antijenler mutlaka bu hacim içerisinde gösterilirler. Yine aynı şekil uzayında bulunan her bir Antikorun bir Ve tanıma hacmi olduğuna göre, şekil uzayında V hacmi içerisinde tüm noktaları kapsayacak biçimde bir Antikor populasyonu olduğunda bu antikor populasyonu tüm antijenleri tanıyabilir. Bu durumda bu antikor populasyonunda repertuar tamlığından söz edilebilir(Sahan, 2004).

(29)

Antikor ya da Antijen molekülü, L boyutlu bir şekil uzayında bir nokta olarak ifade edilir. Bu noktalar m=<m1, m2, m3, ……mL> gerçek değerli koordinatlar kümesi ile belirtilir. Antijen ile Antikor arasındaki uzaklıklar çeşitli yöntemlerle hesaplanabilir. Eğer koordinatlar gerçek değerler ise Öklid ya da Manhattan uzaklık ölçütleri kullanılabilir ancak literatüre bakıldığında genellikle uzaklık ölçütü olarak Öklid uzaklık ölçütü kullanılmıştır (De Castro & Von Zuben, 1999).

Antijen ve Antikor arasındaki Öklid uzaklığı:

D=

∑

= − L i i i Ag Ab 1 2 ) (

Formül-3.1 : Öklid Uzaklığı

Ab ve Ag arasındaki Manhattan uzaklığı:

D=

∑

= − L i i i Ag Ab 1

Formül- 3.2 : Manhattan Uzaklığı

Antijenler ve Antikorlar gerçek değerli vektörler yerine binary sembollerle ifade edilirlerse Hamming uzaklık ölçütü kullanılır (De Castro & Von Zuben, 1999).

D=

∑

= , δ={1 eğer Ab L i 1 δ i ≠ Agi , 0 Diğer Durumlarda}

(30)

Şekil uzayında oluşabilecek toplam Antikor sayısı kL ile ifade edilir. Burada k, kullanılan alfabenin büyüklüğü, L ise vektör uzunluğudur. Şekil uzayındaki her bir Antikorun tanıma çemberi içerisinde kalabilecek Antijen sayısına o Antikorun kapsamı denir ve şu formül ile hesaplanır:

Formül-3.4: Antikor Kapsamı

L: vektör uzunluğu

ε: duyarlılık eşiği (tanıma çemberi yarıçapı)

L uzunluğundaki bir vektör ve k büyüklüğündeki bir alfabe ile toplam oluşabilecek Antijen sayısının kL olduğu göz önüne alındığında, yukarıdaki formülden de yararlanılarak, şekil uzayındaki tüm antijenlerin tanınması için gerekli minimum Antikor sayısı şu şekilde hesaplanabilir (De Castro & Arkadaşları 2000):

Buradaki ceil operatörü, parantez içindeki ondalıklı sayıyı en yakın büyük tam sayıya yuvarlar.

Antikorların Antijenlere yanıt üretebilmeleri için onları tanımaları gerekmektedir. Tanıma işlemi için ise Antikorların Antijene olan duyarlılıklarının belirli bir eşik seviyesini (ε) aşması gereklidir ki bu duyarlılıklar da uzaklık ölçütleri kullanılarak hesaplanır. İkilik sayılarla gösterimin olduğu bir örnekle tanıma işlemi şu şekilde açıklanabilir(De Castro & Von Zuben, 1999)

(31)

Antikor : Ab=[0 0 1 1 0 0 1 1]; Antijen : Ag=[1 1 1 0 1 1 0 1]; etkileşim: Ab: 0 0 1 1 0 0 1 1 Ag: 1 1 1 0 1 1 0 1 XOR: 1 1 0 1 1 1 1 0

Duyarlılık (eşleşme skoru)=6

Söz konusu binary vektörler için uzaklık, Hamming uzaklık ölçütü kullanılarak hesaplandığında (XOR işlemi ile) 6 olarak bulunur. Farklı bir ifade ile, bu iki vektörün 6 tane elemanı birbirini tamamlar nitelikte olduğu için aralarındaki uzaklık 6’dır.

Antijen-Antikor etkileşimlerinde kullanılan bir diğer kavram bağlanma değeri’dir. Bağlanma değeri, moleküllerin bağlanıp bağlanmadığını ya da başka bir deyişle Antikorların Antijeni tanıyıp tanımadıklarını ifade eder. İki molekül arasındaki bağlanma değerini belirlemek için eşik fonksiyonu ya da sigmoid fonksiyon gibi çeşitli aktivasyon fonksiyonları kullanılabilir (Şekil 2.6) (De Castro & Von Zuben, 1999).

(32)

Şekil-3.7 : Şekil Aktivasyon fonksiyonları: a.Eşik fonksiyonu b.Sigmoid fonksiyonu

Şekil -3.7.a’daki eşik fonksiyonu aktivasyonu söz konusu olduğunda, iki molekül arasında ancak eşleşme skoru L-ε’den büyük olduğunda bağ kurulur. Şekilde L=7 ve ε=2 olduğu için eşleşme skoru 5’den büyük olunca bir bağlanmadan söz edilebilir. Sigmoid aktivasyon için durum yine benzerdir fakat burada bağlanmama ve bağlanma arasında keskin bir geçiş yoktur. Eşleşme skoru 5’den büyük iken yüksek bir bağlanma değeri, 5’den küçük iken düşük bir bağlanma değerinden bahsedilebilir. 4’den düşük eşleşme skorları da bağlanmamayı ifade eden 0 değerine neden olurlar(Sahan, 2004).

(33)

4.ETMEN

4.1. Etmen Tanımı

Etmen kesin bir tanımı olmamakla birlikte, belli bir çevre içinde, bir alan içinde hedef, hareket ve durum özellikleri bulunan bir nesne olarak tanımlayabiliriz (Stone, Veloso, 1997). Ayrıca belli bir amacı gerçekleştirmek için otomatik olarak hareket edebilen bilgisayar sistemi olarak ifade edilebilir.

Şekil–4.1: Etmen Yapısı

Genel olarak aşağıdaki özellikleri sağlayan donanım veya yazılım tabanlı bir bilgisayar sistemi olduğunu söyleyebiliriz. (Wooldridge, Jennings, 1995)

¾ Özerklik : Etmenler, insanlar ve diğer etmenlerin müdahalesi olmaksızın çalışabiliriler ve hareketlerini çeşitli kontrol mekanizmasıyla düzenlerler.

¾ Sosyal Yeteneklilik : Etmenler, etmen haberleşme dilleri sayesinde diğer etmenlerle ve imkan dahilinde insanlarla etkileşebilirler.

(34)

¾ Tepkisellik (reactivity) : Etmenler ortamlarını (fiziksel bir dünya, grafiksel arabirimli bir kullanıcı, diğer etmenler, internet veya bunlardan birkaçı ) anlayabilir ve ortamında oluşacak bir değişime anında tepki verebilirler.

¾ Amaca yönelicilik (pro-activness) : Etmenler, sadece ortamlarına tepki vermek suretiyle hareket etmezler, onlar bunun yanında amaca yönelik davranış göstermesi için ilk adımı da atarlar.

4.2.Etmenlerin Kullanıldığı Alanlar

Etmenler her türlü kontrol sistemlerinde kullanılabilir. Örneğin bir sıcaklık kontrolü yapılırken odanın sıcaklığı kontrol eden bir sensör olsun. Bu sensöre göre odanın ısısı düşükse açık, odanın ısısı normalse kapalı olacak şekilde bir düzenleme yapılabilir. Bir odanın kapıların açık olup olmadığı yine böyle bir sistem yardımıyla kontrol edilebilir. Bir yazılımın kontrolünde de Etmenler kullanılabilir. Bu durumda Etmen yazılımsal bir çevrenin içindedir. Ve çevrenin özellikleri yazılım fonksiyonları ile ifade edilir. Sonuçta etmenin gerçekleştireceği harekette bir program parçasının çalıştırılması veya bir uyarı vermesi şeklide olmaktadır. Örneğin Windows’un xbiff adında bir programı vardır. Bu program gelen mailleri veya okunmamış mailleri küçük bir ikon yardımıyla görüntülenmesine izin verir. (Weiss 2000)

4.3. Etmen Çeşitleri

Etmenler genel olarak aşağıdaki belirtildiği şekilde sınıflandırılabilir:

(35)

¾ İşbirliği Yapan Etmenler ¾ Arabirim Etmenleri ¾ Hareketli Etmenler ¾ Bilgi/ İnternet Etmenleri ¾ Tepkisel Etmenler ¾ Melez Etmenler ¾ Yetenekli Etmenler

4.3.1. Akıllı Etmenler

Bir etmenin akıllı olması içinde bulunduğu çevreyi anlaması, belli bir amaç doğrultusunda çalışabilmesi ve diğer etmenlerle haberleşebilmesi anlamına gelir(Wooldridge & Jennings 1995). Akıllı yazılım etmenleri, kullanıcıların davranış biçimlerini öğrenerek, bir kimse tarafından belirlenen bilgiyi arayan ve tasnif eden veya bir kimse adına belirli işleri gerçekleştiren yazılım parçaları olarak ta tanımlanabilir(Kaya 1998).

4.3.1.1. Etmenlik zeka ve öğrenme

Akıllı etmenlerin oluşturulmasında birkaç teknoloji öncü rol oynar. Bu teknolojilere zengin etmen veya uygulamaları zengin olmayanlara göre daha akıllı ve gelişmiş olarak tanımlanabilir. Etmenlerin sınırını çizen bu iki teknoloji zekâ ve etmenliktir. (Kaya 1998)

Etmenlerin iki boyutundan biri olan zekâ, uygulamanın muhakeme etme, öğrenme ve erişilen bilginin yorumlanma derecesini tanımlar. Etmenin bu boyutu düşükten yükseğe çeşitli seviyelere ayrılmıştır. Zekânın en sınırlı biçimi kullanıcının çalışma şeklinin yine kullanıcı tarafından belirlenmesine imkân vermektir. Bu

(36)

şekilde zekâ yolunun ilk adımını kullanıcının tercihlerini ifade etmesi oluşturur. Bu tercihler uygulama veya uygulama grubunun muhtemelen karmaşık davranışlarını içeren biçimsel ifadelerdir. Zekânın bir üst seviyesini muhakeme edebilme yeteneği oluşturur. Burada tercihler formül ize edilmiş kurallar şeklindedir. Bu kurallar üzerine çıkarım mekanizması veya karar verme işlemleri uygulanarak yeni bilgiler üretilebilir. Zekâ’nın üçüncü ve en ileri seviyesini öğrenme oluşturur. Öğrenme, üretilen yeni bilgilere dayanarak etmen uygulamalarının muhakeme etme davranışlarını değiştirebilme özelliğidir( Kaya 1998).

Akıllı etmen teknolojisinin diğer boyutunu da etmenin ortamını idrak edebilme ve onun üzerinde hareket edebilme derecesi olan etmenlik oluşturur. Etmen Wooldridge ve Jennings’in (1995) tanımladığı gibi özerklik, sosyal yeteneklik, tepkisellik ve amaca yönelicilik gibi özellikleri üzerinde barındıran donanım veya özellikle yazılım tabanlı bir bilgisayar sistemidir. Etmenlik boyutu da tıpkı zekâ da olduğu gibi birkaç adımdan oluşmuştur. İlk adım etmenliğin en temel özelliği sayılan kullanıcının görevlendirdiği bir işi kullanıcı vekili olarak farklı bir zamanda yapabilme özelliğidir. Bir üst adım kullanıcı günlük işlerinin bir modelini içeren uygulamayı yürütmektir. Bu model kullanıcıya birden fazla işi aynı anda yürütebilme yeteneğini kazandırır. Daha sonraki adım etmene harici verileri sezinleme ve bunlara erişebilme özelliğini verir (veri etkileşimi). Etmenlik boyutunun dördüncü adımını yerel uygulamalar üzerinde hareket etme ve bunlara cevap verme yeteneği oluşturur(uygulama etkileşimi). Bir servisi meydana getiren uygulama grupları üzerinde hareket ise bir sonraki adımın özelliğidir (servis etkileşimi). Etmenliğin en ileri seviyesini ise, bağımsız uygulamalardaki etmenleri birbiriyle haberleşme ve birlikte çalışma yeteneğini oluşturan etmen etkileşimidir. ( Kaya 1998)

(37)

İşbirliği yapan etmenler diğer etmenlerle birlikte çalışarak kendilerine verilen görevi yerine getiren etmenler olarak ifade edilebilir. İşbirliği yapan etmenler yerine getirdikleri görevlerden bir kısmı aşağıda belirtildiği gibidir (Kaya 1998) :

¾ Kaynak sınırlaması nedeniyle tek bir etmen için çok büyük problemlerin çözümünü sağlamak,

¾ Çoklu uzman sistem ve karar destekleyici sistemlerin birlikte çalışma ve bağlantısına izin vermek,

¾ Dağıtık sensör ağları ve hava trafik kontrolü gibi dağıtık problemlere çözümler sağlamak,

¾ Karmaşıklığı azaltmak (modularity), hızı (paralellik nedeniyle), güvenilirliği, esnekliği ve bilgi seviyesinde yeniden kullanılabilirliği artırmak,

¾ İnsan toplumları arasındaki etkileşimi incelemek.

4.3.3. Arabirim Etmenleri

Arabirim etmenleri, kullanıcısı adına kendi başına ve öğrenerek hareket edebilen etmenlerdir. İşbirliği yapan etmenlerden farkı diğer etmenlerle değil sadece kendi kullanıcısı ile haberleşebilmesidir. Bir arabirim etmeni, belirli şartlar altında kendi kendini programlayabilen başka bir deyişle kullanıcıya yardım etmek için gerek duyduğu bilgiyi kazanabilen bir etmendir. Etmene minimum şekilde arka plan bilgisi verilir ve o, uygun davranışı kullanıcıdan ve diğer etmenlerden öğrenir (Kaya 1998).

(38)

4.3.4. Hareketli Etmenler

Hareketli etmenler, WWW gibi geniş alanlı ağları gezme,farklı sunucularla etkileşme, sahibi adına bilgi toplama ve onların verdiği görevler kümesini gerçekleştirdikten sonra kullanıcısına geri dönme yetenekli yazılım etmenleridir. (Kaya 1998).

4.4. Çoklu Etmen Sistemleri

Etmenler kendilerine yüklenen özelliklerle birçok problemin çözümünde kullanılmıştır. Ancak gerçek hayattaki problemlerde genellikle birden fazla etmen etkileşim halindedir. Birden fazla etmenin bir amacı gerçekleştirmek için bir araya gelmesiyle çoklu etmen sistemleri oluşmuştur. Çoklu Etmen Sistemleri (ÇES) kullanılarak, problemlere daha gerçekçi ve kolay çözümler bulunabilmektedir.

(39)

Şekil-4.3 : Çoklu Etmen Sistemi ve Etmenlerin birbirleriyle etkileşimi

Çoklu etmenlerin içinde bulunduğu çevrenin özelliklerini şu şekilde sıralayabiliriz(Wooldridge & Jennings 1995):

¾ Çoklu etmenlerin içinde bulunduğu çevre belli bir haberleşme ve etkileşim protokolü sunar.

¾ Çoklu etmenlerin içinde bulunduğu çevre açık ve merkezi olmayan bir tasarımdır.

¾ Çoklu etmenlerin içinde bulunduğu çevre kendi kendine hareket eden ve dağıtık etmenlerin bulunduğu bir çevredir.

(40)

Problem çözümünde ÇES’nin tercih edilmesindeki en önemli nedenlerden biri olarak alan yapısına sahip olması söylenebilir. Farklı amaçlara sahip olan farklı kuruluşların veya farklı insanların etkileşimlerinin kontrol altında tutulabilmesi için ÇES’ne ihtiyaç duyulur. Öyle ki bu kuruluşlar kendi iç meselelerinin tek bir kişi ya da merkez tarafından kontrol edilmesini istemeyebilir.

Örneğin bir hastane alanını düşünelim. Hastanede her bir görevlinin amacı farklı olduğundan farklı çalışanları temsil eden birbirinden farklı etmenlerin çalışmasına ihtiyaç duyulmaktadır.

Bununla birlikte birden fazla etmenin kullanıldığı sistemler paralel hesaplama yöntemi sağladığından sistemin hızının artmasına neden olur. Gerçekleştirilmek istenilen iş alt birimlere ayrılarak ve her biri farklı etmenler olarak düşünülerek o işlemin daha kısa zamanda sonlanması sağlanır. Özellikle zaman sınırlaması olan alanlarda bu yöntem oldukça büyük avantaj sağlar.

İşlemlerin tek bir etmen değil de birden fazla etmen ile yapılabilmesi sağlamlığı da attıran bir unsurdur. Çünkü eğer bir sistem tek bir etmen ile kontrol edilirse o etmende meydana gelen basit bir hata bile bütün sistemin zarar görmesine sebep olur. Ancak alt birimlere yani alt etmenlere bölünürse tüm sistemin zarar görme olasılığı azalır.

Çoklu etmen sistemlerinin bir diğer yararı da ölçeklenebilir olmasıdır. Tek parça olan bir sistemin kapasitesini arttırmak için yeni etmenler eklenmesinde kolaylık sağlar.

Bir programcı açısından baktığımızda ÇES’nin programlama mantığını kolaylaştırdığı bir gerçektir. İstenilen işlemi gerçekleştiren tek bir programdan ziyade, bu görevi yerine getirebilecek alt programcıklar tasarlanarak işlemin karmaşıklığı ve programın anlaşılabilirliği arttırılabilir.

(41)

Ayrıca ÇES’nin akıllı sistemlere ihtiyaç duyan ortamlarda kullanılabilir olması da bir avantajdır. Çünkü akıllı etmenler içinde bulundukları ortamı tanıyabilen, belli bir amaç doğrultusunda çevresindeki diğer etmenlerle haberleşebilen etmenlerdir.

ÇES’nin kullanım amacını kısaca özetlemek gerekirse (Stone, Veloso, 1997) ;

¾ Alan bilgisine sahip olması, ¾ Paralellik,

¾ Sağlamlık, ¾ Ölçeklenebilirlik,

¾ Basit programlama mantığı,

¾ Akıllı çalışma gerektiren durumlarda.

Çoklu etmen sistemlerini, merkezi etmen sistemleri ve dağıtık etmen sistemleri olmak üzere iki bölümde inceleyebiliriz. Merkezi etmen sitemi çok daha verimli olmasına rağmen, çok fazla sayıda etmeni bulunan ve karmaşık sistemlerde dağıtık etmen sistemi tercih edilir. Bununla birlikte merkezi sistemin uygulanamadığı durumlar da olabilir. Her birimin verileri birbirinden bağımsız ise ve bu veriler gizlilik arz ettiğinden korunması gerekiyorsa bu tür durum merkezi bir yaklaşımla ele alınamaz.

Örneğin içerisinde mikro dalga fırın, tost makinesi ve kahve makinesi olan bir mutfak düşünelim. Bu mutfakta bütün bu cihazların çalışması için yeterli elektrik tesisatı bulunmasın. Bu durumda mutfaktaki işlemcinin akıllı olduğunu varsayalım. Örneğin kahve makinesi kahvenin ne zaman hazır olduğunu bilsin veya bir tost makinesi, tost hazır olduğunda haberi olsun. Tost makinesi ve kahve makinesi birbirleriyle etkileşim halinde olsun. Bu sayede tost ve kahvenin yaklaşık aynı zamanda hazırlanması sağlanabilir. Böyle bir mutfak tasarlayabilmek dağıtık hesaplama içeren işlemler topluluğu yani bir ÇES gerektirmektedir (Wooldridge & Jennings 1995).

(42)

4.5. Çoklu Etmen Sistemlerinde Öğrenme

Öğrenme, insan hayatında çok önemli rolü olan ve dünyaya geldiği andan itibaren kazandığı bir beceridir. İnsanlar öncelikle kendi içinde bulundukları sosyal ortamdaki (çevre) insanları gözlemleyerek ve kendi tecrübelerinden yararlanarak öğrenirler. Daha sonra bu öğrenme sürecine çeşitli öğreticiler (anne-baba, öğretmenler, kitaplar vs. ) dahil olurlar.

İnsan gibi düşünen makineler üretilebileceği fikriyle(Turing 1950) gelişen yapay zekâ araştırmaları insan öğrenme modeline benzeyen öğrenme algoritmalarını da içermektedir. Bu anlamda zekâ ve öğrenme kavramları birbiriyle yakından alakalı iki kavramdır. Bir sistemin akıllı kabul edilebilmesi için öğrenme kabiliyetinin olması istenir.

Akıllı Etmenlerin(AE), belli bir çevrede kendilerinden istenilen hedefe ulaşmak için diğer etmenlerle haberleşerek hareket ettiklerini daha önceki bölümlerde belirtilmişti. AE’ler tasarlanırken kullanılan öğrenme yöntemleri şunlardır (Moriarty, Schultz, Grefenstette, 1999);

¾ Planlı Öğrenme (Planning Learning) (PÖ)

¾ Denetleyerek Öğrenme (Supervised Learning) (DÖ) ¾ Takviyeli Öğrenme (Reinforcement Learning ) (TÖ)

PÖ başlangıç durumundan hedef durumuna kadar bir planlama algoritmasına göre hareket eder. Bunun içinde açık bir durum geçiş fonksiyonuna ihtiyaç duyulur. Yani AE’lerin içinde bulundukları durumdan sonra hangi duruma geçiş yapacakları önceden bellidir.

(43)

DÖ’de ise etmenler eğitilir. Etmenin durum-hareket çiftinin doğru olup olmamasına göre etmen ödüllendirilir. DÖ’de amaç, eğitim örneklerinden faydalanarak genel bir politika üretmektir. Bu nedenle DÖ durum-hareket çiftinin doğru olup olmadığını bildiren bir veritabanına ihtiyaç duyar.

TÖ ise DÖ ve PÖ’nin uygulanamadığı durumlarda kullanılan bir öğrenme çeşididir. Toplam ödülü maksimum yapan politikayı bulmayı amaçlar.

Örneğin bir sistemin durum-geçiş fonksiyonu önceden bilinmiyorsa, bu durumda PÖ kullanılamaz. TÖ ise durum-geçiş bilgisine önceden ihtiyaç duymadığından kullanılabilir. Sistemde ödül sadece belirli durumlarda verilsin ve dolayısıyla eldi edilen toplam ödül az olsun. Bu tür durumlarda da etmenin sonuç kararına referans etmeden doğru ya da yanlış şeklinde bir değerlendirme mümkün olmayacağından DÖ uygulanamaz. TÖ ise toplam ödülü maksimum yapan politikayı bulmayı amaçladığından rahatlıkla uygulanabilir.

Özetle söylemek gerekirse TÖ, PÖ ve DÖ’nin pratik olmadığı durumlarda esnek bir yaklaşım sunar.

4.5.1. Takviyeli Öğrenme

Takviye Öğrenme (TÖ), bir ortamı algılama ve hareket etme yeteneğine sahip özerk bir etmenin amacını başarmak için en uygun hareketleri nasıl öğreneceği sorusuna cevap verir(Kaelbling & Littman & Moore 1996, Sutton 1998).

TÖ ile problemleri çözmek için iki ana yöntem vardır. Bunlardan ilki, ortamı iyiye götüreni bulmak için davranış uzayında bir arama yapmak, ikincisi ise, faydalı hareketi tahmin etmek için istatistik programlarını kullanmaktır (Sutton 1998). TÖ problemi için önerilen diğer önemli yaklaşımlar ise oyun-teorik ve fonksiyon

(44)

yaklaştırma yöntemleridir. İlk yöntemde, öğrenme problemi olasılıklı bir oyun gibi modellenir ve oyun veya oyun takımları öğrenilen bilgiye göre bir denge yakalamaya çalışır(Hu & Wellman 1998). İkinci yöntem ise nörona bağlı olarak polinom uzayında problemi çözmek için sinir ağları kullanır (Abul & Polat &Alhajj 2000).

Standart takviye öğrenme modelinde, bir etmen şekil 4.2.’de gösterildiği gibi ortam ile algı ve hareket mekanizmaları sayesinde etkileşir. Her bir etkileşim anında etmen giriş olarak ortamın şimdiki durumunu (s) gözler ve çıkış olarak bir hareket (a) seçer. Hareket ortamın durumunu değiştirmeyebilir. Yapılan hareketin değeri etmene bir takviye olarak (r) geri döner. Bu takviye pozitif(ödül) veya negatif (ceza) olabilir.

Şekil-4.4 : takviye öğrenme modeli

Etmen kontrol mekanizması, hareketleri seçerken takviye işaretlerinin toplam değerinin olabildiğince büyük olmasına çalışır. Bunun için ortam ile sürekli olarak deneme-yanılma etkileşimleri yapması gerekir.

Böyle bir model aşağıdaki bileşenleri kapsar: ¾ Sonlu durumlar kümesi, S

¾ Sonlu Hareketler kümesi , A ¾ Takviye işaretler kümesi, R

(45)

Etmenin amacı takviyelerin toplamını maksimum yapan bir çözüm yolu bulmaktır.

Şekil 4.3’dan görüldüğü gibi, toplam ödülü maksimize etmek için bir kontrol politikasını öğrenme problemi çok geneldir ve robot öğrenme işleri ötesinde bir çok problemi kapsar. Problem genelde, süreçlerin sırasını bulmak ile uğraşır. Örneğin, üretimi en uygun şekle sokma problemlerinde, öyle üretim hareketleri seçilmelidir ki maksimize edilecek ödül, üretilen malın satış değerinden üretim maliyetinin çıkarılması ile elde edilir. Başka bir örnek olarak da planlama problemleri gösterilebilir. Büyük bir şehirdeki yolculara hangi taksilerin gönderileceğini seçmede maksimize edilecek ödül, yolcuların bekleme zamanına ve hareket halinde iken taksilerin harcayacakları toplam benzin miktarına bağlıdır. Amaç, verilen bir hareketin sırasının kalitesini tanımlamaktır. İstenilen duruma erişmek için arama yöntemini kullanan bir sistem her bir adımda alternatif hareketler arasından bir seçim yapar. Takviyeli öğrenmede ise hareketlerin belirsiz sonuçlar çıkarabileceği ve öğrenicinin kendi hareketlerinin sonuçlarını tanımlayan bir alan (domain) bilgisine sahip olmadığı göz önüne alınır. Takviyeli öğrenme ile yapılan uygulamaların belki de en tanınmışı Tesauro’nun (1995) TD-GAMMON oyun programıdır. Bu program birinci sınıf tavla oyuncusu olmak için takviyeli öğrenmeyi kullanmıştır (Mitchell 1997).

Uygun hareketleri seçmek için bir kontrol politikasını öğrenme problemi, fonksiyon yaklaşım problemlerine benzerlik gösterir. Öğrenilmesi gereken hedef fonksiyon π: S →A kontrol politikasıdır. Bir başka deyişle S kümesinden şu andaki s durumu verildikten sonra A kümesinden uygun bir hareket a’yı çıkarma politikasıdır. Bununla birlikte takviyeli öğrenme birkaç yönden diğer fonksiyon yaklaşım yöntemlerinden ayrılır (Mitchell, 1997).

¾ Gecikmiş Ödül: Etmenin amacı, şu andaki s durumundan, en uygun hareket a= π (s)’i planlayan bir hedef fonksiyon öğrenmektir. Diğer birçok öğrenme yöntemlerinde π gibi bir hedef fonksiyon öğrenildiği zaman her bir eğitme

(46)

örneği (s, π (s)) şeklindedir. Takviyeli öğrenmede ise eğitme bilgisi bu formda değildir. Bunun yerine eğitici; etmen hareketlerini yürütürken sadece anlık ödül değerlerin sırasını sağlar.

¾ Kısmen Gözlenebilir Durumlar: Her ne kadar herhangi bir zaman adımında etmen sensörlerinin ortamın bütün durumunu algılayabildiğini kabul etmek uygun olsa da, birçok pratiksel durumda sensörler yeterince bilgi sağlayamaz. Örneğin, sadece önünü görmeye yarayan kameraya sahip bir robot arkasında ne olduğunu idrak edemez. Böyle durumlarda hareketler seçildiği zaman şu andaki gözlemlerle birlikte öncekileri de dikkate almak etmen için gerekli olabilir.

¾ Hayat Boyu Öğrenme: Birbirinden izole edilmiş fonksiyon yaklaşımından farklı olarak, robot öğrenme aynı sensörler kullanarak aynı ortamda birden fazla ilgili işi öğrenmeyi ihtiva edebilir. Örneğin, hareketli bir robotun aynı anda, şarj edicisine yaklaşma, dar koridorlar boyunca gezinme ve lazer yazıcıdan çıktıları toplama gibi öğrenme amaçları olabilir.

Takviye tabanlı öğrenme algoritmaları içinden en yaygın kullanılan Q-öğrenme algoritmasıdır. Bu algoritmanın detaylı bir tanımı sonraki alt bölümde verilecektir.

4.5.1.1.Q-Öğrenme Algoritması

Q-öğrenme, sonlu durumlu Markov Karar Süreci (Bersekas 1995) olarak modellenebilen alanlara kolaylıkla uygulanabilecek modelden bağımsız bir TÖ algoritmasıdır. TÖ problemleri matematiksel olarak Markov Karar süreçleri gibi modellenebilirler. Markov Karar süreci aşağıdaki parametrelere bağlı olarak tanımlanır(Kaya 2003):

(47)

¾ Hareketler kümesi A,

¾ Bir ödül fonksiyonu , R:SxA→ R

¾ Durum geçiş fonksiyonu T : SxA → π(S)

T : SxA → π(S) ifadesi S kümesinde geçerli durumda, A kümesinden uygun hareket a’nın seçilmesi anlamına gelmektedir. Etmenin amacının toplam ödülü maksimum yapmak olduğunu belirtmiştik, buna göre π politikası Formül-3.1.’deki gibi ifade edilir (Mitchell 1997):

π*(s) = argmax [r(s,a) + γV*(δ(s,a))] Formül-3.1

Formül-3.1’deki parametreler şu anlama gelmektedir(Mitchell 1997):

¾ δ(s,a) ; s durumunda a hareketiyle davrandığı durum ¾ V* ; toplam ödül

¾ r(s,a) ; s, durumunda a hareketini yapacağı konumdaki ödül ¾ π*(s) ; etmenin optimal hareketi

V* eğer δ(s,a) ve r(s,a) tam olarak biliniyorsa o zaman bizim için anlam ifade eder.

Bu formülü incelersek ;

Q(s,a) = r(s,a) + γ V*(δ(s,a)) Formül-3.2

Formülünde V*(s) yerine ;

V*(s) = maxQ(s,a’) Formül-3.3

(48)

Değerini yazarsak ;

Q(s,a) = r(s,a) + γ maxQ(δ (s,a), a’) Formül-3.4

Formül-3.4 elde edilir ki bu formül yinelemeli (recursive) bir formüldür. Bu yinelemeli tanım algoritma için temel teşkil eder (iteratif olarak Q yaklaşımı) (Watkins 1989).

Algoritmayı açıklamak için öğrenicinin tahminini veya hipotezini gösteren Q^ sembolü kullanılacaktır. Bu algoritmada öğrenici, her durum-hareket çifti için ayrılmış bir girişle birlikte geniş bir tablo tarafından Q^ hipotezi sunar. (s,a) çifti için tablo girişi Q^(s,a) ne değer depolar (öğrenicinin geçerli hipotezi gerçek Q(s,a) değerini bilmez). Tablo rast gele değerlerle doldurularak başlanabilir ( eğer başlangıç değerleri sıfır verilirse algoritma daha kolay anlaşılır). Etmen tekrar tekrar geçerli durum s’nin a hareketini seçmesi ile durum i gözlemler ve sonra ödül r = r(s,a) ‘yı ve s’ = δ(s,a)’yı gözlemler. Bu geçişlerden sonra Q^(s,a) tablo girişini yeniler. Kural şöyledir(Mitchell 1997):

Q^(s,a) = r + γmax Q^(s’, a’) Formül-3.5

Bu eğitim kuralı, önceki s durum’u için Q^(s,a) tahminini hassaslaştırmak yeni durum s’ için etmen’in geçerli Q^ değerlerini kullanır. Bu eğitim kuralı etmenin Q^ yaklaşımı ile ilgili olmasına rağmen formül-3.4 eşitliği tarafından harekete geçirilir. Halbuki formül-3.4 eşitliği gerçek Q fonksiyonunu uygular. Formül-3.4 eşitliği δ(s,a) ve r(s,a) fonksiyonlarını terim olarak kullanarak Q’yu belirlemesine rağmen, etmen formül-3.4 eşitliğindeki eğitim kuralını uygulayan genel fonksiyonların bilinmesine gerek yoktur. Onun yerine etmen çevresinde o hareketi çalıştırır ve sonra yeni s’ durum’u ve ödül r sonuçlarını gözlemler. Böylece o geçerli s ve a değerlerindeki örnek fonksiyon gibi gözükebilir.

(49)

Şekil-4.5 : Takviyeli Öğrenme Q öğrenme algoritması şu şekilde kısaca özetlenebilir:

¾ Her s, a için tablo girişi Q^(s,a) sıfır değerleri ile başlar.

¾ Geçerli durum s gözlenir.

¾ Bir a hareketi seçilir ve çalıştırılır.

¾ Mevcut ödül r alınır.

¾ Yeni durum s’ gözlemlenir.

¾ Q^(s,a) için tablo girişi yenilenir .

o Q^(s,a) → r + γmax Q^(s’,a’)

o s ← s’

(50)

Q-öğrenmenin daha iyi açıklanması için aşağıda bir örnek verilmiştir (6X6’lık bir grid üzerinde ). Şekil 4.4’ün en üstteki diyagramında 6 bölme, etmen için 6 mümkün durumu veya yeri temsil eder. Diyagramdaki her bir ok etmenin bir durumdan diğerine geçebileceği mümkün hareketi temsil eder. Her bir okla ilişkilendirilmiş sayı, etmenin ilgili durum-hareket geçişini yürütmesi durumunda alacağı anlık ödül r(s, a)’yı gösterir. Bu özel ortamda anlık ödül, G durumuna geçme dışındaki bütün durum-hareket geçişleri için sıfırdır. G amaç durumudur (goal state). Etmen G durumuna girdikten sonra yapabileceği tek hareket bu durumda kalmaktır. Bu nedenle G yutucu durum (absorbing state) olarak adlandırılabilir (Watkins 1989).

(51)

Durumlar, hareketler, anlık ödüller tanımlandıktan ve azalma faktörü γ seçildikten sonra, optimal politika π * ve onun değer fonksiyonu V*(s) belirlenebilir. Örnek için γ=0.9 olarak alınmıştır. Şekil 4.4’ün en alttaki diyagramı bu ortam için en uygun politikayı gösterir, fakat bundan başka optimal politikalar da vardır. Tüm politikalar gibi en uygun politika da etmenin herhangi bir durumda seçeceği her hareketi belirleyebilir. Aynı zamanda en uygun politika, etmeni G duruma en kısa yoldan ulaştırır. Şeklin ortadaki diyagram her bir durum için V*_{değerlerini gösterir.} Örneğin, bu diyagramda en alttaki sağ durum göz önüne alındığında bu durum için V* değeri 100’dür. Çünkü bu durumda en uygun politika, 100 anlık değeri olan yukarıya git hareketini seçer. Bundan sonra etmen yutucu durumda kalacak ve herhangi bir ödül almayacaktır. Benzer şekilde en alttaki orta durum için V* değeri 90’dır. Çünkü en uygun politika etmeni bu durumdan önce sağa (sıfır değerinde bir anlık ödül üreterek) sonra da yukarı doğru (100 anlık değeri üreterek) hareket ettirecektir. Böylece en alttaki orta durum için azaltılmış gelecek ödül;

90 .... 0 0 100 0₊_γ ₊_γ2 ₊_γ3 ₊ ₌ dır.

Bu özel ortamda etmen yutucu durum G’ye ulaştıktan sonra onun sonsuz geleceği artık bu durumda kalmaktan ve sıfır ödüller almaktan ibarettir(Watkins 1989).

(52)

5. AV-AVCI (“PURSUIT DOMAIN”) UYGULAMASI

Av-Avcı uygulaması literatürdeki adıyla “pursuit domain” problemleri ÇES ile örneklenmeye uygundur. Av-avcı uygulamalarını ilk kez tanıtan Benda olmuştur (Benda, Jagannathan, Dodhiawala 1987). Günümüze kadar farklı formüller geliştirilerek üzerinde çokça çalışılmış olan av-avcı uygulamasında genellikle dört avcı bir av etmeni kullanılmıştır.

Yapay bağışıklık sistemleri ile günümüzde oldukça çok probleme farklı yaklaşımlar getirilmektedir. Çoklu etmen sistemleri ile bağışıklık sistemi arasındaki benzerlikler göz önüne alındığında birlikte kullanılabileceği düşünülmüştür. Bu benzerlikler şu şekilde sıralanabilir;

¾ Her ikisi de dağıtık ve bağımsız yönetilebilen sistemlerdir.

¾ Her ikisi de çokça yapısal nesneye sahiptir.

¾ Her ikisi sistemde kendi tecrübeleriyle öğrenirler.

¾ Her ikisi de uyarlanabilirler.

¾ Her ikisi de çevreye göre değişir ve adapte olabilirler.

¾ Her ikisi de haberleşebilirler.

(53)

Şekil-5.1: 16X16’lık bir alanda Av-Avcı Uygulaması örneklendirilmiştir. Kırmızı ile gösterilen etmen av etmeni, mavi ile gösterilen etmenler avcı etmenler ve ok

işaretleri etmenin gidebileceği muhtemel durumları göstermektedir.

Avcıların amacı avı yakalamaktır. Bir av etmenin etrafında Şekil 5.1’de gösterildiği gibi 4 tane avcı etmeni bulunduğu takdirde av yakalanmış kabul edilmektedir.

16X16 ‘lık bir alan kullanılmıştır.

(54)

Her etmenin belli mesafedeki etmenleri görebilirler. Bu mesafe görme derinliği olarak ifade edilir. Örneğin Şekil 5.2 ‘de görüldüğü gibi 3 numaralı avcı etmenin görüş alanına 4 numaralı etmen girmektedir.

d = 1 2 2

2 2

1 | | |

|x −x + y −y

Formül-5.1 Öklit Uzaklığı

Av etmeni avcı etmenleri ile arasındaki maksimum yapacak şekilde hareket ediyor. Bunun için Av etmenin bütün avcılarla arasındaki mesafe formül–5,1 ‘de verilen öklit uzaklığı yöntemi ile hesaplanır. Minimax yöntemi ile bir sonraki durumu tespit ediliyor. Minimax algoritması aşağıdaki gibi ifade edilebilir.

Formül-5.2 : Minimax Algoritması

N, görüş alanındaki avcıların sayısını ifade eder. d(hi) ise av ve avcı etmenler arasındaki en kısa yoldur. Av etmeninin amacı D mesafesini maksimum yapmaktır.

Avcı etmenleri ise bir sonraki hareketini seçerken Q değerleri üzerinde Boltzman Dağılımı (BD) uygulanır. BD formül 5.3’de gösterilmektedir.

P (ai | s)

=

∑

j∈A aj s Q ai s Q k k ) , ( ) , (

(55)

A, hareket kümesi

P (ai | s), a hareketini seçme olasılığı

k = Etmenin deney politikasının katsayısı (0<k<1). Büyük k değerleri büyük Q değerlerinin seçilme olasılığını arttırır. Bu nedenle etmenler öğrenme aşamasında iken düşük k değeri seçilip, program ilerledikçe kademeli olarak k değeri yükseltilir.

Etmenler şekil 5.1 de gösterildiği gibi, sadece yukarı, aşağı, sağa ve sola hareket edebilirler.

Her bir iterasyon rasgele değerlerle başlar ve avın yakalanmasıyla son bulur.

5.1. Av-Avcı Algoritmasında Kullanılan Parametreler

NAG ( Non/self Agent ) Av Etmeni Antijen SAG ( Self Agent ) Avcı Etmeni Antikor

Çizelge 5.1 : Av ve Avcı etmen Parametreleri

¾ Etmenler Çizelge 5.1 de gösterildiği şekilde modellenmiştir. Av ve avcı etmenleri birer bilgi vektöründen oluşmaktadır. Etmen Bilgi Vektörü toplam 9 bitlik ikilik bir sayı olarak düşünülmüştür. İlk bit 0 ise av etmeni;1 ise avcı etmenidir. Devam eden ilk 4 bitin ondalık karşılığı etmenin x değeri, daha sonraki 4 bitin ondalık karşılığı ise etmenin y değerini vermektedir.

(56)

Tablo 5.2 : Av-Avcı tanımlayıcı tablosu

A 0 0 1 1 0 1 0 1 0 B 1 0 0 1 1 0 0 1 0

Örneğin yukarıdaki gibi iki bilgi vektörümüz olsun;

A etmeni av etmenidir ve A (x,y) = 6,10 B etmeni avcı etmenidir ve B(x,y) = 3,2

¾ s_x = avcı etmeninin bulunduğu konumun x değerini

¾ s_y = avcı etmeninin bulunduğu konumun y değerini

¾ n_x = av etmeninin bulunduğu konumun x değerini

¾ n_y = av etmeninin bulunduğu konumun y değerini

¾ adim_sayisi = Avın yakalanması için gerekli adım sayısı

¾ iterasyon = her bir denemenin kaç sefer çalıştırılacağını ifade eder,

¾ r = anlık ödül

(57)

¾ B = Öğrenme katsayısıdır

¾ Algısal Alan: Algısal alan içinde avcılar avları algılayabiliyor. Yani SAG’lerin NAG’lerle haberleşebildiği alanı ifade eder

¾ Haberleşme Alanı: Haberleşme alan içinde ise avcılar kendi aralarında haberleşebilirler. Bu alan algısal alandan daha büyüktür.

5.2. Av-Avcı Algoritması

5.2.1. Q-Öğrenme ile av-avcı algoritması

1. Rasgele bir av ( NAG ) ve avcı ( SAG ) oluşturuyoruz.

2. while iterasyon ~= 5000 olduğu sürece ,

a. while av_sayisi = ~ 0 olduğu sürece (av yakalanmadığı sürece) Do ; i. adım sayısı kontrol ediliyor.

if adim_sayisi <2000 continue else diğer iterasyona geç ii. Av Minimax Algoritmasına göre bir sonraki a hareketini

seçiyor.

iii. Her bir avcı için;

1. Avcı Boltzman Algoritmasına göre bir sonraki a hareketini seçiyor ,

2. seçilen a hareketine göre s_x ve s_y değerleri güncelleniyor.

3. Q(s,a) = (1- β )Q(s,a) + β (r+ γmax Q(s’, a’)) formülü kullanılarak Q tablo değerleri değiştiriliyor.