Genetik Algoritma Temelli Yaklaşım - Kanserle İlişkili CNA’lı Gen Gruplarının Tespitinde Öneril

2. PROBLEMLERİN TANIMLANMASI VE KARMAŞIKLIK ANALİZİ

3.5. Kanserle İlişkili CNA’lı Gen Gruplarının Tespitinde Önerilen Yaklaşımlar

3.5.2. Genetik Algoritma Temelli Yaklaşım

Bölüm 2.2’deki problemin çözümü amacıyla bu bölümde, GA (Goldberg ve Holland 1988, Holland 1992) temelli metasezgisel bir yaklaşım önerilmiştir. Bu yaklaşım tez çalışmasında 𝐺𝐴𝑇 (Genetik Algoritma Tekniği) kısaltmasıyla ifade edilmektedir. Bu tekniğin uygulanmasında, çizgelerin temsili ve topolojik özelliklerin elde edilmesi gibi temel işlemler için SNAP kütüphanesindeki bazı fonksiyonlardan yararlanılmıştır (SNAP 2016). Bu algoritmanın temel işlem adımları; kromozomların temsili gösterimi, popülasyonun oluşturulması, uygunluk değerlerinin hesaplaması ve seçim süreci ile çaprazlama ve mutasyon operatörlerinden oluşur. Gerçekleştirilen her

𝒌𝒌

𝒌!

bir işlem aşağıda adım adım açıklanmıştır. Algoritmanın sonlandırma kriteri olarak maksimum iterasyon sayısı temel alınmıştır. Bu sayı 1000’dir. Ayrıca, algoritmadaki toplam birey sayısı 50 olarak belirlenmiştir. GAT için seçilen uygun parametre değerleri literatürdeki öneriler de dikkate alınarak deneme yanılma yoluyla belirlenmiştir.

3.5.2.1. Kromozomların temsili gösterimi

Algoritmadaki aday çözümler, kromozomları temsil ederler ve bunların genetik temsili gösterimi Şekil 3.26’da verilmiştir. Kromozomdaki gen sayısı ağdaki düğüm sayısına denk gelir. Düğüm/gen sayısı ise temsili örnek için Şekil 3.24’teki ağın toplam düğüm sayısıdır ve bu değer 𝑑 parametresinde tutulur. Buna göre temsil bireyin boyutu 𝑑 = 7 olur. Her bir sıra, genin indisini (ID: sıra numarası) gösterir. Gen içeriği ise 0 veya 1’lerden oluşur. Buradaki 1 sayısı bağlantının olması durumunu; 0 ise bağlantısız durumu gösterir. Gen içerikleri ağdaki düğümlerin komşuluklarına göre rastsal olarak belirlenir. Şekil 3.26’daki örnekte 1., 6. ve 7. genlere rastsal olarak 1 sayısı atanmıştır. Diğer genlerin içerikleri 0 olarak belirlenmiştir. Buradaki örnek için 𝑘 sayısı 3 olarak belirlenmiştir. Tanımlanan 𝑘 parametresi giriş verisindeki kanser türünde sağkalım parametresi ile maksimum ilişkide olduğu düşünülen toplam gen sayısını gösterir. Bu sayı kullanıcı tarafından algoritmanın başlangıcında belirlenir.

Şekil 3.26. GAT algoritmasına göre temsili kromozomun gösterimi

3.5.2.2. Popülasyonun oluşturulması

Popülasyondaki bireylerin temsili gösteriminden sonra bu bireylerin içeriklerine 𝑘 sayısı kadar rastsal olarak 0 ya da 1 sayıları atanır. Bu işlem için temel şart atanan 1 sayılarına denk gelen düğümlerin doğrudan veya dolaylı olarak komşu olmaları gerekir. Örneğin, Şekil 3.26’daki kromozom için seçilen düğümlerin (1 6 7) Şekil 3.24’teki ağda birbirlerine bağlı oldukları (komşuluklarının bulunduğu) bilinmektedir. Bu şekilde popülasyona 𝑑 boyutlu 𝑛 sayıda kromozom eklenir. 𝑛, popülasyondaki toplam aday çözüm (kromozom) sayısıdır. Her bir aday çözümde 𝑘 adet komşuluk belirlenir. Böylece

ID: 1 2 3 4 5 6 7

0 0 0 0 1 1 1

𝑘 sayısı kadar 1 değeri kromozomlara rastsal olarak atanır. Şekil 3.24’teki ağda bulunan düğümlerin komşuluklarına göre oluşturulan popülasyon Şekil 3.27’de gösterilmiştir.

Şekil 3.27. Popülasyondaki temsili kromozomlar

3.5.2.3. Uygunluk değerlerinin hesaplaması ve seçim süreci

Önceki adımda üretilen bireylerin uygunluk değerleri Bölüm 2.2’de sunulan Denklem 47’deki 𝑝_{𝑠𝑘𝑜𝑟} hesaplama formülüne göre belirlenir. Uygunluk fonksiyonunun hesaplanabilmesi için gereken temsili giriş bilgileri ve sunulan deneysel çıktılar Bölüm 3.5.1’de açıklanmıştır. GAT algoritması ile amaç, yüksek 𝑝_{𝑠𝑘𝑜𝑟} değerlerine sahip aday çözümlerin elde edilmesidir. Böylece ulaşılan değerlerin yüksek olması bireylerin daha kaliteli olduğunu gösterir. Hesaplama işleminden sonra bireyler uygunluklarına göre yüksekten düşüğe doğru sıralanırlar. Ana popülasyondaki bireylerin en iyi “%𝛽” tanesi 𝑃𝛽_{popülasyonunu (en iyiler) oluşturur ve bunlar sonraki nesile aktarılmak üzere}

kaydedilir. 𝛽 değişkeni ana popülasyondaki en iyi bireylerin saklanması amacıyla kullanılır. Bu değişkenin değeri kullanıcı tarafından belirlenir. Kalan bireyler içinden çaprazlama olasılığı şartını sağlayanlar da çaprazlama sürecine alınırlar. Örneğin popülasyondaki birey sayısı 100 ise ve 𝛽 = 10 olarak belirlenmişse en iyi bireylerin yüzde 10’u sonraki nesile aktarılır. Böylece 𝑃𝛽=10_{’daki 10 adet birey sonraki}

iterasyondaki ana popülasyona dahil edilir.

İki farklı bireyden yeni bir bireyin elde edilmesi sürecini temsil eden ve sonraki alt başlıkta anlatılan çaprazlama adımı yüksek uygunluk değerlerine sahip bireylerin seçilmesi aşamasından sonra gerçekleşir. Çaprazlamadaki ilk bireyler çaprazlama

1 0 0 0 0 1 1 1 1 2 3 4 5 6 7 1 ••• ••• ••• ••• ••• n 1 d 0 0 0 0 0 1 1 0 1 0 0

olasılığı şartını (bu şart sonraki alt başlıkta anlatılmıştır) sağlayan bireylerin oluşturduğu 𝑃𝐶_{’den alınırken; ikinci bireyler doğal seçilimdeki rulet tekerleği yöntemi ile belirlenen}

𝑃𝑅𝑇𝑆_{popülasyonundan alınır. Bu adım için Bölüm 3.4.6’daki seçim aşamasında}

kullanılan RTS’nin işlemleri uygulanır. Ana popülasyondaki her bir aday çözümün uygunluğuyla doğru orantılı olarak belirlenen kümülatif olasılık değerleri bu bireylerin seçim olasılıklarını belirler. Çaprazlama amacıyla seçilen bireyler genelde yüksek değerli 𝑝_{𝑠𝑘𝑜𝑟}’lara sahip aday çözümleri ifade eder. İkinci bireyler (kromozomlar) Bölüm 3.4.6’da açıklanan Denklem 88’e göre seçilir ve 𝑃𝑅𝑇𝑆_{’e dahil edilir. Bu popülasyondaki}

birey sayısı 𝑃𝐶_{popülasyonunki ile aynı olur.}

3.5.2.4. Çaprazlama operatörü

Bu adım aday çözümlerin geliştirilmesi amacıyla kullanılan ve 2 farklı bireyden (ebeveyn kromozom) yeni bir bireyin (çocuk kromozom) elde edilmesi sürecini temsil eden işlem adımıdır. Buradaki ilk birey (1. ebeveyn) popülasyondaki sırasına uygun olarak çaprazlama olasılığına şartına göre işleme alınan aday çözümdür. Bu bireyler 𝑃𝐶

popülasyonunda tutulurlar. İkinci birey (2. ebeveyn) ise bir önceki işlem sürecinde (Bölüm 3.5.2.3’teki adımda) kümülatif olasılık değerine göre seçilen uygun çözümlü bireydir. İkinci bireyler 𝑃𝑅𝑇𝑆_{’den alınırlar. Çaprazlamadaki her ilk birey için işleme}

alınan ikinci birey, 𝑃𝑅𝑇𝑆_{’den rastsal olarak seçilir. Bu işlemler aşağıda açıklanmıştır.}

Çaprazlama operatöründeki işlemler popülasyondaki toplam birey sayısının yaklaşık olarak “𝐶 × 𝑛” tanesi için uygulanır ve seçilen bireyler 𝑃𝐶_{popülasyonunda}

tutulur. Bu tez çalışmasında 𝐶 değeri 0.8 olarak alınmıştır. Örneğin 𝐶 = 0.8 ve ana popülasyondaki toplam birey sayısını ifade eden 𝑛 100 ise her bir birey için rastsal olarak çaprazlama olasılığı şartını sağlayan bireylerin oluşturduğu 𝑃𝐶=0.8_popülasyonu

yaklaşık olarak 80 bireyden oluşur. Çaprazlama olasılığı şartı ise 𝑅 ≤ 𝐶 ile temsil edilir. Buradaki 𝑅 ifadesi 0 ile 1 arasında rastsal olarak üretilen sayıdır. Ana popülasyondaki her birey için bir 𝑅 sayısı üretilir. Bu sayı çaprazlama olasılığından küçük veya eşitse bu birey 𝑃𝐶_{’e dahil edilir. Aksi durumda diğer bireye geçilir. Böylece şartı sağlayanlar}

çaprazlama operatöründeki birinci bireyleri temsil ederler. İkinci bireyler ise 𝑃𝑅𝑇𝑆

popülasyondan rastsal olarak seçilirler. 𝑃𝑅𝑇𝑆_{’deki toplam aday çözüm sayısı}_𝑛

𝑅𝑇𝑆 ile

temsil edilsin. Çaprazlamadaki ikinci bireyin seçilmesi için öncelikle 1 ile 𝑛_𝑅𝑇𝑆 arasında rastsal olarak bir tam sayı üretilir. Bu sayı 𝑃𝑅𝑇𝑆_{popülasyonundaki herhangi bir bireyin}

sıra numaralarına denk gelir ve bu sıradaki aday çözüm ikinci birey olarak alınır. İki farklı birey seçildikten sonra çaprazlama operatörüne geçilir.

Çaprazlama operatöründe ilk işlem, seçilen birinci ve ikinci bireylerdeki gen içerikleri “1” olan konumları bulmaktır. Bu konumlar, kromozomlardaki bağlı genlerin

ID’lerine karşılık gelirler. Her bir birey, 𝑘 adet “1” içerir. 𝑘 parametresi ile ilgili tanımlama Bölüm 3.5.1’de yapılmıştır. Bulunan konumlardaki gen grupları ilgili kromozomlar için temsil edilen 𝑘 boyutlu alt-ağları ifade ederler. GAT algoritmasındaki çaprazlama işlemini gösteren temsili örnek Şekil 3.28’de verilmiştir. Buradaki 2 birey de Şekil 3.24’teki temsili ağdaki düğümlerin komşuluklarına göre oluşturulmuştur. 1. bireyin 𝑃𝐶_{popülasyonundan sırasına göre işleme alındığı; 2. bireyin ise}_𝑃𝑅𝑇𝑆_’den

rastsal olarak seçildiği varsayılmıştır. Aşağıdaki şekilde bireylerdeki alt-ağları oluşturan genler birinci birey için kırmızı; ikinci birey için mavi kalın alt-çizgilerle vurgulanmıştır. Buna göre birinci bireydeki 1., 6. ve 7. genlerden 1. ve 7. genler ile ikinci bireydeki 2., 3. ve 5. genlerden 2. gen çaprazlama işleminde rastsal olarak seçilerek yeni üretilen bireye aktarılmıştır. Sonuç olarak yeni birey 1., 2. ve 7. genlerden oluşan bağlı bir alt-ağı temsil eder. Bu temsili örnekte de gösterildiği gibi üretilecek yeni bireyler için “1” olarak belirlenecek konumlar (seçilecek gen ID’leri), rastsal olarak seçilen iki bireyden birindeki “1” konumlarından (var olan gen ID’lerinden) alınırlar. Böylece 𝑘 adet gen çaprazlama prensibine göre rastsal olarak seçilir.

Şekil 3.28. Önerilen çaprazlama operatörü

Şekil 3.28’de gösterilen örnekteki gibi 𝑃𝐶_{popülasyonundaki bireylere karşılık}

𝑃𝑅𝑇𝑆_{popülasyonundan uygun bireylerin seçilmesiyle çaprazlama işlemi,}_𝑛

𝑅𝑇𝑆 sayısı

kadar tekrarlanır. Burada dikkat edilmesi gereken şart ise oluşturulan bireylerdeki genlerin birbirleriyle komşuluklarının bulunması zorunluluğudur. Bu yüzden her bir alt- ağın bağlı yapıda olması durumu aranır. Buna göre üretilen tüm yeni bireyler 𝑃𝑦𝑒𝑛𝑖

isimli popülasyonu oluşturur ve sonraki adımdaki mutasyon sürecine aktarılırlar.

0 𝟏. 𝐛𝐢𝐫𝐞𝐲 ID: 1 2 3 4 5 6 7 1 0 0 0 0 1 1 𝐘𝐞𝐧𝐢 𝐛𝐢𝐫𝐞𝐲 → 1 1 0 0 0 0 1 𝟐. 𝐛𝐢𝐫𝐞𝐲 ID: 1 2 3 4 5 6 7 1 1 0 1 0 0

3.5.2.5. Mutasyon operatörü

Bu adımda 𝑃𝑦𝑒𝑛𝑖_{’deki bireyler için mutasyon işlemi gerçekleştirilir. Bunun için}

mutasyon operatörüne alınacak bireyler 𝑟𝑀 < 𝑀 şartına göre belirlenir. 𝑀, mutasyon

oranını; 𝑟_𝑀, 0 ile 1 arasında üretilen sayıyı gösterir. Buradaki 𝑟_𝑀 sayısı her birey için tekrar üretilir. 𝑀 değeri ise 0.05 gibi düşük bir oranda seçilmiştir. Böylece sadece şartı sağlayan bireyler mutasyona uğratılır. Diğerleri ise mutasyon operatörüne alınmadan sonraki adıma geçerler. Üretilecek rastsal sayılara ve olasılık değerlerine bağlı olarak 𝑃𝑦𝑒𝑛𝑖_{’deki bireylerin yaklaşık olarak sadece yüzde 5’i mutasyona uğrar.}

Mutasyon işlemi seçilen kromozomda bulunan ve sadece tek bir bağlantısı olan genlerden yalnızca birinde gerçekleşir. Bu işlem Şekil 3.29’a benzer şekilde yapılır.

Şekil 3.29. Tek bir gen için gerçekleşen mutasyon işlemi

Şekil 3.29’a göre bir önceki çaprazlama sürecinde gösterilen yeni birey burada temsili olarak mutasyona tabi tutulmuştur. Burada işleme alınan genin tek bir bağlantısının olması şartı göz önüne alınmıştır. Çünkü sadece bir bağlantısı olan genin değiştirilmesi durumunda bireyin genel yapısı mutasyon doğasına uygun olarak korunur ve sadece küçük değişimler gerçekleşir. Şekil 3.29’daki yeni bireydeki (çaprazlamadan

gelen) son gen kırmızı halka ile belirtilmiştir. Son bireydeki 4. gen ise yeşil halka ile

vurgulanmıştır. Bunların anlamı ilk durumda alt-ağdaki üçüncü düğüm 7. gen ile temsil edilirken; tekli mutasyonla bu gen 4. gen ile değiştirilmiştir. Son aşamadaki alt-ağ 1., 2. ve 4. genlerden oluşur. Yukarıdaki şekilde gösterilen iki birey de Şekil 3.24’teki temsili ağdaki komşuluklara uygun olarak oluşturulmuştur. Mutasyon işlemi öncesi mevcut bireyden (yeni birey) rastsal olarak seçilen 7. genin tek bir komşusunun olduğu ve bunun 4. gen ile değiştirilebileceği Şekil 3.24’ten anlaşılabilir. Son bireyde bulunan 4. genin de tek bir komşuluğunun bulunduğu bilinmektedir. Buradaki tüm mutasyon işlemleri 𝑃𝑦𝑒𝑛𝑖_{’de bulunan ve 𝑟}

𝑀 < 𝑀 şartını sağlayan bireylere aynı şekilde uygulanır. GAT algoritmasının en son aşamasında ise uygun bireyleri içeren alt-ağlardaki

genlerin CNA durumlarına göre Bölüm 3.5.1’deki temsili örnekteki gibi hem 𝑃0 hem de

0 1 1 0 1 0 0 0 1 1 0 0 0 1 𝐘𝐞𝐧𝐢 𝐛𝐢𝐫𝐞𝐲 → 𝐒𝐨𝐧 𝐛𝐢𝐫𝐞𝐲 →

𝑃1 hasta popülasyonları belirlenir ve 𝑝𝑠𝑘𝑜𝑟 hesabı yapılır. Daha sonra işlem yapılan

nesilde en uygun çözümü sunan birey, yerel en iyi birey olarak kaydedilir. Aynı şekilde global en iyi çözümü sunan birey de yerel en çözüme göre güncellenir. Maksimum iterasyon sayısına ulaşılıncaya kadar yukarıdaki tüm işlemler tekrarlanır. Bitirme şartı sağlandığında ise önerilen algoritma sonlandırılır. Böylece giriş verisindeki kanser türü için bu algoritmanın başarısına göre sağkalım parametresiyle maksimum ilişkili olduğu düşünülen 𝑘 boyutlu bir alt-ağ elde edilmiş olur.

Belgede Karmaşık ağlardaki modül yapılarının ve anlamlı alt-ağların tespiti (sayfa 147-154)