Dinamik Programlama Temelli Yaklaşım - Kanserle İlişkili CNA’lı Gen Gruplarının Tespitinde Öner

2. PROBLEMLERİN TANIMLANMASI VE KARMAŞIKLIK ANALİZİ

3.5. Kanserle İlişkili CNA’lı Gen Gruplarının Tespitinde Önerilen Yaklaşımlar

3.5.1. Dinamik Programlama Temelli Yaklaşım

Hansen ve Vandin tarafından 2016 yılında yayımlanan çalışmada (Hansen ve

Vandin 2016) tanıtılan problemin CNA’lı genlere uyarlanmış hali yeni bir problem olarak bu tez çalışmasında sunulmuştur. Bu problemin çözümü amacıyla önerilen DP temelli yaklaşım, tanımlanan 𝑘 sayısına ve giriş ağına bağlı olarak Alon ve diğerleri tarafından önerilen renk-kodlama (color-coding) (Alon ve ark 1994) yöntemi yardımıyla dinamik bir tablonun adım adım doldurulmasını içerir. Bu bölümde anlatılan algoritma sezgisel bir yaklaşım sunmakta ve 𝐷𝑃𝑇 (Dinamik Programlama Tekniği) ile temsil edilmektedir. Algoritmanın uygulanmasında SNAP (Stanford Network Analysis

Platform) kütüphanesinde yararlanılmıştır (SNAP 2016).

Bu bölümdeki yöntem giriş verileri olarak birbirleriyle ilişkili iki farklı bilgi kullanır. Bunlardan ilki hasta bilgileridir (𝐺𝑖𝑟𝑖ş 𝑣𝑒𝑟𝑖𝑠𝑖: 1). Bu bilgiler, her bir hastaya özgü olarak tutulan gen-CNA bilgileri, sağkalım süresi−(𝑡) ve hastanın sansürlü bilgi

içerip içermediğini gösteren parametredir−(𝑐). İkinci bilgi (𝐺𝑖𝑟𝑖ş 𝑣𝑒𝑟𝑖𝑠𝑖: 2) ise ilgili hastaların sahip oldukları genlerin birbirleriyle bağlantılarını gösteren ağ yapısıdır. Tez çalışmasında Bölüm 2.2’deki problemle ilgili etkileşim ağları Cytoscape biyoinformatik yazılım platformu (Shannon ve ark 2003, Cytoscape 2017) yardımıyla STRING veri tabanından temin edilmiştir. Bu bölümdeki DP temelli yaklaşımın çalışma prensibi Şekil 3.23’te sunulan dokuz hastanın klinik bilgileri referans alınarak aşağıda adım adım anlatılmıştır.

Şekil 3.23’te H1 ile H9 arasında isimlendirilen örnek hasta bilgileri verilmiştir. Burada her bir hastanın genlerindeki CNA bilgileri bir matris şeklinde sunulmuştur. Eğer ilgili gen, CNA’lı ise kırmızı renkte; değilse beyaz renkte gösterilmiştir. Böylece

CNA’lı durum 1 ile; CNA’sız durum 0 ile temsil edilmiştir. Ayrıca her bir hasta, ilgili

kanser türü için sağkalım süresi ve sansür bilgisi içerir. Burada hastalar sağkalım sürelerine göre düşükten yükseğe doğru sıralanmıştır. Amaç ise gen-CNA bilgisi dikkate alınarak sansürlü ve daha az sağkalım süresine sahip hastaların ilk popülasyonu (𝑃0);

sansürsüz ve yüksek sağkalım süresine sahip hastaların ise ikinci popülasyonu (𝑃₁) oluşturmalarını sağlamaktır. Bu amaçla örnekte verilen hastaların Şekil 3.24’teki genler arası ilişkilerine göre iki popülasyondan birine dahil edilmesi sağlanır. En yüksek 𝑝_{𝑠𝑘𝑜𝑟} değerini veren alt-ağ ise hastaların en uygun şekilde 𝑃0 ya da 𝑃1 popülasyonlarına dahil

edilmesini sağlar. Böylece tespit edilen son gen grubu (Şekil 3.25’te gösterilen 3 boyutlu alt-ağ) ilgili kanser hastalığı için DPT’ye göre sağkalım parametresi ile maksimum ilişkili grubu temsil eder. Böylece bu kanser türünde en fazla etkili olduğu düşünülen gen etkileşimlerinin hastalardaki sağkalım ve CNA bilgileriyle birlikte değerlendirilmesinin önemi vurgulanır.

DPT ile işlem yapılmadan önce Şekil 3.23’teki hastaların gen ilişkilerini içeren

ve Şekil 3.24’te verilen 7 adet düğüme (gene) sahip ağ bilgisi alınır ve komşuluk listeleri olarak belleğe yüklenir. Hastaların hangi popülasyona dahil edileceği bu ağdaki gen ilişkilerine göre belirlenir. Bu algoritma ağdaki düğümlere 𝑘 adet rengin rastsal olarak atanmasıyla başlar. Burada 𝑘, ilgili kanser türünde sağkalım parametresi ile maksimum ilişkide olduğu düşünülen toplam gen sayısıdır. Bu parametre aynı zamanda rastsal olarak üretilecek renk türünün sayısını da ifade eder. Örneğin Şekil 3.24’teki giriş ağı için bu değer 3 olarak belirlenmiştir. Bunlar mavi, yeşil ve sarı renklerdir. Buna göre üç adet ilişkili gen içeren bağlı bir alt-ağ ortaya çıkarılacaktır. Şekil 3.24’te verilen ağdaki genlere 3 farklı renk atandıktan sonra 𝑘 sayısına göre dinamik tablo oluşturulur.

Şekil 3.24. Birinci giriş verisindeki (𝐺𝑖𝑟𝑖ş 𝑣𝑒𝑟𝑖𝑠𝑖: 1) genlere göre oluşturulan temsili ağ

Yukarıdaki şekillerde gösterilen temsil örnek için oluşturulan dinamik bir tablo Çizelge 3.13’te verilmiştir. Bu tablo [𝑑 × 𝑛] boyutludur. Burada 𝑑, toplam renk kombinasyonu sayısını; 𝑛, toplam gen sayısını temsil eder. Denklem 94’e göre 𝑑 parametresi belirlenir.

𝑑 = 2𝑘_{− 1 (94)}

Buradaki örnekte 𝑘 = 3 için 𝑑 = 7 sonucu elde edilir. Çizelge 3.13’teki 𝑛 parametresinin değeri ise 7’dir. Bu sayı Şekil 3.23’teki en son düğümün (gen) sırasını, yani maksimum gen sayısını ifade eder. Tablodaki genleri temsil eden düğümler, 1’den 7’ye kadar numaralandırılmıştır. Renklerin gösterimi için ise mavi, yeşil ve sarı renkler sırasıyla; M, Y ve S ile temsil edilmiştir. Tüm bu bilgilere göre ağdaki genlerin birbirleriyle etkileşimlerine uygun olarak doldurulan 7𝑋7’lik bir matris elde edilmiştir.

Çizelge 3.13. Üç adet (𝑘 = 3) renge göre oluşturulan dinamik tablo

1. adım 2. adım 3. adım

M Y S M-Y M-S Y-S M-Y-S

1 𝑝1 𝑝[1−2]_―_𝑝[1−6] _𝑝[1−7] _𝑝[1−2−3]_―_𝑝[1−6−7] 2 𝑝2 _𝑝[1−2]_―𝑝[5−2] _𝑝[2−3] _𝑝[1−2−3]_―𝑝[5−2−3] 3 𝑝3 𝑝[2−3] _𝑝[1−2−3]_―𝑝[5−2−3] 4 𝑝4 5 𝑝5 _𝑝[5−2] _𝑝[5−2−3] 6 𝑝6 𝑝[1−6] _𝑝[1−6−7] 7 𝑝7 _𝑝[1−7] _𝑝[1−6−7]

Bu tablonun doldurulması şu şekilde gerçekleşir: Her bir genin hastalardaki CNA durumlarına göre hesaplanan normalize edilmiş log-rank istatistik değeri—𝑝𝑖_{, kendi}

renginin bulunduğu hücreye yazılır. Burada 𝑖, genin sıra numarasını ve 𝑝𝑖_{, 𝑖. gene göre}

hesaplanan skoru gösterir. Tablodaki 1’li, 2’li ve 3’lü renklerin sütün başlıklarının arka planları sırasıyla; açık tonlarda sarı, yeşil ve gri renklerle gösterilmiştir. Bu renklere göre işlemler; M, Y, S sütunları için 1. adımda; M-Y, M-S, Y-S sütunları için 2. adımda ve son olarak M-Y-S sütunu için 3. adımda gerçekleşir. Böylece farklı renkler farklı adımlardaki işlemleri göstermiş olur. Örneğin ilk adımda; birinci gen, mavi renge sahip olduğu için M sütunu ile 1. satırın kesişimine “p1_{” şeklinde; ikinci gen, yeşil renkli}

olduğu için Y sütunu ile 2. satırın kesişimine “p2_{” şeklinde yazılır. Bu şekilde tüm tekli}

genlere göre elde edilen skorlar 1. adımdaki uygun hücrelere yazılır. İkinci adımda; ikili gen kombinasyonları alınır. Bu işlem ve sonraki işlemler için hem genlerin birbirleriyle doğrudan komşuluklarının bulunması hem de renk kombinasyonlarına uygun olmaları temel şarttır. Yani her renge uygun bir genin bulunması gereklidir. Bu işlem ikinci adım için ikili renk şartına göre gerçekleşir. Örneğin; arka plan rengi açık yeşil olan 2. adımda M-Y sütunu, mavi ve yeşil renkli komşu düğümlere göre doldurulacaktır. Şekil 3.24’te bu şarta uyan üç adet ikili komşu genler bulunmaktadır. Bunlar 1-2, 1-6 ve 5- 2’dir. Buna göre M-Y sütunu için 1. satır ile M-Y sütunun kesişimine p[1−2]_ve_p[1−6]

skorları; 2. satır ile M-Y sütunun kesişimine p[1−2]_{ve p}[5−2]_{skorları; 5. satır ile M-Y}

sütunun kesişimine p[5−2]_{skoru ve 6. satır ile M-Y sütunun kesişimine ise p}[1−6]_skoru

ayrı ayrı yazılır. Bu adımdaki M-S ve Y-S sütunlarındaki şartlara uyan hücreler de aynı şekilde doldurulur ve böylece ikinci adım da tamamlanır. Bu örnek için son işlemleri ifade eden 3. adımda (arka plan rengi açık gri olan adım) ise 3’lü renk kombinasyonunu ifade eden M-Y-S renklerine sahip genler kontrol edilir. Bu şartlara uygun olan hücreler doldurulur. Tablodaki 4. genin hizasındaki son hücre hariç diğer tüm son hücreler uygun skorlarla doldurulur. Her bir satırda en yüksek skoru veren gene ya da genlere sahip hücrelerdeki skorlar kırmızı renklerle vurgulanmıştır. Temsili örnekte bu skorların diğerlerine göre daha yüksek oldukları varsayılmıştır.

Çizelge 3.13’e dikkat edilirse 1. satırın 1. hücresindeki p1_{, 4. hücresindeki p}[1−6]

ve 7. hücredeki p[1−6−7]_{ifadeleri kırmızı renkle yazılmıştır. Burada ilk adım için 1. geni} CNA’lı olmayan hastalar 𝑃₀ popülasyonuna; bu geni CNA’lı olan hastalar ise 𝑃₁ popülasyonuna dahil edilir. Bu örnek için ilk adımda Şekil 3.23’teki hasta bilgilerine göre 4. (H-4) ve 8. (H-8) hastaların ilk genleri CNA’lı olduğu için 𝑃1 popülasyonuna;

diğerleri 𝑃0 popülasyonuna eklenir. Bu işlem için Denklem 95’e bakılabilir. Daha sonra

güncellenen 𝑃₀ ve 𝑃₁ popülasyonlarındaki hasta bilgilerine göre Bölüm 2.2’deki Denklem 47’de gösterilen formül ile 𝑝_{𝑠𝑘𝑜𝑟} değerleri hesaplanır. Bu skor, temsil örnekte p1_{’de tutulur. Bu adımdaki p}1_{skorunun diğerlerinden yüksek olduğu varsayılmıştır.}

İkinci adımda yine ilk adımdaki gibi her bir uygun hücredeki gen bağlantılarına ve CNA bilgilerine göre hastalar iki popülasyondan birine aktarılır ve 𝑝_{𝑠𝑘𝑜𝑟} hesaplaması yapılır. Bu adımda da önceki adımdaki gibi kırmızı renkli skorun ilgili sütundaki en yüksek skor olduğu farz edilmiştir. Bu yüzden örnek olarak, p[1−6]_skorunun

hesaplanması şöyle gerçekleşir: İlk önce tüm popülasyondaki hastaların 1. ve 6. genlerinin CNA’lı olma durumları kontrol edilir. 1. ve 6. genlerden en az birinin CNA’lı olması durumunda ise ilgili hasta 𝑃₁ popülasyonuna; aksi durumda 𝑃₀ popülasyonuna dahil edilir. Böylece Şekil 3.23’e göre 4. hastanın 1., 2. ve 7. genlerinin; 6. hastanın 4. ve 6. genlerinin; 8. hastanın 1., 6. ve 7. genlerinin; 9. hastanın 5. ve 6. genlerinin CNA’lı olduğu bilinmektedir. Bu durumda 4., 6., 8. ve 9. hastalar 𝑃₁ popülasyonuna; diğerleri 𝑃₀ popülasyonuna eklenir. Bu durumda hesaplanan skor, p[1−6]_{’da saklanır. Bu adımda}

tüm uygun hücreler için benzer hesaplamalar yapılır ve en yüksek skor saklanır.

Son adımda ise aynı işlem, tüm 3’lü genlere sahip hücreler için yapılır ve en yüksek skor kaydedilir. Yukarıdaki örnekte kırmızı renkle vurgulanan p[1−6−7]

skorunun diğerlerinden daha yüksek olduğu varsayılmıştır. Örnek olarak bu genlere göre yapılan hesaplama şöyle olur: İlk önce 1. 6. ve 7. genlerden en az birinin CNA’lı olması durumunda uygun hastalar 𝑃₁’e; diğerleri 𝑃₀’a aktarılır. Daha sonra elde edilen 2 popülasyona göre en yüksek değere sahip olduğu varsayılan p[1−6−7]_{skoru hesaplanır.}

Bu skor aynı zamanda temsili örnek için algoritmanın elde ettiği son değeri temsil eder. Yukarıdaki üç farklı adımda gerçekleşen işlemlere göre güncellenen alt- popülasyonlara uygun hastalar Denklem 95’te gösterildiği gibi dahil edilirler. Bu sonuçlar Şekil 3.23’teki hasta bilgilerine göre dikkatlice incelendiğinde, ilerleyen her bir adımda genellikle DPT ile yüksek sağkalım sürelerine ve sansürsüz bilgilere sahip hastaların diğerlerinden ayrılıp 𝑃1’e dahil edildiği anlaşılabilir. İkinci adım sonunda bir

önceki adımda 𝑃₀’da bulunan 6. ve 9. hastaların 𝑃₁’e aktarılması ve üçüncü adımdaki işlem ile önceki adımlarda 𝑃₀’a ait olan 7. hastanın 𝑃₁ popülasyonuna dahil edilmesi yukarıdaki açıklamayı doğrulamaktadır.

1. adım → {P0= [H1; H2; H3; H5; H6; H7; H9] P1= [H4; H8] } 2. adım → {P0= [H1; H2; H3; H5; H7] P1= [H4; H6; H8; H9] } 3. adım → {P0= [H1; H2; H3; H5] P1= [H4; H6; H7; H8; H9]} (95)

Üçüncü adım sonunda en uygun alt-ağın 1., 6. ve 7. genlerden oluştuğu görülür. Şekil 3.23’teki hasta bilgileri de incelendiğinde, genellikle sansürlü ve daha az sağkalım süresine sahip hastaların ilk popülasyonu (𝑃₀); sansürsüz ve yüksek sağkalım süresine sahip hastaların ise ikinci popülasyonu (𝑃₁) oluşturduğu anlaşılmıştır. Böylece hangi bağlı genlerin kanserdeki yaşam süresinin eşik sınırını en uygun şekilde belirlediği anlaşılır. Bu eşik sınır, 𝑃0’da sansürlü ve en kısa sağkalım süresine sahip hastalar ile

𝑃₁’de sansürsüz ve en yüksek sağkalım süresine sahip hastalar arasındaki belirgin farkı temsil eder. Burada anlatılan örnek için 1., 6. ve 7. genlerin ilgili hastalıkta sağkalım parametresiyle en fazla ilişkili genler oldukları varsayılır. Son olarak, burada açıklanan tüm işlem adımları sonunda ortaya çıkarılan 𝑘 = 3 boyutlu bir alt-ağ için temsili grafik Şekil 3.25’te gösterilmiştir.

Şekil 3.25. DPT algoritması ile uygun alt-ağın ortaya çıkarılması

Son olarak DP temelli algoritmanın 𝑘 sayısına göre belirlenen uygun maksimum çalıştırılma sayısı 𝑇_𝑚 ile temsil edilmektedir. Bu sayı Denklem 96 ile Denklem 100 arasındaki hesaplamalara göre belirlenir.

𝑝 = 𝑘!

𝑘𝑘 (96)

𝑞 = 1 − 𝑝 → 𝑡 𝑖ç𝑖𝑛, 𝑞𝑡₍₉₇₎

𝑡 × log 𝑞 ≤ log 𝜀 → 𝑡 ≤_{log 𝑞}log 𝜀 (99)

𝑇_𝑚= 𝑀(𝑡) (100) Denklem 96’daki 𝑝 parametresi en başarılı sonucun renkli kümelerde bulunma olasılığını gösterir ve bu parametre 𝑘 sayısına göre belirlenir. 𝑘! ve 𝑘𝑘_{sayıları ise}

Çizelge 3.14’teki olasılık tablosuna göre belirlenir. Buradaki 𝑘!, farklı renk kombinsyonlarının sayısını; 𝑘𝑘_{ise tüm olasılıkları içeren toplam sayıyı ifade eder.}_𝐶𝑘!

kümesi farklı renklerdeki elemanları içerir. Buna göre Çizelge 3.14’teki 𝑘 sayısı 3 olarak alınırsa, farklı renklerden oluşan tüm eleman sayısı 𝑘! = 3! = 6 olarak bulunur. Böylece 𝐶𝑘!=6 _{= {(1,2,3), (1,3,2), (2,1,3), (2,3,1), (3,1,2), (3,2,1)} kümesi oluşturulur.}

Bu kümedeki tüm elemanlar farklı sayılarla oluşturulmuştur. Renk kodlama tekniği ile işlem yapılabilmesi için 𝑘 adet rengin tümünün elemanlara dağıtılması gerekir. 𝑘! kümesindeki dışındaki diğer elemanlar bu şartı sağlamamaktadır. DPT, önerilen renk- kodlama tekniği ile genlere 𝑘 adet rengin rastsal olarak atanması prensibine göre çalıştığı için başarılı sonucun bulunma olasılığı 𝑝 ile hesaplanır. 𝑝 parametresinin değerine göre Denklem 97’de başarısız olma (hata) olasılığı hesaplanır ve sonuç, 𝑞 parametresinde tutulur. Denklemde 𝑡 adet başarısızlık için hata olasılığı 𝑞𝑡_{ile gösterilir.}

Denklem 98’deki 𝜀, düşük hata olasılığını belirleyen sayıdır ve bu sayı Denklem 99’a göre 𝑡’nin en alt sınırını belirler. Son olarak, maksimum 𝑡 sayısına göre algoritmanın toplam çalıştırılma sayısını ifade eden 𝑇_𝑚 değeri hesaplanır. Bu sayı Denklem 100’deki “𝑀(𝑡)” ifadesi ile belirlenir. Buradaki ifade, 𝑡 ondalıklı sayısının bir üst tam sayıya yuvarlanmasını temsil eder. Tüm bu hesaplamalar ile algoritmanın başarılı bir sonuca ulaşabilmesi için en az kaç kez çalıştırılması gerektiği tespit edilir.

Çizelge 3.14. 𝑘 = 3 değerine göre üçlü olasılıkların oluşturulması 1 2 3 1 3 2 2 1 3 2 3 1 3 1 2 3 2 1 1 1 1 1 1 2 1 1 3 . . . . . . . . . 3 3 3

Örneğin, 𝑘 = 3 ve 𝜀 = 0.001 şeklinde alınırsa önerilen dinamik programlama temelli algoritmanın uygun çalıştırılma sayısı Denklem 100 yardımıyla 𝑇𝑚 = 27 olarak

bulunur. Buradaki hata olasılığı sadece binde bir (0.001) olarak belirlenmiştir. Böylece sağkalım ile ilişkili üç genli bir alt-ağın tespiti için Çizelge 3.14’te renk kodlama tekniği kullanılarak binde 99 başarı olasılığı ile işlem gerçekleşir. Böylece normalde 𝑘𝑘 _{= 3}3 ₌

27 adet deneme yerine 𝑘! = 3! = 6 adet deneme ile uygun çözümlere yaklaşılmıştır.

Belgede Karmaşık ağlardaki modül yapılarının ve anlamlı alt-ağların tespiti (sayfa 140-147)