• Sonuç bulunamadı

2. PROBLEMLERİN TANIMLANMASI VE KARMAŞIKLIK ANALİZİ

3.3. Kanserle İlişkili Klinik Veri Kümeleri

Bu bölümde Glioblastoma Multiforme (GBM 2016), Acute Myeloid Leukemia (LAML 2016), Head and Neck Squamous Cell Carcinoma (HNSC 2016), Kidney Renal

Clear Cell Carcinoma (KIRC 2016) ve Stomach Adenocarcinoma (STAD 2016) olarak

isimlendirilen klinik kanser veri kümeleri hakkında bilgiler verilmiştir. Bu kanser türleri hakkında daha ayrıntılı bilgilere (Cerami ve ark 2012, Gao ve ark 2013, cBioPortal 2016, TCGA 2016, TCGA geçici-2016) referanslı çalışmalardan ve web sitelerinden ulaşılabilir. Ayrıca, bu verilerle ilgili ek tanımlayıcı bilgiler Bölüm 2.2’de sunulmuştur.

Klinik hasta verilerinde sağkalım parametresini en fazla etkileyen genlerin tespiti problemi (𝑃2) ile ilgili test çalışmaları bu bölümde verilen beş adet gerçek dünya

verisi üzerinde gerçekleştirilmiştir. Her bir veri seti klinik kanser verisine ve bu kanser verileriyle ilgili gen etkileşim ağına sahiptir. Kanser verileri hastalara ait sağkalım süresi, sansürlü bilgi, cinsiyet, CNA’lı genler ve mutasyon sayısı gibi bilgiler sunar. Bu bilgilerin hangi aşamalarda kullanıldığı Bölüm 2.2’de açıklanmıştır. Tüm kanser türlerine göre hastaların genel klinik bilgileri Çizelge 3.5’te sunulmuştur. Hastaların sağkalım süreleri orijinal hallerinde ay bilgisine göre sunulmaktadır. Tez çalışmasında bu süre bilgisi günlük olarak sunulmuştur. Bu çizelgedeki ortalama sağkalım süresi tüm hastaların yaklaşık olarak gün bazındaki sağkalım sürelerinin ortalamasını gösterir.

Buradaki yaklaşık ifadesi ise aylık sürelerin günlük olarak sunulmasında kalanların (saatler) en yakın ondalık sayıya yuvarlanması işlemini ifade eder. Klinik hasta bilgileri ile ilgili olarak orijinal verilerdeki toplam hasta sayıları Çizelge 3.5’te L ile temsil edilmiştir. Tüm klinik veriler problemin yapısına uygun hale getirilmiş ve buradaki veri hazırlama işlemi filtreleme olarak isimlendirilmiştir. Veri hazırlama işlemleri sonunda elde edilen toplam hasta sayıları T ile gösterilirken; cinsiyet bilgilerine göre hasta sayıları erkekler için E, kadınlar için K, cinsiyet bilgisi bulunmayan hastalar için B ile temsil edilmiştir. Sansürlü bilgilerle ilgili sansürlü hasta sayısı S, sansürsüz hasta sayısı

Y ve sansür bilgisi olmayan hasta sayısı Z ile gösterilmiştir. Sansür bilgileri orijinal

verilerdeki toplam hasta sayısına göre sunulmuştur. Her bir kanser türü için nihai (veri

hazırlama sonrası) toplam hasta sayısı T ile gösterilmiştir. T değerleri belirlenirken ilk

aşamada, hastaların en az bir CNA’lı gen içerip içermediği kontrol edilir. Hastanın genomik yapısında hiç CNA’lı gen bulunmuyorsa bu hasta listeden çıkarılır. İkinci aşamada ise sansür bilgisi belirsiz (Z) olan hastaların listeden çıkarılması işlemi gerçekleştirilir. Sonuç olarak, iki aşamada toplam hasta sayısı (T) belirlenmiş olur. Tüm verilerin saf ve orijinal hallerine (GBM 2016, HNSC 2016, KIRC 2016, LAML 2016,

STAD 2016) referanslı web adreslerinden ulaşılabilir.

Glioblastoma Multiforme veya Glioblastoma (Chin ve ark 2008, GBM 2016) bir

tür beyin tümörüdür ve GBM ile temsil edilir. Bu hastalık türünde toplam 206 hasta verisi bulunmaktadır. Tüm hastaların en az bir CNA’lı gene sahip olduğu bilinmektedir. Bu verilere GMB ağ verisinin küçük olmasından dolayı herhangi bir filtreleme uygulanmamıştır.

Acute Myeloid Leukemia (Ley ve ark 2013, LAML 2016), Akut Miyeloid Lösemi

olarak isimlendirilir ve LAML kısaltmasıyla gösterilir. Bu kanser türünde toplam hasta sayısı 200’dür. Burada hiç CNA’lı gen içermeyen hastalar listeden çıkarıldıktan sonra toplam 191 hasta bilgisi elde edilmiştir.

Head and Neck Squamous Cell Carcinoma (Lawrence ve ark 2015, HNSC

2016), HNSC kısaltmasıyla ifade edilir ve Baş ve Boyun Skuamöz Hücreli Karsinom kanser olarak da bilinir. Bu hastalığa sahip kişilerin cinsiyet bilgileri verilmemiştir. Veri hazırlama süreci öncesi toplam hasta sayısını ifade eden L sayısı 279’dur. Çizelge 3.5’teki cinsiyet bilgisinin belirsiz olduğu hasta sayısı (B) da 279 olarak sunulmuştur. Bu tür hastalığa sahip kişiler listesinden sansürlü bilgi verisi belirsiz olan 120 kişinin çıkarılması sonucu işleme alınan toplam hasta sayısı (T) 159 olarak belirlenmiştir.

Kidney Renal Clear Cell Carcinoma (CGARN 2013, KIRC 2016) isimli kanser

türü Böbrek-Renal Hücreli Karsinom olarak bilinir ve KIRC ile gösterilir. Veri hazırlama işlemi öncesi bu hastalık türüne sahip toplam hasta sayısı (L) 499’dur. Herhangi bir CNA’lı gen içermeyen hastalar ile sağkalım bilgileri belirsiz olan hastaların kesişimlerinin dikkate alınarak bu listeden çıkarılmasıyla (veri hazırlama

sonrası) en son hasta sayısı (T) 433 olarak tanımlanmıştır. Hiçbir hastanın cinsiyet

bilgisi veri setinde sunulmamıştır.

Stomach Adenocarcinoma (STAD 2016), Mide Adenokarsinoması olarak bilinen

kanser türüdür ve STAD ile ifade edilir (TCGA geçici-2016). Bu kanser türüne sahip orijinal veri setinde toplam (L) 478 hasta bulunmaktadır. Bu hastalardan 46 tanesi ya hiç

CNA’lı gen içermemekte ya da sağkalım bilgisi bulunmamaktadır. Bu yüzden bu 46

hastanın listeden çıkarılmasıyla elde edilen en son hasta sayısı (T) 432’dir. Deneysel çalışmalar bölümündeki sağkalım süreleriyle ilgili analiz testleri çizelgenin T sütununda belirtilen sayıdaki hastaların klinik bilgilerine göre gerçekleştirilmiştir.

Çizelge 3.5. Her bir kanser türüne göre klinik hasta bilgileri

Kanser Türü

Klinik Hasta Sayısı CNA’lı Hasta Sayısı Mutasyonlu Hasta Sayısı Ortalama Sağkalım Süresi (gün) Sansürlü Bilgi T L E K B S Y Z GBM 206 206 128 78 - 206 91 576 12 194 - LAML 191 200 108 92 - 191 200 774 67 133 - HNSC 159 279 - - 279 279 279 729 90 69 120 KIRC 433 499 - - 479 436 424 1125 297 148 54 STAD 432 478 284 158 36 441 395 566 267 175 36

Şekil 3.1’te GBM hastalık türü, Şekil 3.2’de LAML hastalık türü, Şekil 3.3’te HNSC hastalık türü, Şekil 3.4’de KIRC hastalık türü ve Şekil 3.5’te STAD hastalık türü ile ilgili sağkalım durumları hakkında bilgiler verilmiştir. Bu şekillerdeki diyagramlarda her bir hastalık için hayatını kaybeden, yaşayan ve sağkalım bilgisi belirsiz olan hastaların sağkalım durumları sayısal verilerle gösterilmiştir. Ayrıca, bu şekillerde sağkalım sürelerine göre hasta sayıları sunulmuştur. Bu süreler aylık olarak tutulmuştur.

Şekil 3.1. GBM için sağkalım durumları (GBM 2016)

Şekil 3.2. LAML için sağkalım durumları (LAML 2016)

Şekil 3.3. HNSC için sağkalım durumları (HNSC 2016)

Şekil 3.5. STAD için sağkalım durumları (STAD 2016)

Çizelge 3.6’da, Cytoscape (Shannon ve ark 2003, Cytoscape 2017) yardımıyla

STRING’ten (string-db 2018) elde edilen gen etkileşim ağları ve bu ağların genel

karakteristik özellikleri verilmiştir. Bunlar: ağdaki düğüm ve bağlantı sayısı, ortalama derece, ağın bağlantı durumu, çapı, bağlantı (bağ.) yoğunluğu, kümeleme katsayısı ve ortalama (ort.) yol uzunluğu bilgileridir. Bu ağların tam bağlı olup olmadıkları bağlantı

durumu ile gösterilmiştir. Bu bilgi 1 ise ağ, bir tam bağlı çizgeyi; 0 ise bağlı olmayan

çizgeyi ifade eder. Bu çizelgedeki 𝐼𝑛𝑓 ifadesi ilgili ağlarda elde edilemeyen değerleri ya da sonsuz (infinite) ölçümleri gösterir. “Tam bağlı olmayan bir çizgenin sonsuz çapı

vardır” (Bollobas 1981) cümlesine göre HNSC, KIRC ve STAD veri setlerindeki

ağların tam bağlı özelliklere sahip olmamalarından dolayı bunların ağ çapı ve ortalama yol uzunluğu 𝐼𝑛𝑓 ile temsil edilmiştir.

Tez çalışmasında her bir kanser türü için etkileşim ağlarının isimleri; GBM için

GBM-net, LAML için LAML-net, HNSC için HNSC-net, KIRC için KIRC-net ve STAD

için STAD-net olarak belirlenmiştir. Bu ağlar tüm hasta popülasyonunun iki alt- popülasyona ayrılması için gerekli olan bilgileri sunmanın yanında kanserde sağkalım ile maksimum ilişkiye sahip genlerin listelerini de sunar. Bunun için komşu genlerin (çizgelerdeki düğümler) CNA bilgilerine göre bu ayırma işlemi gerçekleşir. Ana popülasyonun ayrılması sonucu Bölüm 2.2’de tanımlanmış 𝑃0 ve 𝑃1 alt-popülasyonları oluşturulur. Bu işlem seçilen 𝑘 adet gen için herhangi bir kanser türüne göre Çizelge 3.6’da verilen ilgili gen etkileşim ağı yardımıyla yapılır. Ana popülasyondan seçilen genlerin hiçbirinin CNA’lı olmaması durumunda bu hastalar 𝑃0’a, genlerden en az

birinin CNA’lı olması durumunda ise bu hastaların 𝑃1’e dahil edilmesi sağlanır. Böylece

CNA’lı genler içermeyen hastalar 𝑃0 alt-popülasyonunu; en az bir CNA’lı gen içeren hastaların ise 𝑃1 alt-popülasyona eklenir. Sonraki işlemler bu iki ayrı popülasyondaki

skorunun belirlenmesi ile devam eder. Sonuç olarak, en yüksek skora ulaştıran gen listesinin elde edilmesine çalışılır. Tüm işlemler sonucu kaydedilen en son liste ise ilgili kanser türünün sağkalım parametresi ile maksimum ilişkiye sahip olduğu düşünülen ve birbiriyle etkileşimde olan 𝑘 adet gene sahip alt-ağı ifade eder.

Çizelge 3.6’daki her bir ağ için verilen nihai düğüm (gen) ve bağlantı sayıları orijinal sayılarından genellikle farklıdır. Buradaki farklılıklar klinik hasta verilerindeki bazı genlerin STRING veri tabanında bulunmamasından dolayı bu genlerin mevcut listeden çıkarılmasından veya hem “https://string-db.org” web sayfası üzerinden hem de Cytoscape (Shannon ve ark 2003, Cytoscape 2017) yazılımı üzerinden büyük gen/protein etkileşim ağlarının temini sırasında karşılaşılan bazı sistem (bellek ve işlemci kısıtları gibi) kısıtlamaları sebebiyle veri filtrelemesinin yapılmasından kaynaklanmıştır. Bu filtreleme diğer genlere göre daha az sayıda hastada bulunan

CNA’lı genlerin listeden çıkarılmasını kapsar. Bu sebeple teste tabi tutulacak ağ verileri

bir filtreleme (veri düzenleme) sürecine alınmıştır. Böylece genlerin hastalara göre

CNA’lara sahip olma sayıları dikkate alınarak yüksekten düşüğe doğru bir veri sıralama

yapılmıştır. Burada her genin hastalarda bulunma sayıları genlerin frekanslarını oluşturur. Bu frekanslar 𝑓 ile temsil edilmiştir. Daha sonra her ağa özgü belli oranlarda daha az frekansa sahip CNA’lı genler listeden çıkarılır.

Çizelge 3.6. Klinik kanser verileri için gen etkileşim ağları Etkileşim

ağları Düğüm sayısı Bağlantı sayısı Ortalama derece Bağlantı durumu çapı Ağ yoğunluğu Ağ bağ. Kümeleme katsayısı uzunluğu Ort. yol

GBM-net 107 2103 39.3084 1 4 0.3708300 0.67726 1.6565

LAML-net 10161 229867 45.2450 1 9 0.0044532 0.23858 3.1691

HNSC-net 13828 425037 61.4748 0 𝐼𝑛𝑓 0.0044460 0.23985 𝐼𝑛𝑓

KIRC-net 14161 447977 63.2691 0 𝐼𝑛𝑓 0.0044682 0.24250 𝐼𝑛𝑓

STAD-net 10911 210245 38.5382 0 𝐼𝑛𝑓 0.0035324 0.23859 𝐼𝑛𝑓

GBM-net ağının düğüm sayısının az olmasından dolayı bu ağda herhangi bir gen

sayısı azaltılmasına gerek duyulmamıştır. Bu kanser türüyle ilgili gen listesi STRING veri tabanında sorgulanmış ve bilinen tüm genlerin oluşturduğu bir etkileşim ağı elde edilmiştir. 206 hastanın bulunduğu GBM veri seti için elde edilen gen-gen etkileşim ağında toplam 107 gen ve 2103 etkileşim bulunmaktadır. Bu kanser türü dışındaki diğer kanser türlerinin sunulan gen sayıları çok büyük olduğu için bu dört etkileşim ağı (LAML-net, HNSC-net, KIRC-net ve STAD-net) için gen sayısının azaltılması amacıyla

veri filtrelemesi işlemi yapılmıştır. Ayrıca, bu işlem yapılırken olabildiğince daha çok hastada bulunan CNA’lı genlerin seçilmesi amaçlanmıştır. Böylece daha az hastada bulunan genlerin ağ listesinden çıkarılması sağlanmıştır. Aşağıdaki dört ayrı filtreleme grafiğindeki “𝑓” frekansları ve “𝑑” gen ID bilgileri dikkate alınarak işlemler yapılmıştır. Buradaki 𝑑 değişkeni 0’dan başlayarak en sonuncu gen ID numarasının gösterilmesinde kullanılır. Burada her bir genin hastalardaki CNA’lı durumlarının sayısı verilmiştir. İlk gen en yüksek CNA sayısına sahipken; en son sıradaki gen en düşük sayıya sahip olur.

Şekil 3.6. LAML-net gen etkileşim ağı için veri filtreleme

Şekil 3.6’da sunulan grafikte, LAML veri setindeki tüm CNA’lı genlerin hastalarda bulunma sayıları (frekansları) gösterilmiştir. Orijinal gen listesinde toplam 22246 adet gen vardır. Bu genlerden CNA içermeyenler ile tekrar edenler listeden çıkarılmış ve her genin hastalarda bulunma sayıları elde edilmiştir. STRING veri tabanında bulunan tüm genler sorgulanmış ve bu genlerin birbirleriyle olan fonksiyonel ilişkilerini modelleyen gen ağı elde edilmiştir. LAML-net ağ için minimum frekans sayısı 5 olarak belirlenmiştir. Bu sayı en az 5 hastada bulunan CNA’lı genlerin ağı oluşturan gen listesine dahil edilmesini ifade eder. Burada STRING veri tabanının web sayfası ve Cytoscape yazılımının sistem kısıtları sebebiyle minimum 5 frekansa sahip genlerin bazıları listeden çıkarılmıştır. Böylece olabildiğince büyük bir gen etkileşim ağı elde edilmiştir. Filtreleme işleminin yapıldığı minimum frekansı göstermek için kesikli kırmızı çizgiler kullanılmıştır. İki kesikli çizginin kesişim yeri 5 frekanslı 10161 genin konumunu gösterir. Böylece 22246 gen yerine 10161 genden oluşan LAML-net ağı elde edilmiş olur. Bu ağda toplam 229867 adet genler arası bağlantı bulunmaktadır.

0 5 10 15 20 25 30

LAML-net ağı — veri filtreleme

Minimum frekans sayısı: 5 Elde edilen gen sayısı: 10161 𝑓

Şekil 3.7. HNSC-net gen etkileşim ağı için veri filtreleme

Şekil 3.7’de HNSC veri seti için gen etkileşim ağının seçilen toplam gen sayısı ve minimum frekans sayısı gösterilmiştir. Belirlenen minimum frekans sayısı 90’dır ve orijinal verideki 24174 adet genden bu şarta uyan 13828 gen etkileşim ağının üretilmesi için seçilmiştir. Bu genlerin toplam etkileşim sayısı 425037’dir. Bu ağdaki genlerin hastalarda bulunma sıklıkları LAML-net ağına göre daha yüksektir. Örneğin LAML-net ağındaki genlerden en fazla hastada bulunan CNA’lı gen, CNTNAP2’dir ve bu genin frekansı 27 iken; HNSC-net ağında 221 frekans değerine sahip USP19, LAMB2,

SEMA3F ve GNAT1 gibi genler bulunmaktadır. Şekil 3.6 ve Şekil 3.7 incelendiğinde CNA’lı genlerin LAML verisine kıyasla HNSC verisinde daha fazla hastada bulunduğu

anlaşılmaktadır.

Şekil 3.8. KIRC-net gen etkileşim ağı için veri filtreleme

0 45 90 135 180 225

HNSC-net ağı — veri filtreleme

Minimum frekans sayısı: 90 Elde edilen gen sayısı: 13828 𝑓 𝑑 20 160 300 440

KIRC-net ağı — veri filtreleme

Minimum frekans sayısı: 50 Elde edilen gen sayısı: 14161 𝑓

𝑑

KIRC veri seti için filtreleme işlemi öncesi orijinal klinik verideki hastaların gen sayısı 21526’dır. Bu verinin filtrelenmesinde Şekil 3.8’deki minimum frekans değeri 50 olarak belirlenmiştir. Seçilen genlere göre STRING veri tabanından elde edilen KIRC-

net gen etkileşim ağında 14161 gen ile 447977 bağlantı bulunmaktadır.

Şekil 3.9. STAD-net gen etkileşim ağı için veri filtreleme

Şekil 3.9’da STAD veri setinde bulunan tüm hastalara ait CNA’lı genlerin oluşturduğu etkileşim ağının filtreleme işlemi gösterilmiştir. Bu ağda filtreleme öncesi gen sayısı 24776 iken; filtreleme sonrası gen sayısı 10911’e indirgenmiştir. Bu veri için belirlenen minimum frekans sayısı 155’tir. 10911 ve 155 değerlerinin kesişimi kesikli çizgilerle vurgulanmıştır. STAD-net ağındaki en son toplam bağlantı sayısı 210245’tir.