Derin öğrenme ile ilaç moleküllerinin sınıflandırılması

(1)

T.C.

TRAKYA ÜNİVERSİTESİ

SAĞLIK BİLİMLERİ ENSTİTÜSÜ

BİYOİSTATİSTİK VE TIBBİ BİLİŞİM

ANABİLİM DALI

YÜKSEK LİSANS PROGRAMI

Tez Yöneticisi

Dr. Öğr. Üyesi Selçuk KORKMAZ İkinci Tez Yöneticisi

Prof. Dr. Necdet SÜT

DERİN ÖĞRENME İLE İLAÇ MOLEKÜLLERİNİN

AKTİVİTELERİNİN SINIFLANDIRILMASI

(Yüksek Lisans Tezi)

Hatice KANBERİZ

(2)

T.C.

TRAKYA ÜNİVERSİTESİ

SAĞLIK BİLİMLERİ ENSTİTÜSÜ

BİYOİSTATİSTİK VE TIBBİ BİLİŞİM

ANABİLİM DALI

YÜKSEK LİSANS PROGRAMI

Tez Yöneticisi

Dr. Öğr. Üyesi Selçuk KORKMAZ İkinci Tez Yöneticisi

Prof. Dr. Necdet SÜT

DERİN ÖĞRENME İLE İLAÇ MOLEKÜLERİNİN

AKTİVİTELERİNİN SINIFLANDIRILMASI

(Yüksek Lisans Tezi)

Hatice KANBERİZ

Destekleyen Kurum :

Tez No :

(3)

(4)

TEŞEKKÜR

Lisansüstü eğitim sürecinde tez konusunu belirlemede ve bu yolda ilerlememde bana destek olan Sayın Dr. Öğr. Üyesi Selçuk KORKMAZ’a, Sayın Prof. Dr. Necdet SÜT’e, Sayın Doç. Dr. Fatma Nesrin TURAN’a ve çok değerli rahmetli anneanneme, bugünlere gelmemde emeği olan kişilere, her zaman yanımda olan aileme en içten

(5)

İÇİNDEKİLER

GİRİŞ VE AMAÇ ... 1

GENEL BİLGİLER ... 3

İLAÇ GELİŞTİRME ÇALIŞMALARI ... 3

SANAL TARAMA ... 5

PUBCHEM VERİ TABANI ... 7

MOLEKÜLER DEĞİŞKENLER... 8

DERİN SİNİR AĞLARI ALGORİTMASI ... 8

DESTEK VEKTÖR MAKİNELERİ ALGORİTMASI ... 16

RANDOM FOREST ALGORİTMASI ... 19

GEREÇ VE YÖNTEMLER ... 23

BULGULAR ... 28

TARTIŞMA ... 37

SONUÇLAR ... 42

ÖZET ... 44

SUMMARY ... 46

KAYNAKLAR ... 48

ŞEKİLLER LİSTESİ ... 53

TABLOLAR LİSTESİ ... 53

ÖZGEÇMİŞ ... 55

(6)

SİMGE VE KISALTMALAR

CART : Classification and Regression Tree

DSA : Derin Sinir Ağları

DVM : Destek Vektör Makineleri

HTS : High Throughput Screening

KKT : Karush Kuhn Tucker

MCC : Matthew’s Correlation Coefficient

OOB : Out Of Bag

QP : Quadratic Programming

QSAR : Quantitative Structure-Activity Relationship

RELU : Rectified Linear Units

RF : Random Forest

SGD : Stochastic Gradient Descent

(7)

VC : Vapnik Chervonenkis

(8)

1

GİRİŞ VE AMAÇ

İlaç geliştirme, önceden tanımlanmış yapı-aktivite ilişkilerinden yararlanarak farmakolojik aktivitesi tahmin edilen potansiyel ilaç moleküllerini tasarlama işlemidir (1). Var olandan daha etkin, daha az toksik ve yan etkileri en aza indirilmiş yararlı bileşikler oluşturmak yeni ilaç geliştirme sürecinin amaçları arasındadır (2). Yeni bir ilaç geliştirme süreci hem çok maliyetli hem de çok zaman alıcıdır (3). Yeni ilaç geliştirme çalışmaları ortalama 15 yıl sürmekte ve süreç için bir milyar doların üzerinde para harcanmaktadır (4). Yeni ilaç geliştirme çalışmalarına harcanan süre ve para her ne kadar çok olsa da akılcı ilaç tasarımı ile birlikte ilaç geliştirme sürecine harcanan sürenin ve maliyetin azaldığı görülmektedir. Akılcı ilaç tasarımı, biyolojik hedefe ilişkin verilerden yola çıkarak, yeni ilaç moleküllerinin tasarlandığı ilaç geliştirme tekniği olarak adlandırılmaktadır. Akılcı ilaç tasarımı ile birlikte ilaç geliştirme çalışmalarının erken evresinde binlerce molekül hızlı bir şekilde taranmakta ve aktivite gösteren moleküller ile yola devam edilmektedir. Bu amaçla en sık kullanılan deneysel yöntem yüksek verimli tarama (high throughput screening- HTS) yöntemidir. Bu yöntemde binlerce molekülün belirli bir reseptöre veya enzime karşı aktivite gösterip göstermedikleri hızlı bir şekilde taranabilir.

(9)

2

Günümüzde, HTS yöntemi ile elde edilen veriler PubChem veri tabanına yüklenmektedir. HTS yöntemi ile elde edilen veriler genellikle dengesiz veri yapısında olmaktadır. Başka bir deyişle, inaktif molekül sayısı aktif molekül sayısından oldukça fazladır.

İlaç moleküllerinin hızlı bir şekilde taranmasında kullanılacak diğer bir yöntem ise sanal tarama (virtual screening) yöntemidir. Sanal taramada, makine öğrenimi yöntemleri kullanılarak ilaç molekülleri hızlı bir şekilde sınıflandırılabilmekte veya aktivite sıralamasına sokulabilmektedir. Bu amaçla, destek vektör makineleri (DVM) ve random forest (RF) gibi makine öğrenimi yöntemleri aktif moleküllerin tespiti için literatürde sıklıkla kullanılmaktadır. Ancak bu algoritmalar dengesiz veri yapılarında iyi performanslar gösterememektedir. Bu nedenle, literatürde bu algoritmaların kullanıldığı veri setleri çoğunlukla dengeli veri yapılarından oluşturulmuştur. PubChem veri tabanındaki veri boyutunun artmasıyla birlikte sanal tarama için yeni yöntemlerin kullanılması gerekliliği ortaya çıkmıştır. Son yıllarda, derin sinir ağları (DSA) birçok alanda oldukça iyi performanslar ortaya koymuş ve DVM ve RF gibi makine öğrenimi yöntemlerinin performanslarını geçmiştir. Özellikle yüksek boyutlu verilerde çok iyi performanslar gösteren DSA algoritması son yıllarda ilaç geliştirme çalışmalarında sanal tarama amacıyla da kullanılmaya başlanmıştır.

Bu çalışmada, PubChem veri tabanından elde edilen ve farklı derecede dengesizlik yapısına sahip olan 5 adet veri seti kullanılmıştır. Elde edilen veri setleri DSA algoritması ile eğitilmiştir. DSA algoritmasının performansı literatürde sanal tarama için sıklıkla kullanılan DVM ve RF algoritmalarının performansı ile karşılaştırılmıştır.

(10)

3

GENEL BİLGİLER

İLAÇ GELİŞTİRME ÇALIŞMALARI

İlaç geliştirme, yeni aday molekül bulma çalışmaları oldukça zorlu, zaman alıcı ve maliyetlidir. Bu süreç 12-15 yıl arası sürebilir ve maliyeti bir milyar doları aşabilir (3). On binlerce küçük molekülle başlayan süreç sadece bir molekülün ilaç olarak piyasaya sürülmesi ile son bulur (Şekil 1).

(11)

4

Akılcı ilaç tasarımının kullanılması ile birlikte hem geliştirilen ilaç sayısında anlamlı artış meydana gelmiştir hem de ilaç geliştirme için harcanan zaman kısalmıştır. Bu yaklaşımda ilk amaç hastalığa neden olduğu düşünülen reseptörün (proteinin) 3 boyutlu yapısını bulmak ve aktif yöresini ortaya çıkarmaktır. Böylece geliştirilecek/sentezlenecek olan molekül (ilaç) reseptörün bu aktif yöresine bağlanma ve aktivite gösterme şansı en yüksek molekül olacaktır. Bu durum literatürde anahtar-kilit modeli olarak adlandırılmaktadır (Şekil 2).

Şekil 2. Anahtar-kilit modeli

İlaç geliştirme çalışmalarındaki temel zorluk, hastalığa neden olan hedef reseptöre bağlanıp aktivite gösterebilecek yeni moleküllerin bulunmasıdır. İlaç geliştirme çalışmalarına başlamadan önce çok sayıda (binlerce) küçük kimyasal molekül arasından seçim yapmak gerekmektedir. Bu amaçla, deneysel bir yaklaşım olan yüksek verimli tarama (high throughput screening, HTS) tekniği kullanılarak çok sayıdaki küçük molekül arasından belirli bir reseptöre veya enzime karşı aktivite gösterenler tespit edilmektedir (5). Binlerce küçük molekül arasından HTS yönteminin kullanılmasıyla seçilen ve aktivite göstereceği düşünülen bu moleküllere öncü bileşikler (lead compounds) adı verilir. Daha sonra bu öncü bileşikler optimize edilir ve ön-klinik denemelere (hayvan deneyleri) geçilir. Ön-klinik denemeler tamamlandıktan sonra klinik denemeler aşamasına geçilir. Bu denemeler üç aşamadan oluşmaktadır: Faz I-II-III.

Faz I denemeleri insanlar üzerinde yapılan testlerin ilk aşamasıdır. Bu fazdaki amaç, ürün ile ilgili güvenirlik verilerinin elde edilmesi, doz aralığının belirlenmesi,

(12)

5

tolerans ve farmakokinetik özelliklerin değerlendirilmesidir. Faz I denemeleri için, 20-100 kişilik sağlıklı bir gönüllü grubu seçilir ve ortalama 1-1.5 yılda tamamlanır.

Faz II çalışmalarında ürünün klinik etkinliği ve yan etkileri daha büyük bir hasta kitlesinde değerlendirilir. Bu amaçla, ilgili hastalığa sahip 1000-5000 gönüllü hasta üzerinde bu çalışmalar yürütülür. Faz II çalışmaları genellikle çok merkezli, çok uluslu, rastgele kontrollü çift kör denemeler olarak yürütülür. Bu aşama ortalama 3-4 yıl sürer.

Klinik denemelerin Faz III aşaması da başarıyla yürütüldükten sonra ürünün ilaç olarak kullanılabilmesi için ilgili düzenleme kuruluşundan onay alınması gerekmektedir. Bu amaçla Amerika Birleşik Devletleri'nde FDA’ya (Food and Drug Administration) Yeni İlaç Başvurusu (New Drug Application, NDA) yapılması gerekir. Avrupa Birliği ülkeleri için bu başvuru EMA’ya (European Medicines Agency), Türkiye’de ise Sağlık Bakanlığı Türkiye İlaç ve Tıbbi Cihaz Kurumu’na yapılır. Ayrıca her ülkenin kendine özgü düzenleme kuruluşları mevcuttur ve bu kuruluşlara gerekli başvuruların yapılarak onay alınması gerekmektedir.

Geliştirilen ilaç piyasaya sürüldükten sonra yapılan klinik çalışmalar faz IV çalışmaları olarak adlandırılır. Faz IV denemeleri ayrıca satış sonrası gözetim denemeleri (post marketing surveillance trial) olarak da bilinir. Faz IV çalışmalar sırasında uzun süreli güvenirlik verileri toplanır. Böylece, klinik çalışmalar aşamasında ortaya çıkmayan yan etkiler bu faz IV sırasında rapor edilebilir. Ayrıca, ilaçla veya kullanıldığı hastalık ve hasta grubu ile ilgili ekonomik ve yaşam kalitesi çalışmaları bu fazda uygulanabilir. Bu fazda, ilaç daha büyük bir kitle üzerinde daha uzun bir zaman sürecinde gözlenerek herhangi nadir ya da uzun dönemli bir yan etki saptanabilir. Bu fazda ilacın herhangi bir zararlı etkisine rastlanması halinde, ilaç piyasadan geri çekilebilir.

SANAL TARAMA

HTS yöntemine alternatif olarak kullanılabilecek diğer bir yaklaşım ise kantitatif yapı-etki ilişkileri (quantitative structure–activity relationship, QSAR) yöntemi ile molekül aktivitelerinin teorik olarak kestirilmesi ve aktivite göstereceği düşünülen moleküller ile ilaç geliştirme çalışmalarına başlanmasıdır. Bu yaklaşıma sanal tarama (ST) adı verilmektedir. Özellikle son 20 yılda, makine öğrenimi yöntemleri kullanılarak moleküller sınıflandırılmakta (aktivite var-yok) ya da aktivite sıralamasına sokulmaktadırlar. Makine öğreniminin ilaç geliştirme çalışmalarında kullanıldığı ilk

(13)

6

çalışmalardan biri Sadowski ve Kubinyi (6) tarafından gerçekleştirilmiştir ve bu çalışmada yapay sinir ağları (YSA) kullanılarak ilaç özelliği gösteren ve göstermeyen moleküller sınıflandırılmıştır. Byvatov ve ark. (7) ve Zernov ve ark. (8) moleküllerin aktivitelerinin sınıflandırılmasında destek vektör makineleri (DVM) ve YSA algoritmalarının performanslarını karşılaştırmış ve DVM’nin performasının YSA’nın performansından daha iyi olduğunu ortaya koymuşlardır. Korkmaz ve ark. (3) ilaç moleküllerinin sınıflandırılma performansını arttırmak için farklı değişken seçim yöntemlerinin DVM’nin performansı üzerindeki etkilerini araştırmışlardır. Korkmaz ve ark. (4) 23 adet makine öğrenimi yönteminin performansını karşılaştırmış ve en iyi performans gösteren 10 algoritmayı kullanarak ilaç moleküllerini sınıflandırmak için web tabanlı bir uygulama geliştirmişlerdir. Naive Bayes, k-en yakın komşuluk, Bayes sinir ağları ve Random Forest (RF) algoritmaları da aktif ve inaktif molekülleri sınıflandırmada kullanılan diğer makine öğrenimi algoritmalarıdır (9,10). Aktivite tahmini için Gertrudes ve ark. (11) moleküllerin biyolojik aktivitesinin tahmininde çeşitli makine öğrenme yöntemlerinin performanslarını karşılaştırmıştır. Jorissen ve Gilson (12), Wassermann ve ark. (13), Agarwal ve ark. (14) ve Rathke ve ark. (15) aktivitelerine göre molekülleri sıralamak için DVM algoritmasını kullanmışlardır.

Diğer yandan, son yıllarda derin sinir ağları (DSA) birçok alanda sınıflandırma probleminin çözümü için oldukça iyi performanslar göstermiştir. Ma ve ark. (16) kantitatif yapı-aktivite ilişkilerinin tahmini için bir DSA modelini kullanmış ve DSA’nın RF modeline göre daha iyi performans gösterdiğini bulmuşlardır. Mayr ve ark. (17) bileşiklerin toksisitesini tahmin etmek için çok görevli bir DSA mimarisi kullanmış ve Tox21 yarışmasını kazanmışlardır.

Ramsundar ve ark. (18) çeşitli moleküler bileşik veri setlerine (PCBA, MUV, DUD-E, Tox21) çok görevli bir DSA algoritması uygulamışlardır. Koutsoukas ve ark. (19) bir DSA modelinin hiper-parametrelerinin optimizasyonunu araştırmış ve DSA modelinin performansını SVM, RF, NB ve kNN algoritmaları ile karşılaştırmışlardır. Lenselink ve ark. (20) bir DSA modelinin performansını, ChEMBL biyoaktivite veri seti kullanarak NB, RF, SVM ve lojistik regresyon ile karşılaştırmıştır.

ST deneysel olarak taranacak kimyasal kütüphanenin boyutunu azaltan bir hesaplama filtresi olduğundan, HTS yöntemine göre öncü bileşikleri bulma süresini ve maliyetini azaltabilmektedir. Günümüzde HTS yöntemi ile ilaç moleküllerine ilişkin deneysel olarak elde edilen veriler ücretsiz olarak erişilebilen veri tabanlarına

(14)

7

yüklenmektedir. İlaç moleküllerine ilişkin verileri içeren en büyük veri tabanlarından biri PubChem veri tabanıdır.

PUBCHEM VERİ TABANI

PubChem, 2004 yılında ABD Ulusal Sağlık Enstitüleri'nin (National Institutes of Health, NIH) Moleküler Kütüphaneler Yol Haritası Girişimleri'nin bir bileşeni olarak başlatılan kimyasal maddeler ve biyolojik etkinlikleri hakkında bilgi sağlayan bir veri tabanıdır. Araştırmacılar moleküllere ilişkin bilgileri indirmede ve bileşiklerin iki boyutlu yapılarını oluşturmada PubChem veritabanından yararlanabilmektedir. Son 15 yıldır PubChem, bilimsel araştırma topluluğu için kimyasal bir bilgi kaynağı olarak hizmet veren büyük bir sisteme dönüşmüştür. PubChem madde, bileşik ve bioassay olmak üzere birbirine bağlı üç veri tabanından oluşmaktadır. Bu üç veri tabanı tarafından sağlanan kimyasal örnek açıklamaları madde olarak adlandırılır ve açıklamalar madde veri tabanında tutulur. Madde veri tabanı, araştırmacılar tarafından PubChem’e veri sağlanması ile yerleştirilen kimyasal bilgileri içerir. Bu veri tabanında birbirinden bağımsız ayrı kayıtlar ile aynı molekül hakkında farklı açıklamalar tutulur.

Madde veri tabanı, madde kayıtlarının doğruluğunu korur ve araştırmacıların PubChem'e hangi bilgileri sağladığını görmelerine yardımcı olur. Bileşik veri tabanı, madde veri tabanından çıkarılan tekil kimyasal yapıları depolamaktadır. Tekil kimyasal yapılar madde veri tabanından çıkarılır ve bileşik veri tabanında saklanır.

Deneyler ile test edilen kimyasal maddelerin biyolojik aktivite verileri bioassay veri tabanında yer almaktadır. PubChem içerisinde bulunan veriler, üniversite laboratuvarları, devlet kurumları, ilaç şirketleri, kimyasal satıcılar, yayıncılar ve bir dizi kimyasal biyoloji kaynağı da dahil olmak üzere 350'den fazla paydaş tarafından sağlanmaktadır. Ayrıca PubChem ABD Gıda ve İlaç İdaresi, tekil madde tanımlayıcıları (unique ingredient identifiers, UNII) ve farmakolojik sınıflandırmalar da dahil olmak üzere önemli düzenleyici kurumlardan gelen verileri de barındırmaktadır. PubChem, yaklaşık 6 milyon patent belgesi ve 16 milyondan fazla tekil kimyasal yapı arasında, 329 milyondan fazla kimyasal madde-patent bağlantısı, 1800 yılından beri yayınlanan ABD, Avrupa ve Dünya Fikri Mülkiyet Örgütü patent belgelerini kapsayan bağlantılar sunmaktadır. PubChem, öncelikle HTS deneylerinden elde edilen büyük miktarda bioassay verisi içerir.

(15)

8

MOLEKÜLER DEĞİŞKENLER

HTS yöntemi ile elde edilen bioassay verilerinin makine öğrenimi yöntemleri ile analiz edilebilmeleri için aktif ya da inaktif olarak etiketlenmiş moleküllere ilişkin moleküler değişkenlerin hesaplanması gerekmektedir. PaDEL yazılımı moleküler değişkenleri hesaplamak için Yap (2011) (21) tarafından geliştirilen ücretsiz ve açık kaynak kodlu bir yazılımdır. Moleküler değişken, bir molekülün kimyasal bilgilerini sayıya ya da bazı standart deneylerin sonucuna dönüştüren mantıksal ve matematiksel işlemlerin sonucudur. Moleküler değişkenler kimyasal bileşikler için hesaplanır ve yeni bileşiklerin biyolojik aktivitelerinin öngörülmesi için QSAR modellerinde kullanılırlar. PaDEL yazılımı kimyasal bileşikler için 2757 adet moleküler değişken hesaplayabilmektedir. PaDEL yazılımı Java dili kullanılarak geliştirilmiştir ve hem kullanıcı arayüzü ile hem de Java kütüphanesi ile kullanılabilmektedir. Yazılım, moleküler değişkenlerin hesaplanmasını hızlandırmak için çoğu modern bilgisayarda bulunan çoklu işlemci çekirdeğinden yararlanmak için paralel programlama modeli kullanmaktadır.

PaDEL yazılımının diğer mevcut yazılımlara (Dragon, Model, Molconn-Z ve PreADMET) göre en büyük avantajları; ücretsiz ve açık kaynak kodlu olması, hem kullanıcı arayüzü hem de komut satırı ile çalışabilmesi, tüm işletim sistemlerinde (Windows, Linux, MacOS) çalışabilmesi ve 90'dan fazla farklı moleküler dosya formatını destekleyebilmesidir. Bununla birlikte, diğer yazılımlar PaDEL yazılımından daha fazla moleküler değişken hesaplayabilmektedir.

DERİN SİNİR AĞLARI ALGORİTMASI

Perseptron algoritması sinir ağları konusundaki ilk algoritmalardan biridir (22). Bu ağda bir girdi katmanı bulunmaktadır. Doğrudan çıktıya bağlıdır. Karmaşık problemler için bu algoritmaya birden çok gizli katman eklenmiştir. Delta kuralı olarak adlandırılan öğrenme tekniğiyle her katmanın ağırlığı ayarlanabilmiştir (23). Bu tür sinir ağlarına daha fazla sayıda gizli katman (ikiden fazla) eklenmesiyle doğrusal olmayan karmaşık ilişkilerin de tespit edilebilmesi sağlanmıştır ve bu sinir ağlarına derin sinir ağları (DSA) adı verilmiştir (23).

Girdi, gizli ve çıktı katmanları derin öğrenme algoritmasının genel yapısını oluşturmaktadır (Şekil 3). Gizli katmanda bulunan nöronlar giriş ile çıkış nöronlarından, aktivasyon fonksiyonunun türünden, öğrenme algoritmasından ve ağ yapısından etkilenmektedir (24). Giriş katmanı, ağdaki girdi verilerinin nasıl

(16)

9

beslendiğini göstermektedir. Giriş katmanında bulunan nöronların sayısı genel olarak kullanılan verideki değişken sayısı ile aynı sayıdadır. Giriş katmanlarını bir veya daha fazla gizli katman takip eder. Klasik ileri beslemeli sinir ağlarındaki giriş katmanları bir sonraki gizli katmana tamamen bağlanır, fakat diğer ağ yapılarında giriş katmanı tam olarak bağlanamayabilir (25).

Şekil 3. Derin sinir ağları mimarisinin genel yapısı

Gizli katman, ileri beslemeli sinir ağında bir ya da daha fazla sayıda bulunabilir. Katmanlar arasındaki bağlantıların ağırlık değerleri, sinir ağlarının ham eğitim verilerinden çıkarılan öğrenilmiş bilgileri nasıl kodladığını gösterir. Gizli katmanlar, doğrusal olmayan sinir ağları fonksiyonlarının modellenmesine izin veren yapıdır (25). Çıktı katmanı, modelin tahminini ya da cevabını ortaya koymaktadır. Çıktı katmanı girdi katmanından gelen girdiyi temel alan bir çıktı verir (25). Nöronlar arasındaki bağlantılar ağırlıklar ile ilişkilidir. Bu ağırlıklar girdi değerinin önemini belirtmektedir. İlk ağırlıklar rastgele bir şekilde ayarlanmaktadır. Her nöron bir aktivasyon fonksiyonuna sahiptir ve aktivasyon fonksiyonunun amaçlarından biri nörondan elde edilen çıktıları standartlaştırmaktır.

Özellikle son yıllarda derin sinir ağları ses, video, metin gibi pek çok veri yapısının işlenebilmesinde oldukça başarılı sonuçlar ortaya koymuştur (26). Derin

(17)

10

öğrenme tekniklerinin daha ayrıntılı olarak verilebilecek uygulama alanları arasında aşağıdakiler bulunmaktadır (27):

1. Bilgi erişimi (information retrieval)

2. Çok modlu ve çok görevli öğrenme (multimodal and multitask learning)

3. Nesne tanıma ve bilgisayarlı görü (object recognition and computer vision)

4. Dil modelleme ve doğal dil işleme (language modeling and natural language processing)

5. Konuşma ve ses işleme (speech and audio processing)

Aktivasyon Fonksiyonları

Nöronların etkileşimini sağlayan sayısal bir fonksiyondur. Bir katmanın nöronlarının çıktısını bir sonraki katmana iletmesi için aktivasyon fonksiyonları kullanılmaktadır. Sinir ağındaki gizli katmanlar için ağın doğrusal olmayan modelleme yapabilmesinde aktivasyon fonksiyonları tercih edilir.

Doğrusal aktivasyon fonksiyonu: Sinir ağlarının giriş katmanında bu aktivasyon

fonksiyonu kullanılmaktadır. Doğrusal aktivasyon fonksiyonu temelde bir birim (identity) fonksiyonudur ve 𝑓(𝑥) = 𝑊𝑥 fonksiyonu ile belirtilir. Burada, bağımlı değişken ile bağımsız değişken arasında oransal bir ilişki vardır.

Sigmoid aktivasyon fonksiyonu: Sonsuz aralıktaki bağımsız değişkenleri 0 ile 1

aralığındaki olasılıklara dönüştüren bir fonksiyondur. Sinir ağının çıktı katmanında kullanılır. İkili sınıflandırma yapmak amacı ile tercih edilir ve her sınıf için bağımsız bir olasılık üretir.

Softmax aktivasyon fonksiyonu: Softmax, ikili sınıflandırmanın yanı sıra sürekli

verilere de uygulanabilen ve çoklu karar sınırları içerebildiğinden lojistik regresyonun genelleştirilmiş halidir. Multinomial etiketleme sistemlerini yönetmektedir. Softmax, genellikle bir sınıflandırıcının çıkış katmanında bulunan işlevdir. Softmax fonksiyonu

(18)

11

yapay sinir ağının ürettiği skor değerlerinden yararlanarak olasılık temelli loss (kayıp) fonksiyonu ortaya çıkarmaktadır. Bu fonksiyon, sınıfları bir ağaç yapısına dönüştürür ve softmax sınıflandırıcısı dallanmayı yönetmek için ağacın her bir düğümünde eğitilir.

Düzleştirilmiş doğrusal birim (rectified linear units (ReLU)) aktivasyon fonksiyonu: Girdiler belirli bir değerin üzerindeyken düğümlerin aktif olduğu

dönüşümdür. Girdi sıfırın altındayken çıktı sıfırdır fakat girdi belirli bir eşiğin üstüne çıktığında bu aktivasyon fonksiyonu, 𝑓(𝑥) = max (0, 𝑥), bağımlı değişken ile doğrusal bir ilişkiye sahiptir.

Gizli katmanlarda yapılan matematiksel işlemler sayesinde doğrusal yapıda olan ağı doğrusal olmayan yapıya dönüştürmek için ReLU aktivasyon fonksiyonu kullanılır (28). ReLU aktivasyon fonksiyonu sigmoid ve tanh aktivasyon fonksiyonları ile karşılaştırıldığında gradyanların yok olma problemi (vanishing gradient problem) gözlenmemektedir.

Gradyan İnişi Optimizasyon Algoritmaları (Gradient Descent Optimization Algorithms)

Gradyan inişi, sinir ağlarını optimize etmede ve performansını iyileştirmede kullanılan en yaygın algoritmalardan biridir. Gradyan inişi, ∇_𝜃𝐽(𝜃) gibi parametrelerin amaç fonksiyonunu gradyanın karşı yönünde olacak şekilde parametreleri güncelleyerek θ ∈ 𝑅𝑑_{model parametreleri tarafından 𝐽(𝜃) amaç fonksiyonunu} minimize etmenin bir yoludur.

Stokastik gradyan inişi (Stochastic gradient descent (SGD)): Stokastik,

rastgele bir olasılık ile ilişkili olan süreci ifade etmektedir. Stokastik Gradyan İnişinde (SGD) her bir yineleme için ayarlanan verilerin tamamı yerine sadece tek bir örnek kullanılır. Örnek rastgele karıştırılır ve yinelemeyi gerçekleştirmek için seçilir. Bu durumda SGD tüm örneklerde amaç fonksiyonunun gradyanının toplamı yerine her bir yinelemede tek bir örneğin amaç fonksiyonunun gradyanının bulunmasını sağlar. SGD hızlı bir optimizasyon algoritmasıdır ve çevrimiçi öğrenme için de kullanılabilir. SGD amaç fonksiyonu ağır dalgalanmalara neden olan yüksek bir varyans ile sık sık güncellemeler yapar.

(19)

12

SGD’de her eğitim örneği 𝑥𝑖_{ve etiket 𝑦}𝑖_{için bir parametre güncellemesi} gerçekleştirir:

𝜃

_𝑡+1

= 𝜃

_𝑡

− 𝜂. ∇

_𝜃

𝐽(𝜃

_𝑡

; 𝑥

(𝑖)

; 𝑦

(𝑖)

)

(1)

Nesterov’un hızlandırılmış gradyanı (Nesterov’s accelerated gradient):

Dışbükey fonksiyonları optimize etmek için Nesterov (1983) (29) tarafından geliştirilmiştir. Standart momentum metodu önce mevcut konumdaki gradyanı hesaplar ve ardından güncellenmiş biriken gradyan yönünde büyük bir sıçrama yapar. Daha sonra sonuna kadar gradyan ölçülür ve düzeltmeler yapılır. Güncelleme kuralı aşağıda belirtilmektedir:

𝜗

_𝑡+1

= 𝛾𝜗

_𝑡

+η∇

_𝜃

𝐽(𝜃 − 𝛾𝜗

_𝑡−1

)

(2)

𝜃

_𝑡+1

=

𝜃

_𝑡

− ϑ

_t

Adagrad: Öğrenme hızını parametrelere uyarlayan, seyrek parametreler için

daha büyük güncellemeler ve sık parametreler için daha küçük güncellemeler gerçekleştiren gradyan tabanlı bir optimizasyon algoritmasıdır. Bu yüzden seyrek verilerle uğraşmak için çok uygundur. Güncelleme kuralı aşağıda belirtilmiştir:

𝐺

_𝑡,𝑖

= 𝐺

_{𝑡−1,𝑖}

+ (∇

_𝜃_𝑡

𝑗(𝜃

_𝑡,𝑖

))

2

(3)

𝜃

_𝑡+1,𝑖

= 𝜃

_𝑡,𝑖

-

η

√𝐺𝑡,𝑖 + ∈

∇

𝜃𝑡

𝐽(𝜃

𝑡,𝑖

)

Burada 𝐺_𝑡,𝑖 ∶ t anında 𝜃_𝑖 parametresine göre hesaplanmış, amaç fonksiyonunun eğim değerini ifade etmektedir.

Adagrad algoritmasının avantajlarından biri de öğrenme hızını manuel olarak ayarlama ihtiyacını ortadan kaldırmasıdır. Diğer yandan, bu algoritmanın zayıf noktalarından birisi paydada kare gradyanların birikmesidir. Eklenen her terim pozitif

(20)

13

olduğundan biriken toplam gradyan, eğitim sırasında artmaya devam eder. Bu da öğrenme hızının küçülmesine ve nihayetinde sonsuz derecede küçük olmasına neden olur ve bu noktada algoritma artık ek bilgi edinemez.

Adadelta: Tüm geçmiş kare gradyanları biriktirmek yerine, hareketli gradyan

güncellemelerinin bir penceresine dayanan öğrenme hızlarını uyarlayan daha güçlü bir Adagrad uzantısıdır. Bu sayede Adadelta birçok güncelleme yapıldığında bile öğrenmeye devam eder. Güncelleme kuralı aşağıda belirtilmiştir:

𝐺

_𝑡,𝑖

= 𝛾𝐺

_{(𝑡−1,𝑖)}

+(1 − 𝛾) (∇

_𝜃_𝑡

𝑗(𝜃

_𝑡,𝑖

))

2 Kare Gradyanın Hareketli Ortalaması (4)

𝑆

_𝑡

= 𝛾𝑆

_𝑡−1

+(1- 𝛾) ∇

_𝜃_𝑡2 Kare Deltanın Hareketli Ortalaması

∇

_𝜃_𝑡

= −

√𝑆𝑡−1 +𝜖

√𝐺𝑡,𝑖𝑖 +𝜖

∇

𝜃𝑡

𝐽(𝜃

𝑡,𝑖

)

Delta, parametrenin ne kadar güncelleneceğine

karar verir.

𝜃

_𝑡+1

= 𝜃

_𝑡

+ ∇

_𝜃_𝑡

Adam: Düşük dereceli momentlerin uyarlamalı tahminlerine dayanan stokastik

amaç fonksiyonlarının birinci dereceden gradyan tabanlı optimizasyonu için tasarlanan bir algoritmadır.

Bu optimizasyon algoritmasının uygulanması basit olup hesaplama açısından etkindir. Adam optimizasyon algoritması az miktarda bellek kapasitesine ihtiyaç duyar. Veri ya da parametrelerin büyük olduğu problemler için uygundur.

Ayrıca sabit olmayan amaçlar ve çok gürültülü veya seyrek gradyanlar ile ilgili problemler için de kullanılabilmektedir. Güncelleme kuralı aşağıda ifade edilmektedir:

𝑔

_𝑡

= ∇

_𝜃

𝐽 (θ) (5)

(21)

14

𝑣

_𝑡

= 𝛽

₂

𝑣

_𝑡−1

+ (1- 𝛽

₂

) 𝑔

_𝑡2 RMSprop terimi

=

𝑚𝑡

1−𝛽₁𝑡 Yan düzeltme birinci moment terimi

=

𝑣𝑡

𝟏−𝜷_𝟐𝒕

Yan düzeltme ikinci moment terimi

θ

_t+1

= θ

_t

- η

𝑚̂𝑡

√𝑣̂𝑡+∈

Güncelleme parametresi

Burada 𝑔𝑡 : t anında θ parametresine göre hesaplanmış amaç fonksiyonunun eğitimi olup β1 = 0,9, β2 = 0,999 (β1 ve β2 moment tahminleri için üstel bozulma oranları), ϵ = 10−8_{, J(θ) : θ parametreli stokastik amaç fonksiyonunu, η: öğrenme hızını} belirtmektedir.

Sinir Ağlarında Model Performansının İyileştirilmesi

Seyreltme: Derin sinir ağlarında oluşturulan modelin aşırı öğrenme yaptığı

durumları engellemek için seyreltme (dropout) yöntemi kullanılır. Seyreltme, birçok model türünde kullanılabilen güçlü bir düzenleme yöntemidir. Seyreltme yöntemi, SGD ve her türlü sinir ağı mimarisi ile çalışmaktadır. Seyreltme yöntemi, bir birimin aktivasyonlarını geçici olarak inaktif hale getirmektedir.

Seyreltme işlemi sinir ağı katmanındaki nöronlar için 0 ile 1 arasındaki olasılık değerleri (bir aktivasyonu kaldırma ya da tutma olasılığı) ile yapılır. Giriş katmanında ve özellikle gürültülü ya da seyrek veri kümelerinde seyreltme yöntemi kullanılmamaktadır. Nöronlar rastgele atlanarak algılayıcılar arasındaki senkronize uyum önlenmekte ve bu sayede modellerde tutulan verilerde daha iyi genelleme yapılmasına olanak sağlanmaktadır.

Öğrenme hızı (learning rate): Bir sinir ağının kayıp fonksiyon alanını

geçerken 𝑥 parametre vektörüne attığı adımların boyutunu ölçekleyen bir katsayıdır (𝜂). Öğrenme hızı, sinir ağının tahmin hatalarını en aza indirgemek için optimizasyon sırasında ayarlanan parametre miktarını etkilemektedir. Algoritmanın bir sonraki adımı için gradyanın ne kadarının kullanılması gerektiğini belirler. Minimal hataya yaklaştıkça ve gradyan düzleştikçe adım boyutu kısalma eğilimindedir. Öğrenme hızı katsayısı büyük (örneğin 1) olduğunda parametreler hızlı ve büyük adımlar ile

(22)

15

güncellenirken, öğrenme hızı katsayısı küçük (örneğin 0.00001) olduğunda parametreler yavaş ve küçük adımlar ile güncellenir.

Çok büyük bir öğrenme hızı algoritmanın hiç durmadan minimum kaybın her iki tarafında ileri ve geri sıçrama yapmasını sağlayarak global minimum noktasını kaçırmasına neden olabilir. Diğer yandan, küçük öğrenme hızları ile global minimum daha etkin bir şekilde bulunabilir ancak bu hataları bulmak çok uzun zaman alabilir ve işlem yükünü arttırabilir. Bu nedenle optimal bir öğrenme hızının bulunması hem global minimum noktasının doğru bir şekilde bulunmasına hem de işlem yükünün artmamasına olanak sağlayacaktır.

Mini-batch boyutu: Derin öğrenme çalışmalarında veri setindeki bütün verileri

aynı anda işleyerek öğrenme işlemini gerçekleştirmek hem zaman hem de kapasite açısından maliyetli bir süreçtir. Bu nedenle veri seti küçük gruplar halinde ayrılarak öğrenme işlemi seçilen bu küçük gruplar üzerinde yapılır. Bu durumda mini-batch birden çok girdinin parçalar şeklinde işlenmesi olarak tanımlanmaktadır.

Modeldeki mini-batch parametresi modelin aynı anda kaç veriyi işleyeceğini belirtir. Verilerin gruplar halinde işlenmesinde (mini-batch) kaybın arttığı fakat zamandan kazanıldığı gözlenmektedir. Mini-batch değeri 1 olarak belirlendiğinde SGD ile aynı işlevi görür. Diğer bir deyişle her iterasyonda yalnızca tek bir veri üzerinde işlem yapar hale gelmektedir. Mini-batch değerinin eğitim kümesi bütün elemanların sayısına eşit ise eğitim kümesindeki tüm veriler eğitime gireceğinden yapılan işlem Toplu Gradyan İnişi (Batch Gradient Descent) ile aynı işlevi görür. Mini-batch değeri seçiminde optimal değer, 1 ile eğitim kümesindeki bütün verilerin sayısı arasında olacak şekilde belirlenmelidir. Bu durumda öğrenme hızlı bir şekilde gerçekleşecektir.

Kayıp Fonksiyonları (Loss Functions)

Derin sinir ağlarında tasarlanan modelin hata oranını aynı zamanda başarısını ölçen bir fonksiyondur. Kayıp fonksiyonunun tanımlandığı katman derin ağların son katmanıdır. Kayıp fonksiyonu, modelin yaptığı tahminin gerçek değerden ne kadar farklı olduğunu ölçmektedir. Literatürde minimizasyon durumunda kayıp fonksiyonu, maliyet fonksiyonu ya da hata fonksiyonu olarak da tanımlanabilmektedir (31). Eğitim sırasında en aza indirgenmek istenilen miktardır. Kayıp fonksiyonu eğitim sonucunda elde edilen 𝑤 ağırlık ve 𝑏 bias parametrelerinin sorunun çözümü için ne kadar uygun

(23)

16

olduğunu ölçmektedir. İkili sınıflandırma problemlerinde en sık kullanılan kayıp fonksiyonları aşağıda açıklanmıştır.

Kategorik çapraz entropi kayıp fonksiyonu (categorical cross entropy loss function): Log Softmax ve Negative Log Likelihood fonksiyonlarından

türetilmiştir. Hem iki hem de çok kategorili (ikiden fazla) sınıflandırma problemlerinde kullanılır. Tek etiket sınıflandırması için kullanılan kayıp fonksiyonudur. Yani bir örnek yalnızca bir sınıfa ait olabilir. Bu kayıp fonksiyonu için olabilirlik fonksiyonu aşağıdaki gibi yazılabilir:

𝐿(𝑦, 𝑦̂) = − ∑

𝑀_𝑗=0

∑

𝑁_𝑖=0

(𝑦

_𝑖𝑗

∗ log (𝑦

̂))

_𝑖𝑗 (6)

Burada 𝑦̂ kestirilen değerdir.

İkili çapraz entropi kayıp fonksiyonu (binary cross entropy loss function): Sigmoid çapraz entropi kaybı olarak da bilinmektedir. İki sınıflı

problemlerde kullanılan kayıp fonksiyonudur. Bu kayıp fonksiyonu için olabilirlik fonksiyonu aşağıdaki gibi yazılabilir:

𝐿(𝑦, 𝑦̂ ) = −1

𝑁 ∑ (𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log (1 − 𝑦𝑖 ̂))𝑖 𝑁

𝑖=0 (7)

Burada 𝑦̂ kestirilen değerdir.

DESTEK VEKTÖR MAKİNELERİ ALGORİTMASI

Makine öğrenimi algoritmalarının seçiminde en önemli kriterlerden biri algoritmanın genelleme performansıdır. Model ve parametre seçimi, bağımsız değişkenlerin sayısı ve yapısı, eğitim verisi gibi faktörler algoritmaların genelleme performansı üzerinde etkilidir. Destek vektör makineleri (DVM), makine öğrenimi problemlerinden biri olan sınıflandırma sorununun çözümüne özgü tasarlanmış, genelleme performansı oldukça yüksek olan ve yüksek boyutlu verilerle çalışma imkânı sunan bir sınıflandırma algoritmasıdır (32). Cortes ve Vapnik (33) tarafından istatistiksel öğrenme teorisi ile yapısal riski en aza indirme prensibine dayanarak

(24)

17

geliştirilmiş DVM algoritması dağılımdan bağımsız olarak çalışabilen, ikili sınıflandırma ve regresyon işlemlerini gerçekleştirebilen bir algoritmadır. DVM yapısal risk minimizasyonu ve Vapnik-Chervonenkis (VC) teorisinden yararlanarak, çok sayıda aday model arasından beklenen riski ya da genelleme hatasını minimum yapacak modeli bulabilmektedir (34). Ayrıca, DVM hem ikili hem de çoklu sınıflandırma problemlerinde kullanılabilen bir makine öğrenimi algoritmasıdır. DVM algoritmasının amacı, farklı sınıflara ait destek vektörler arasındaki uzaklığı optimal şekilde ayırabilen bir hiper-düzlem bulmaktır (Şekil 4).

Şekil 4. İki boyutlu uzayda sınıflandırılabilen problem (33).

Sınıflandırma probleminin doğrusal olarak çözülemediği durumlarda, DVM doğrusal olmayan örnek uzayını, örneklerin doğrusal olarak ayrılabileceği yüksek bir boyuta aktararak bu yüksek boyutlu uzayda sınıflar arasındaki optimal marjini bulmaya çalışır (35).

Sınıflandırma için oluşturulan hiper-düzlemler arasında “ayırıcı hiper-düzlem” denilen ve optimal sınıra sahip sadece bir adet hiper-düzlem bulunmaktadır. Bu ayırıcı hiper-düzlem üzerindeki vektörlere de “destek vektörleri” denilmektedir.

DVM ile sınıflandırılacak eğitim veri kümesinin N sayıda örnekten oluştuğu ve i = 1,...,N olmak üzere {𝑥_𝑖 , 𝑦_𝑖} ile gösterildiği varsayılsın. Burada 𝑥_𝑖𝜖𝑅𝑑 olmak üzere d-boyutlu bir uzayda özellikler vektörünü (giriş vektörü), 𝑦_𝑖 𝜖{-1,+1} olmak üzere sınıf etiketlerini (çıkış vektörü) tanımlamaktadır. 𝑤 hiper-düzlemin normal vektörü ve 𝑏 eğim değeri olmak üzere eğitim kümesinin aşağıdaki şartı sağlaması gerekmektedir (34).

(25)

18

𝑦𝑖(𝑤. 𝑥𝑖 + 𝑏) ≥ +1 , i= 1,…,N (8)

DVM doğrusal ve doğrusal olmayan destek vektör makineleri olmak üzere iki gruba ayrılmaktadır. Gerçek hayattaki problemlerin büyük çoğunluğu doğrusal olarak ayrılamayan problemlerden oluşmaktadır. Doğrusal olarak ayrılabilen sınıflar arasındaki maksimum sınırın bulunması oldukça kolaydır.

Fakat doğrusal olarak ayrılamayan sınıflar önce doğrusal olarak ayrılabileceği yüksek boyutlu bir uzaya aktarılmalıdır (35). Daha sonra, sınıflandırma problemi bu yeni yüksek boyutlu uzayda çözülür.

Çekirdek Fonksiyonları

Doğrusal olmayan problemlere çözüm bulmada alternatif olarak çekirdek fonksiyonlar ile örnekler daha yüksek boyutlu ve doğrusal olarak ayrılabilecekleri bir uzaya taşınır ve çözüm bu yeni uzayda aranır. Giriş uzayındaki eğitim verilerini Η Öklid uzayına taşıyabilen Φ fonksiyonunu inceleyelim (36, 37, 38).

ɸ : 𝑅𝑑_{→ 𝐻 olur. (46)} DVM doğrusal olarak ayrılamayan veriyi doğrusal olarak ayrılabileceği yüksek boyutlu değişken uzayına taşımaktadır. Bu sayede en uygun ayırıcı hiper-düzlem bu değişken uzayında bulunabilir. Giriş uzayındaki eğitim verisi çekirdek fonksiyonlarından yararlanarak değişken uzayına aktarılır (36). Bu durumda DVM’nin eğitim aşaması sadece H uzayındaki verilerin ɸ(𝑥_𝑖).ɸ(𝑥_𝑗) iç çarpımlarına bağlıdır.

İç çarpımı K ile gösterirsek:

K (𝑥_𝑖,𝑥_𝑗) = ɸ(𝑥_𝑖).ɸ(𝑥_𝑗) (47)

olarak ifade edilir. Buradaki K fonksiyonu çekirdek fonksiyonu (kernel function) olarak tanımlanmaktadır. Test aşamasındaki sistemin test örneğinin alacağı değer:

Sonuç olarak karar fonksiyonu:

(26)

19

fonksiyonunun (eşitlik (36)’nın) işareti ile belirlenir. Karar fonksiyonu yeniden yazılırsa;

Karar fonksiyonu = 𝑠𝑖𝑔𝑛(𝑓(𝑥)) = 𝑠𝑖𝑔𝑛(∑𝑙𝑠_𝑖=1𝛼_𝑖𝑦_𝑖K (𝑥_𝑖 , 𝑥) + 𝑏) (49)

olur (36). Bu fonksiyonda 𝑙𝑠, destek vektörlerin sayısı, 𝑥𝑖 ise destek vektörleridir. Çekirdek fonksiyonu olarak çeşitli fonksiyonlar kullanılabilir. Sık kullanılan çekirdek fonksiyonları Tablo 1’de verilmiştir.

Tablo 1. DVM’de kullanımı uygun olan çekirdek fonksiyonları (38).

RANDOM FOREST ALGORİTMASI

Random Forest (RF), orijinal veri setinden rastgele ve yerine koyarak seçilen bootstrap örnekleme yöntemi ile Breiman (2001) tarafından geliştirilmiş tahmin başarısı oldukça yüksek olan karar ağacı tabanlı bir makine öğrenimi yöntemidir (39). RF hem sınıflandırma hem de regresyon için geliştirilen topluluk (ensemble) öğrenme tekniğidir. İlgili verideki sınıf değişkeni kategorik ise sınıflandırma, sürekli ise regresyon ağaçları oluşturulmaktadır. RF yüksek boyutlu karmaşık veri yapılarında ve kayıp veri olduğu durumda kullanılabilmektedir. RF, çok sayıdaki karar ağacının birleşmesiyle ortaya çıkmaktadır ve bireysel ağaçlar tarafından oylanarak kazanan sınıf belirlenmektedir (40).

RF sınıflama yönteminde her bir özelliğin “düğüm” tarafından temsil edildiği en son yapının “yaprak” en üst yapının “kök” yaprak ve kök arasında kalan yapıların da “dal” olarak tanımlandığı çalışma sistemi bulunmaktadır (41). RF sınıflandırma amacı ile kullanıldığında ağaçlar ayrı ayrı incelenir ve her biri hedef sınıfı tahmin etmek için işlenir. Nihai sınıflandırma sonucu ağaçların ayrı ayrı elde ettiği tahminlerin

(27)

20

çoğunluk oyu (majority vote) ile hesaplanır (42). RF yönteminde CART (Classification and Regression Tree) algoritmasıyla ağaçlar oluşturulur ve ağaçlar budanmaz. Her ağacın oluşumu sırasında ve yeni bir düğüm eklenirken rastgele seçilen özellik alt kümesi, giriş özellikleri kümesinden seçilmektedir. Bu alt kümedeki özellikler daha sonra araştırılmakta ve en iyi bölme sonucuna sahip olan seçilmektedir (42). CART algoritması bilgi kazancını (information gain) ya da Gini indeksini kullanarak veri setinin hangi değişkenden başlayarak dallara ayrılacağına karar verir (41,43).

RF algoritması aşağıdaki adımlardan oluşmaktadır (41):

• Orijinal veri setinden n adet bootstrap örneklem oluşturulur. Oluşturulan her örneklemin 3’te 2’si ağacı oluşturmak için eğitim verisi olarak kullanılır (inBag).

• Her bootstrap örneklem içerisinde sınıflandırma aşağıdaki adımlar izlenerek oluşturulur:

• inBag veri setinden her düğümde bütün tahmin değişkenleri içerisinden en iyi değişkeni seçmek yerine rastgele m tane tahmin değişkeni seçilir ve bunların içerisinden dallara en iyi ayıracak (en çok bilgi kazancı sağlayan) olanı belirlenir.

• Belirlenen tahmin değişkeni için en iyi dallanma kriteri Gini indeksi ile hesaplanır ve hesaplanan değere göre veri setini her düğümde iki alt dala ayırır.

• Yukarıda verilen adımlar aşağıya doğru yaprak düğüm elde edilene kadar her düğümde tekrarlanır.

• n tane ağacın ayrı ayrı yaptığı tahminler bir araya getirilir ve en çok oyu alan sınıf son tahmin olarak belirlenir.

Breiman tarafından varsayılan m değeri sınıflandırma ağaçları oluşturulurken 𝑝1/2 olarak önerilmiştir. Burada, p değeri toplam tahmin edici değişken sayısını ifade etmektedir (41).

Veri setindeki hata oranını hesaplamak için aşağıdaki adımlar izlenir (41):

• Bootstrap aşamasında karar ağacı oluşturulurken bootstrap örnekleme, ağaç oluşturulacak veri (in bag) ve ağaç oluşturmak için kullanılmayan veri (out of bag, OOB) olarak iki parçaya ayrılır. OOB ile oluşturulan RF modeli test edilir ve hata oranı tahmini yapılır.

• Yapılan OOB tahminleri bir araya getirilir ve ormanın hata oranı kestirimi yapılır.

(28)

21 Bootstrap Örnekleme

Veri setindeki verilerden her defasında yerine koyarak farklı örnekler seçip yeni bir veri seti oluşturma işlemi bootstrap yöntemi olarak tanımlanmaktadır (39). Bootstrap yöntemi ile elde edilen örnek veri setinden çıkarılmaksızın seçim işlemlerine devam edildiği için eğitim veri setindeki bir örneğin birden fazla tekrar edebilme durumu bulunmaktadır. Eğitim veri setinin oluşturulmasının ardından eğitim veri setine alınmayan tüm örnekler test veri setine aktarılmaktadır. Test veri setinde bulunan her örnek sadece bir kez tekrar edebilmektedir (32).

Bootstrap metodu ile örnek seçimi aşağıdaki gibi ifade edilmektedir:

N adet gözlemden oluşan veri seti 𝑋 = (𝑋₁ , 𝑋_{2 ,} 𝑋_{3 ,} 𝑋_{4 ,… ,}𝑋_𝑁) olsun. Bu veri setinden 1/N olasılıkla şansa bağlı bootstrap örnek veri seti 𝑋_İ∗_{= (𝑋}

1∗, 𝑋2∗ , 𝑋3∗ , 𝑋4∗ , … , 𝑋𝑁∗) elde edilmektedir. Bu işlem ne kadar örneklem oluşturulmak isteniyorsa o kadar tekrarlanarak istenilen kadar bootstrap veri seti oluşturulabilmektedir (39).

Bagging Yöntemi

Bagging (Bootstrap Aggregating), bootstrap tekniği ile seçilen örneklemlerle oluşturulan çok sayıda karar ağacının yapmış olduğu tahminleri toplayarak nihai sınıf tahmini yapan bir yöntemdir. Oluşturulan ağaç yapısında orijinal veri setindeki tüm değişkenleri kullanmaktadır (41).

Sınıflama ve regresyon modelleri için uygulanabilen aşırı öğrenmeye karşı güçlü olan doğru sınıflandırma oranını arttıran ve varyans düşürücü etkisi olan veri setinde kayıp verilerin yer aldığı durumlarda başarılı sınıflandırma ortaya çıkaran topluluk öğrenme şeklidir (39).

Bagging tekniğinde veri eğitim ile test veri seti olarak iki gruba ayrılır ve ayrılan eğitim setinden bootstrap örnekleme yöntemi ile m sayıda ağaç oluşturulmaktadır. Oluşturulan ağaçlarda dallara ayırıcı nitelikteki değişken tüm değişkenler içinden rastgele seçilir oylama işlemi yapıldığında en yüksek oyu alan sınıf nihai sınıf olarak ortaya çıkmaktadır (46).

Boosting Yöntemi

Boosting, verilen eğitim algoritmalarının doğruluğunu artırmak için kullanılan genel bir yöntemdir (47). Boosting tekniğinde amaç, veri setine farklı ağırlıklar verildiğinde oluşan ağaçlar topluluğundan tahminlerde bulunmaktır. Başlangıçta bütün gözlemler eşit ağırlığa sahiptir. Ağaç topluluğu büyüdükçe, problem bilgisine dayalı olarak ağırlıklandırmalar düzenlenir. Yanlış sınıflandırılan gözlemlerin ağırlığı

(29)

22

arttırılırken nadiren yanlış sınıflandırılan gözlemlerin ağırlığı azaltılır. Böylece ağaçlar zor sınıflandırılan gözlemler karşısında kendini düzenleyebilme imkânı kazanmaktadır (48). Bu yönteminin temelinde sınıflandırıcı serisinin oluşturulması vardır (49).

Zayıf ya da temel sınıflandırıcı olarak adlandırılan bu bireysel sınıflandırıcılar, Karar Ağaçları, Perseptron Öğrenme Kuralı, Maksimum Olabilirlik Kuralı gibi kurallar olabilmektedir. Her bir iterasyon sırasında, bir zayıf sınıflandırıcı seçilir ve sınıflandırılmamış vektörlere dayanan farklı bir örnek dağılımı kullanılarak eğitilir.

Boosting yönteminin diğer yöntemlere göre önemli bir avantajı hassas ayarlamanın, karmaşık ve lineer olmayan optimizasyon yapmanın gerekli olmamasıdır.

Bu yöntemde seriye ait bir önceki sınıflandırıcıların hatalı olarak tahmin ettiği örnekler bir sonraki sınıflandırıcının kullanacağı eğitim setindeki doğru tahmin edilen verilere göre daha fazla tekrar edilerek örnekleri daha doğru tahmin edebilen sınıflandırıcı oluşturmak istenir. Boosting yönteminde her bir gözleme ait hata durumuna göre bir ağırlık değerinin verilmesi mantığı bulunmaktadır. Boosting yönteminde en yaygın kullanılan algoritma Adaboost algoritmasıdır (50).

(30)

23

GEREÇ VE YÖNTEMLER

VERİ SETLERİ

Bu çalışmada PubChem veri tabanından elde edilen 5 adet bioassay verisi kullanılmıştır ve kullanılan verilere ilişkin bilgiler Tablo 2’de özetlenmiştir.

1) AID652178: Bu bioassay Alzheimer hastalığı ve şizofreni ile ilişkili bilişsel

dejenerasyonun tedavisinde önemli bir etkiye sahip olan bir transmembran alan reseptörü (GQ-bağlı GPCR M1 Muskarinik reseptör) için oluşturulmuştur. Bu bioassay veri seti içerisinde 178 aktif ve 897 inaktif bileşik olmak üzere toplam 1075 bileşik bulunmaktadır.

2) AID1053187: Bu bioassay verisi Muskarinik M1 reseptörü için oluşturulmuş

olup farklı HTS deneylerinden (AID628, AID677, AID859, AID860) elde edilen sonuçları içermektedir. Bu bioassay veri seti içerisinde 420 aktif ve 1172 inaktif olmak üzere toplam 1592 adet bileşik bulunmaktadır.

3) AID1053196: Bu bioassay Choline Transporter (CHT) inhibitörleri için

geliştirilmiş olup farklı HTS deneylerinden (AID488975, AID493221, AID504840, AID588401, AID493222, AID602208, AID49322) elde edilen sonuçları içermektedir. Bu bioassay veri seti içerisinde 231 aktif ve 2058 inaktif olmak üzere toplam 2289 adet bileşik bulunmaktadır.

4) AID1159608: Bu bioassay verisi Nöropeptid Y reseptörü Y2’nin (NPY-Y2)

antagonistleri için oluşturulmuş olup farklı HTS deneylerinden (AID793, AID1257, AID1256, AID1279, AID1272, AID2210, AID2212, AID2224) elde

(31)

24

edilen sonuçları içermektedir. Bu bioassay veri seti içerisinde 624 aktif ve 637 inaktif olmak üzere toplam 1261 adet bileşik bulunmaktadır.

5) AID115909: Bu bioassay verisi Fenolik amino karboksilik asitlerin esterleri ve

laktonları, demir şelasyonu için ön ilaçlardan oluşmuştur. Bu bioassay veri seti içerisinde 717 aktif ve 1070 inaktif olmak üzere toplam 1787 adet bileşik bulunmaktadır.

Tablo 2. Beş veri setinin sınıf değişkenlerine ilişkin bilgiler

Veri seti Aktif İnaktif Toplam Aktif / İnaktif

AID652178 178 897 1075 1:5 AID1053187 420 1172 1592 1:3 AID1053196 231 2058 2289 1:9 AID1159608 624 637 1261 1:1 AID115909 717 1070 1787 1:1,5 PERFORMANS ÖLÇÜLERİ

Eğitilen makine öğrenimi algoritmalarının test seti performanslarını değerlendirmek için aşağıdaki performans ölçüleri Tablo 3‘te verilen çapraz tablo yardımıyla hesaplanmıştır.

(32)

25

Tablo 3. Performans ölçülerini hesaplamak için kullanılan çapraz tablo GERÇEK Aktif İnaktif TAHMİN Aktif Doğru Pozitif (DP) Yanlış Pozitif (YP) İnaktif Yanlış Negatif (YN) Doğru Negatif (DN)

Doğru Pozitif (DP) : Gerçekte aktif olan moleküllerden modelin aktif olarak tahmin

ettiği moleküllerin sayısıdır.

Yanlış Pozitif (YP) : Gerçekte inaktif olan moleküllerden modelin aktif olarak tahmin

Yanlış Negatif (YN) : Gerçekte aktif olan moleküllerden modelin inaktif olarak tahmin

Doğru Negatif (DN): Gerçekte inaktif olan moleküllerden modelin inaktif olarak

tahmin ettiği moleküllerin sayısıdır.

Dengeli Doğruluk Oranı (DDO): Her bir sınıfın ayrı ayrı doğrularının oranının

ortalaması olarak hesaplanmaktadır. Dengesiz veri setlerindeki abartılı performans tahminlerini önlemek amacıyla dengeli doğruluk oranı kullanılır.

DDO =

1 2

(

𝐷𝑃 𝐷𝑃+𝑌𝑁

+

𝐷𝑁 𝐷𝑁+𝑌𝑃

)

(50)

Duyarlılık (Duy): Testin belirli bir hastalığı olan hastaları tespit etme yeteneğini ifade

etmektedir. Modelin yanlış negatifleri ne kadar iyi önlediğini belirtir.

Duyarlılık = 𝐷𝑃

(33)

26

Pozitif Kestirim Değeri (PKD) : Doğru sınıflandırılan pozitif örneklerin toplam pozitif

tahmin edilen örneklere oranıdır.

PKD = 𝐷𝑃

𝐷𝑃+𝑌𝑃

(52)

F1 Skor (F1 Score) : İkili sınıflandırmada F1 skoru modelin doğruluğunun ölçüsü

olarak düşünülmektedir. 0 (kötü) ile 1 (iyi) arasında değer alır. F1 skoru duyarlılık ve pozitif kestirim değerinin harmonik ortalamasıdır. F1 skor değeri ne kadar yüksek ise, sınıflandırma performansı o kadar iyidir.

F1 Skor = 2(PKD∗Duy)

PKD+Duy

(53)

Matthews Korelasyon Katsayısı (MCC) : Makine öğreniminde ikili sınıflandırmaların

kalite ölçüsü olarak kullanılmaktadır. MCC, gözlenen ve kestirilen ikili sınıflandırmalar arasında bir korelasyon katsayısıdır. (-1) ile (+1) arasında bir değer döndürür. (-1) mükemmel negatif korelasyonu diğer bir deyiş ile tahmin ve gerçek değerler arasındaki toplam uyuşmazlığı temsil etmektedir. 0 rasgele dağılımı ifade eder. (+1) mükemmel bir korelasyonu yani tamamen doğru ikili sınıflandırıcıyı ifade eder.

MCC = DP∗DN−YP∗ YN

√(DP+YP)(DP+YN)(DN+YP)(DN+YN) (54)

VERİ ÖN İŞLEME VE MODEL KURMA

PubChem veri tabanından indirilen bioassay verileri için PaDEL yazılımı kullanılarak 2757 adet moleküler değişken hesaplanmıştır. Daha sonra, verilerdeki sıfır veya sıfıra yakın varyansa sahip değişkenler çıkarılmış ve değişken sayısı 1348‘e indirgenmiştir. Oluşturulan verilerin her biri %80 eğitim ve % 20 test seti olarak iki kısma ayrılmıştır. Verilerin standartlaştırılması için eğitim setlerine z-skor dönüşümü uygulanmıştır. Test setleri ise eğitim setlerinin parametrelerine (yani ortalama ve standart sapmasına) göre standartlaştırılmıştır. DVM ve RF’de

(34)

27

parametre optimizasyonu için 10 kat çapraz geçerlilik kullanılmıştır. DSA algoritmasında 4 gizli katmana (birinci katman 1024 düğümden, ikinci katman 2048 düğümden, üçüncü katman 1500 düğümden ve dördüncü katman 128 düğümden oluşmaktadır) sahip model kurulmuştur. DSA’da oluşturulan modelin aşırı öğrenmesini engellemek için %20’lik seyreltme (dropout) oranı kullanılmıştır. DSA algoritması için model oluşturma adımları Python 3.7.3, DVM ve RF için ise model oluşturma adımları R 3.6.1 programları kullanılarak gerçekleştirilmiştir.

(35)

28

BULGULAR

Çalışmamızda 5 adet HTS verisi DSA, DVM ve RF algoritmaları kullanılarak eğitilmiş, her bir algoritmanın performansı aynı test seti üzerinde test edilmiştir. Algoritmaların performansları dengeli doğruluk oranı, duyarlılık, pozitif kestirim değeri, F1 skoru ve MCC ölçüleri kullanılarak karşılaştırılmıştır.

AID652178 verisi için DSA, DVM ve RF algoritmalarının performans ölçüleri hesaplanmış ve sonuçlar Tablo 4’te özetlenmiştir. Bu veri seti dengesiz bir yapıda olup inaktif molekül sayısı aktif molekül sayısının yaklaşık 5 katıdır. Dengeli doğruluk oranının en yüksek olduğu algoritma DSA (0,767) iken DVM’de ve RF’de dengeli doğruluk oranı DSA’ya göre düşük bulunmuştur (sırasıyla, 0,526 ve 0,540). Duyarlılık ölçüsü açısından incelendiğinde, DSA algoritması en yüksek duyarlılığa sahip algoritma iken (0,686) DVM ve RF algoritmalarında duyarlılık oldukça düşük çıkmıştır (sırasıyla 0,057 ve 0,086). Pozitif kestirim değeri açısından RF (0,750) ve DVM (0,667) algoritmalarının DSA’ya göre (0,471) daha yüksek performans gösterdiği görülmüştür. F1 skoru açısından en yüksek performansı DSA (0,558) gösterirken DVM ve RF algoritmalarının F1 skor değerleri DSA’ya göre oldukça düşük çıkmıştır (sırasıyla 0,105 ve 0,154). Benzer şekilde MCC açısından incelendiğinde DSA’nın DVM ve RF’ye göre daha iyi performans gösterdiği görülmektedir (sırasıyla 0,464, 0,162 ve 0,219). Elde edilen sonuçlara göre; dengeli doğruluk oranı, duyarlılık, F1 skoru ve MCC açısından DSA algoritması DVM ve RF’ye göre daha başarılı bir performans göstermiştir.

(36)

29

Tablo 4. AID652178 verisi için DSA, DVM ve RF algoritmalarının performans ölçüleri

AID652178 DSA DVM RF

Dengeli Doğruluk Oranı _0,767 _0,526 _0,540

Duyarlılık _0,686 _0,057 _0,086

Pozitif Kestirim Değeri _0,471 _0,667 _0,750

F1 Skor _0,558 _0,105 _0,154

MCC _0,464 _0,162 _0,219

AID1053187 verisi için DSA, DVM ve RF algoritmalarının performans ölçüleri hesaplanmış ve sonuçlar Tablo 5’de özetlenmiştir. Bu veri seti de dengesiz bir yapıda olup inaktif molekül sayısı aktif molekül sayısının yaklaşık 3 katıdır. Elde edilen sonuçlara göre tüm performans ölçüleri açısından DSA algoritması DVM ve RF’ye göre daha iyi performans göstermiştir. Dengeli doğruluk oranının en yüksek olduğu algoritma DSA (0,865) iken DVM’de ve RF’de dengeli doğruluk oranı DSA’ya göre düşük bulunmuştur (sırasıyla 0,556 ve 0,765). Duyarlılık ölçüsü açısından incelendiğinde DSA algoritması en yüksek duyarlılığa sahip iken (0,809) RF algoritması (0,619) olup DVM algoritmasının duyarlılığı oldukça düşük çıkmıştır (0,155). Pozitif kestirim değeri açısından DSA (0,782) algoritmasının DVM (0,565) ve RF (0,712) algoritmalarına göre daha yüksek performans gösterdiği görülmüştür. F1 skoru açısından en yüksek performansı DSA (0,795) gösterirken DVM ve RF algoritmalarının F1 skor değerleri DSA’ya göre düşük çıkmıştır (sırasıyla 0,243 ve 0,663). Benzer şekilde MCC açısından incelendiğinde DSA’nın DVM ve RF’ye göre daha iyi performans gösterdiği görülmektedir (sırasıyla 0,721, 0,191 ve 0,555).

(37)

30

AID1053187 DSA DVM RF

Dengeli Doğruluk Oranı 0,865 0,556 0,765

Duyarlılık 0,809 0,155 0,619

Pozitif Kestirim Değeri 0,782 0,565 0,712

F1 Skor 0,795 0,243 0,663

MCC 0,721 0,191 0,555

AID1053196 verisi için DSA, DVM ve RF algoritmalarının performans ölçüleri hesaplanmış ve sonuçlar Tablo 6’da özetlenmiştir. Bu veri seti çalışmada kullanılan en dengesiz veri setidir. Bu veri setinde inaktif molekül sayısı aktif molekül sayısının yaklaşık 9 katıdır. Elde edilen sonuçlara göre tüm performans ölçüleri açısından DSA algoritması DVM ve RF’ye göre daha iyi performans göstermiştir. Dengeli doğruluk oranının en yüksek olduğu algoritma DSA (0,764) iken DVM ve RF dengeli doğruluk oranı birbirine eşit olup DSA’ya göre düşük bulunmuştur (0,544). Duyarlılık ölçüsü açısından incelendiğinde DSA algoritması en yüksek duyarlılığa sahip iken (0,630) DVM ve RF algoritmalarında duyarlılık birbirine eşit olup oldukça düşük çıkmıştır (0,087). Pozitif kestirim değeri açısından RF(1) ve DVM (1) algoritmalarının DSA’ya göre (0,409) daha yüksek performans gösterdiği görülmüştür. F1 skoru açısından en yüksek performansı DSA (0,496) gösterirken DVM ve RF algoritmalarının F1 skor değerleri birbirine eşit olup DSA’ya göre oldukça düşük çıkmıştır (0,16). Benzer şekilde MCC açısından incelendiğinde DSA’nın DVM ve RF’ye göre daha iyi performans gösterdiği görülmektedir (sırasıyla 0,439, 0,281 ve 0,281).

(38)

31

AID1053196 DSA DVM RF

Duyarlılık 0,630 0,087 0,087

F1 Skor 0,496 0,160 0,160

MCC 0,439 0,281 0,281

AID1159608 verisi için DSA, DVM ve RF algoritmalarının performans ölçüleri hesaplanmış ve sonuçlar Tablo 7’de özetlenmiştir. Bu veri seti çalışmamızda kullanılan tek dengeli yapıdaki veri setidir ve aktif ve inaktif molekül sayıları yaklaşık olarak birbirine eşittir. Elde edilen sonuçlara göre tüm performans ölçüleri açısından DSA algoritması DVM ve RF’ye göre daha iyi performans göstermiştir. Dengeli doğruluk oranının en yüksek olduğu algoritma DSA (0,849) iken DVM’de ve RF’de dengeli doğruluk oranı DSA’ya göre düşük bulunmuştur (sırasıyla 0,625 ve 0,645). Duyarlılık ölçüsü açısından incelendiğinde DSA algoritması en yüksek duyarlılığa sahip iken (0,823) DVM ve RF algoritmalarında duyarlılık DSA’ya göre düşük çıkmıştır (sırasıyla 0,565 ve 0,621). Pozitif kestirim değeri açısından DSA (0,864) algoritmasının DVM (0,637) ve RF (0,647) algoritmalarına göre daha yüksek performans gösterdiği görülmüştür. F1 skoru açısından en yüksek performansı DSA (0,843) gösterirken DVM ve RF algoritmalarının F1 skor değerleri DSA’ya göre düşük çıkmıştır (sırasıyla 0,598 ve 0,634). Benzer şekilde MCC açısından incelendiğinde DSA’nın DVM ve RF’ye göre daha iyi performans gösterdiği görülmektedir (sırasıyla 0,698, 0,252 ve 0,291).

(39)

32

AID1159608 DSA DVM RF

Duyarlılık 0,823 0,565 0,621

F1 Skor 0,843 0,598 0,634

MCC 0,698 0,252 0,291

AID1159609 verisi için DSA, DVM ve RF algoritmalarının performans ölçüleri hesaplanmış ve sonuçlar Tablo 8’de özetlenmiştir. Bu veri seti çalışmamızda kullanılan dengesiz veri setleri arasında dengesizlik oranı en düşük veri setidir. Bu veri setinde inaktif molekül sayısı aktif molekül sayısının yaklaşık 1,5 katıdır. Elde edilen sonuçlara göre tüm performans ölçüleri açısından DSA algoritması DVM ve RF’ye göre daha iyi performans göstermiştir. Dengeli doğruluk oranının en yüksek olduğu algoritma DSA (0,846) iken DVM’de ve RF’de dengeli doğruluk oranı DSA’ya göre düşük bulunmuştur (sırasıyla 0,566 ve 0,575). Duyarlılık ölçüsü açısından incelendiğinde DSA algoritması en yüksek duyarlılığa sahip iken (0,805) DVM ve RF algoritmalarında duyarlılık DSA’ya göre düşük çıkmıştır (sırasıyla 0,259 ve 0,266). Pozitif kestirim değeri açısından DSA (0,827) algoritmasının DVM (0,578) ve RF’ye göre (0,603) daha yüksek performans gösterdiği görülmüştür. F1 skoru açısından en yüksek performansı DSA (0,816) gösterirken DVM ve RF algoritmalarının F1 skor değerleri DSA’ya göre düşük çıkmıştır(sırasıyla 0,358 ve 0,369). Benzer şekilde MCC açısından incelendiğinde DSA’nın DVM ve RF’ye göre daha iyi performans gösterdiği görülmektedir (sırasıyla 0,696, 0,169 ve 0,192).

(40)

33

AID1159609 DSA DVM RF

Duyarlılık 0,805 0,259 0,266

F1 Skor 0,816 0,358 0,369

MCC 0,696 0,169 0,192

Algoritmaların performansları veri setlerinin dengesizlik yapıları göz önüne alınarak karşılaştırılmıştır. Dengeli doğruluk oranı açısından incelendiğinde; DSA algoritmasının tüm dengesizlik yapılarında en iyi performansı gösteren algoritma olduğu görülmektedir. DVM ve RF algoritmalarının performansları AID1053187 (1:3) dışında benzer bulunmuştur. DSA algoritması tüm dengesiz veri yapılarında en iyi performansı göstermekle birlikte, dengesizlik oranı arttıkça performansında düşüş olduğu gözlenmektedir. Dengeli doğruluk oranına ilişkin elde edilen sonuçlar Şekil 5’te verilmiştir.

(41)

34

Şekil 5. Dengeli doğruluk oranı açısından DSA, DVM ve RF performanslarının dengesizlik oranlarına göre karşılaştırılması

F1 skoru açısından incelendiğinde; DSA algoritmasının tüm dengesizlik yapılarında en iyi performansı gösteren algoritma olduğu görülmektedir. DVM ve RF algoritmalarının performansları AID1053187 (1:3) dışında benzer bulunmuştur. DSA algoritması tüm dengesiz veri yapılarında en iyi performansı göstermekle birlikte, dengesizlik oranı arttıkça performansında düşüş olduğu gözlenmektedir. F1 skoruna ilişkin elde edilen sonuçlar Şekil 6’da verilmiştir.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

AID1159608 (1:1) AID1159609 (1:1.5) AID1053187 (1:3) AID652178 (1:5) AID1053196 (1:9) DSA DVM RF

(42)

35

Şekil 6. F1 skoru açısından DSA, DVM ve RF performanslarının dengesizlik oranlarına göre karşılaştırılması

MCC açısından incelendiğinde; DSA algoritmasının tüm dengesizlik yapılarında en iyi performansı gösteren algoritma olduğu görülmektedir. DVM ve RF algoritmalarının performansları AID1053187 (1:3) dışında benzer bulunmuştur. DSA algoritması tüm dengesiz veri yapılarında en iyi performansı göstermekle birlikte, dengesizlik oranı arttıkça performansında düşüş olduğu gözlenmektedir. MCC’ye ilişkin elde edilen sonuçlar Şekil 7’de verilmiştir.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

(43)

36

Şekil 7. MCC açısından DSA, DVM ve RF performanslarının dengesizlik oranlarına göre karşılaştırılması

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8