Sınıflandırıcı topluluk tasarımı için geliştirilen model

4. SİNİR SİSTEMİ İLAÇLARI ÜZERİNDE UYGULAMA

4.4 Tartışma

6.2.3 Sınıflandırıcı topluluk tasarımı için geliştirilen model

Önerilen model üç aşamada gerçekleştirilmektedir, 1. Dengesiz veri seti için etkin öznitelikler belirlenir.

2. Dengesiz veriler tekrar örneklenir. Veri seti dengeli hale getirildikten sonra veri setinde sadece örneklere ait 1 nolu aşamada belirlenen etkin özniteliklerle ilgili veriler yer alır. 3. Sınıflandırıcı topluluk oluşumu elde edilir.

Önerilen modelin aşamaları:

1. Dengesiz veri setleri için etkin özniteliklerin belirlenmesi, Girdi:

110

p, n ve 1 sırasıyla çoğunluk grubu, azınlık grubu ve öznitelik matrislerinde satır sayısını bir başka değişle veri setindeki örnek sayısını; d, tüm matrislerdeki sütun sayısını yani veri setindeki özniteliklerin toplam sayısını göstermektedir. Aşağıda verilen eşitliklerde i yine çoğunluk ve azınlık grubu matrislerindeki satır sayısını; j, çoğunluk ve azınlık grubu matrislerinde sütun sayısını temsil etmektedir. k ve l ise sırasıyla öznitelik matrisine ait satır ve sütun sayılarını belirtmektedir. Aşağıda ayrıca i, j, k, l’nin p, n, ve d cinsinden aldıkları değerler parantez içinde belirtilmiştir.

Çoğunluk grubu matrisi Gç: 𝑋𝑝𝑥𝑑 = 𝑋𝑖,𝑗 ( i = 1, 2, .., p ; j = 1, 2, .., d ve 𝑋𝑖,𝑗∈ 𝑅 )

Azınlık grubu matrisi Ga: 𝑋_𝑛𝑥𝑑= 𝑋_𝑖,𝑗 ( i = 1, 2, .., n ; j = 1, 2, .., d ve 𝑋_𝑖,𝑗 ∈ 𝑅 ) Öznitelik matrisi Of: 𝑌_1𝑥𝑑 = 𝑌_𝑘,𝑙 ( k= 1 ; l = 1, 2, .., d ve 𝑌_𝑘,𝑙 ∈ 𝑁 ) olmak üzere, Gç=[𝑋𝑖𝑗]_𝑝𝑥𝑑 , Ga= [𝑋_𝑖𝑗]

𝑛𝑥𝑑, Of= [𝑌1𝑙]1𝑥𝑑’dir.

Öznitelik matrisi Of özniteliklerin sırasıyla indeks numaralarını içermektedir. Buna göre;

 İlk olarak k = #Gç / #Ga olacak şekilde belirlenir. k, çoğunluk grubu matrisindeki toplam örnek sayısının azınlık grubu matrisindeki toplam örnek sayısına bölünmesi sonucu elde edilir.“k” belirlenirken bölüm sonucu alt sınır seçilecek şekilde tamsayıya yuvarlanır. Örnek olarak bölüm sonucu 6.8 çıkmış ise k = 6 tamsayısı alınır.

 Eğer k değeri k ≥ 2 ise;

Çoğunluk grubu Gç matrisi k eşit parçaya bölünür ve k eşit parçanın her biri azınlık grubunu olan Ga matrisi ile birleştirilir. Sonuç olarak k adet veri matrisimiz olur. Elde edilen k adet matris etkin özniteliklerin belirlenmesi amacıyla öznitelik matrisi ile birleştirilir. Bu matrislerin herbiri aynı sayıda özniteliğe sahiptir (d adet). p ve n değerleri sırasıyla Gç ve Ga içerisindeki örneklerin sayısıdır.

Eğer k değeri k = 1 ise;

Eğitim setine direk olarak etkin öznitelik seçme stratejisi uygulanır.

 Öznitelikleride içeren k adet matrise bir başka değişle veri setlerine etkin öznitelik seçme stratejisi (ki-kare) uygulanarak her biri için etkin öznitelikler belirlenir.

 Son olarak k adet matristen (veri setinden) gelen etkin öznitelikler birleştirilerek etkin öznitelik seti elde edilir. Elde edilen etkin öznitelik setinde tekrar eden özniteliklerden yalnızca birtanesi kullanılır.

111

2. Başlangıçta Gç ve Ga grubu matrisleri “d” adet öznitelik içermekteydi. 1 nolu aşamadan sonra belirlenen etkin öznitelik setine göre e ≤ 𝑑′_{𝑑𝑖𝑟. Burada “e” seçilen}

etkin özniteliklerin sayısıdır. Dengesiz veri seti başta Of, Gç ve Ga matrislerinin birleşiminden oluşmaktadır. Burada ç > 𝑎’dır. ç çoğunluk grubu matrisindeki toplam örnek sayısı ve a azınlık grubu matrisindeki toplam örnek sayısıdır. Dengesiz veri seti tekrar örneklenip dengeli hale getirildikten sonra veri setinde sadece örneklere ait 1 nolu aşamada belirlenen etkin özniteliklerle ilgili veriler yer alır.

Dengesiz verilerin tekrar örneklenmesi ve etkin özniteliklerin veri setinden seçilmesi,

Girdi:

Çoğunluk grubu matrisi Gç: 𝑋𝑝𝑥𝑑 = 𝑋𝑖,𝑗 ( i = 1, 2, .., p ; j = 1, 2, .., d ve 𝑋𝑖,𝑗 ∈ 𝑅 )

Azınlık grubu matrisi Ga: 𝑋𝑛𝑥𝑑= 𝑋𝑖,𝑗 ( i = 1, 2, .., n ; j = 1, 2, .., d ve 𝑋𝑖,𝑗 ∈ 𝑅 ) Öznitelik matrisi Od: 𝑌_1𝑥𝑑= 𝑌_𝑘,𝑙 ( k= 1 ; l = 1, 2, .., d ve 𝑌_𝑘,𝑙 ∈ 𝑁 ) olmak üzere, Gç=[𝑋𝑖𝑗]_𝑝𝑥𝑑 , Ga= [𝑋_𝑖𝑗]

𝑛𝑥𝑑, Od= [𝑌1𝑙]1𝑥𝑑’dir. Buradan girdi matrisi (veri seti),

OGdça = [𝑋𝑖𝑗]_{(1+𝑝+𝑛)𝑥𝑑} şeklinde gösterilebilir. Burada (p+ n) girdi matrisindeki satır

sayısını yani çoğunluk ve azınlık grubu matrislerindeki toplam örnek sayısını, 1 ise girdi matrisinin ilk satırı olan öznitelik matrisine ait satır sayısını gösterir ve d matrislerdeki toplam öznitelik sayısını göstermektedir. Etkin öznitelik matrisi Od özniteliklerin sırasıyla indeks numaralarını içermektedir.

Buna göre;

 İlk olarak azınlık sınıfının örnek sayısını arttırmak ve veri kümesinin dengesizlik oranını düşürmek amacıyla SMOTE (Over-sampling using Synthetic Minority Over-sampling Technique) tekniği eğitim setine uygulanmaştır.

Bu durumda veri seti matrisi,

OGdça = [𝑋𝑖𝑗]_{(1+𝑝+𝑛)𝑥𝑑} iken _𝑛_𝑠𝑜𝑛𝑝 < 2 olacak şekilde n, azınlık gurubu

örnek sayısı veri kümesini dengelemek amacıyla arttırılır. Son durumda nson > 𝑛‘dir. Buna göre veri seti matrisi ilk satır etkin öznitelik indeks numaralarını içerecek şekilde son durumda,

112

 Sonuç olarak etkin öznitelikleri içeren ve dengeli veri setine sahip OGe = [𝑋𝑖𝑗]_(1+𝑝+𝑛

𝑠𝑜𝑛)𝑥𝑒 = 𝑋𝑖,𝑗 ( i = 1, 2, .., (1 + 𝑝 + 𝑛𝑠𝑜𝑛) ; j = 1, 2, .., e

ve 𝑋_𝑖,𝑗 ∈ 𝑅) veri matrisi elde edilir. Burada e, 1 nolu aşamada belirlenen etkin özniteliklerin sayısını belirtir. Son durumda çoğunluk grubu matrisindeki toplam örnek sayısının azınlık grubu matrisindeki toplam örnek sayısına bölümü 2’den küçük olmalıdır ( 𝑝

𝑛𝑠𝑜𝑛 < 2 ).

3. Sınıflandırıcı topluluk oluşumu, Girdi:

Etkin özniteliklerden oluşan dengeli veri setine sahip eğitim seti matrisi

OGe: 𝑋_(1+𝑝+𝑛_𝑠𝑜𝑛_)𝑥𝑒 = 𝑋_𝑖,𝑗 ( i = 1, 2, .., (1 + 𝑝 + 𝑛_𝑠𝑜𝑛) ; j = 1, 2, .., e ve 𝑋_𝑖,𝑗∈ 𝑅 ) Buna göre;

 Meta-sınıflandırıcı (Bagging algoritması temel sınıflandırıcı olarak SVM+RBF Kernel) OGe eğitim setine uygulanır. Geliştirilen bu model ile ikili sınıflandırma problemlerinde eğitim seti 10-kat çapraz doğrulama metodu ile test edilebilirken, bağımsız test setleri için de sınıf belirlemede etkili bir modeldir.

Çalışmada sınıflandırıcı topluluk tasarımı için önerilen modelde dengesiz veri setine ait çoğunluk, azınlık grubu ve özniteliklerin sayısal analizinin modelin her aşamasında yapılabilmesi amacıyla herbiri birer matris olarak ifade edilmiştir böylelikle her aşama sonrasında çoğunluk, azınlık grubu ve öznitelik matrisinin boyutsal olarak değişimi kolayca

takip edilebilmektedir. Geliştirilen bu modelle veri setindeki her bir durum için hedef

sınıfın (onaylanmış/geri çekilen durumu) doğru bir şekilde tahmin edilmesi hedeflenir. Deneylerde kullanılan ilaç veri setinin ve bağımsız test setinin özellikleri Çizelge 6.4’te verilmiştir. Veri setindeki toplam örnek sayısı, # Örnekler; Çoğunluk sınıfındaki örnek sayısı, # Çoğunluk; Azınlık sınıfındaki örnek sayısı, # Azınlık; Dengesizlik oranı, # DO ile gösterilmektedir. Tek yıldızla işaretlenen veri seti (eğitim seti) SMOTE algoritması uygulandıktan sonra çoğunluk ve azınlık grubu sayısını, çift yıldızla işaretlenen veri seti (eğitim seti) SpreadSubsample algoritması uygulandıktan sonra çoğunluk ve azınlık grubu sayısını temsil etmektedir. Çizelge 6.4’e göre başlangıçta dengesiz ilaç veri seti 1170 ilaç içermektedir. Veri seti için etkin öznitelikler belirlendikten sonra veri setine SMOTE algoritması uygulanarak

113

veri setinin dengelenmesi sağlanmıştır. Bu aşamadan sonra eğitim setimiz 2070 ilaç ve 760 öznitelik içermektedir. Veri seti dengelendikten sonra 1 nolu aşamada belirlenen etkin öznitelikler (FAW/128) veri setinden seçilerek içerisinde sadece etkin öznitelikleri içeren dengeli veri seti elde edilmiştir bu durumda veri setinde 2070 ilaç ve 128 öznitelik yer almaktadır. Elde edilen bu sayıca dengeli eğitim seti AWD1, meta-sınıflandırıcı olarak Bagging algoritması ile temel sınıflandırıcı olarak SVM+RBF Kernel metot kullanılarak 10-kat çapraz doğrulama metodu ve bağımsız test seti de AWD3 kullanılarak test edilmiş ve her iki durum içinde sınıflandırma performansları sonuç kısmında verilmiştir. Buna ek olarak yine dengesiz ilaç veri seti üzerinde (1170 ilaç) farklı bir model geliştirmek amacıyla veri setine SpreadSubsample algoritması uygulanmış ve AWD2 eğitim seti elde edilmiştir. AWD2 veri seti bu durumda 300 ilaç ve 760 öznitelik içermektedir. Sonrasında sadece 1 nolu aşamada seçilen etkin öznitelikler (FAW/128) veri setinde kalacak şekilde AWD2 eğitim seti elde edilir bu durumda AWD2, 300 ilaç ve 128 öznitelik içermektedir. Sonuç olarak dengesiz ilaç veri seti için belirlenen etkin öznitelikler hem AWD1 hemde AWD2 ile elde edilen modellerde kullanılmış ve modellerin performansları hem eğitim hem test seti üzerinde karşılaştırılmıştır. Önerilen modelin dengesiz veri setlerinde ikili sınıflandırma problemleri çalışılırken, eğitim seti 10-kat çapraz doğrulama metodu ile test edildiğinde ve bağımsız test setleri için de sınıf belirlemede etkili bir model olduğu gözlemlenmiştir. Çalışmada ayrıca onaylanmış ve geri çekilen ilaçlardan oluşan dengesiz bir veri setinin önerilen sınıflandırıcı topluluk tasarımı modeli ile sınıflandırılması sonuçları ve aynı veri seti üzerinde diğer öznitelik seçme algoritmaları ve meta-sınıflandırıcıları kullanılarak elde edilen sonuçların eğitim seti ve bağımsız test seti için doğruluk oranı (AR), eğri altındaki alan (AUC), pozitif öngörme değeri (PPV), negatif öngörme değeri (NPV), duyarlılık (SE), özgüllük (SP) değerleride hesaplanarak karşılaştırılmış ve sonuçlar kısmında verilmiştir. Şekil 6.3’te ilaç adayı kimyasal molekülleri onaylanmış ve geri çekilen

sınıflarına ayırmada kullanılacak olan modelin geliştirilme aşamaları

114

Çizelge 6.4: Deneylerde kullanılan ilaç veri setlerinin ve bağımsız test setinin özellikleri. Veri seti # Örnekler # Çoğunluk # Azınlık # DO (Eğitim seti) (onaylanmış ilaçlar) (geriçekilen ilaçlar)

İlaç veri seti 1170 1020 150 6.8

* Veri seti # Örnekler #Onaylanmış ilaçlar # Geri çekilen ilaçlar # DO

(Eğitim seti)

AWD1 2070 1020 1050 Dengeli

**Veri seti # Örnekler #Onaylanmış ilaçlar # Geri çekilen ilaçlar # DO

(Eğitim seti)

AWD2 300 150 150 Dengeli

Veri seti # Örnekler #Onaylanmış ilaçlar # Geri çekilen ilaçlar (Test seti)

AWD3 50 30 20

Veri setindeki toplam örnek sayısı, # Örnekler; Çoğunluk sınıfındaki örnek sayısı, # Çoğunluk; Azınlık sınıfındaki örnek sayısı, # Azınlık; Dengesizlik oranı, # DO. *Veri setine (eğitim seti) SMOTE algoritması uygulandıktan sonra çoğunluk ve azınlık grubu sayısı.**Veri setine (eğitim seti) SpreadSubsample algoritması uygulandıktan sonra çoğunluk ve azınlık grubu sayısı.

Şekil 6.3: İlaç adayı kimyasal molekülleri onaylanmış ve geri çekilen sınıflarına ayırmada kullanılacak olan modelin geliştirilme aşamaları.

115

SMOTE algoritması 1020 onaylanmış ve 150 geri çekilen eğitim setine uygulandı. Meta-sınıflandırıcı ise 2070 ilaç ve 128 etkin öznielik içeren (FAW) eğitim setine uygulandı.

Çalışmada geliştirilen etkin öznitelik seçme stratejisi ilaç veri setinden farklı olarak PubChem biyoassay veri setinden biri olan AID 1284’de uygulanmıştır. Veri seti UCI makine öğrenme ambarında (machine learning repository) bulunmaktadır (Schierz, 2009). PubChem biyoassay veri setlerinin özelliği dengesiz veri setleri içermesidir. Veri setleri ilaç benzeri küçük moleküllere (bileşikler) ilişkin öznitelikler içermektedir ve bu öznitelikler (ilaç benzeri özellikler) kullanılarak bir bileşiğin sınıflandırma sonrasında aktif veya aktif olmadığına karar verilir. Tezde geliştirilen etkin öznitelik seçme stratejisi veri setine uygulanmış sonrasında aynı veri seti üzerinde diğer öznitelik seçme algoritmaları ve meta-sınıflandırıcıları kullanılarak elde edilen sonuçların eğitim seti ve bağımsız test seti için doğruluk oranı (AR), eğri altındaki alan (AUC), pozitif öngörme değeri (PPV), negatif öngörme değeri (NPV), duyarlılık (SE), özgüllük (SP) değerleride hesaplanarak karşılaştırılmış ve sonuçlar kısmında verilmiştir. Çizelge 6.5’te AID 1284 veri setine ilişkin özellikler yer almaktadır. Başlangıçta veri seti 286 veri içermektedir. Tek

yıldızlı veri seti AID 1284_E, dengesiz veri setine (AID 1284) SMOTE algoritması

uygulandıktan sonra elde edilen dengeli eğitim setini temsil etmektedir. AID 1284_T ise bağımsız test setini göstermektedir. Yapılan deneylere ilişkin veriler sonuçlar kısmında yer almaktadır. Çalışma MATLAB yazılım paketi (MATLAB & SIMULINK, R2015a) ve Weka veri madenciliği uygulaması ile gerçekleştirildi (weka.version 3.7.13, package manager).

Veri seti aktif ve aktif olmayan bileşikler (ilaç benzeri küçük moleküller) ile bunlara ait özellikleri içermektedir. Aşağıda bu bileşiklere ait veri setleri ve bağımsız test setine ait özellikler yer almaktadır.

116

Çizelge 6.5: PubChem biyolojik analizler (biyo-deney) veri setinin (AID1284) özellikleri. Veri seti UCI Machine Learning Repository’den tezde önerilen öznitelik seçme stratejisinin veri seti üzerindeki performansının diğer yöntemlerle karşılaştırılması amacıyla alındı. Veri seti # Örnekler # Çoğunluk # Azınlık # DO (aktif olmayan bileşikler) (aktif olan bileşikler)

AID 1284 286 240 46 5.2

* Veri seti # Örnekler #Aktif olmayan bileşikler # Aktif bileşikler # DO

AID 1284_E 470 240 230 Dengeli

Veri seti # Örnekler #Aktif olmayan bileşikler # Aktif bileşikler (Test seti)

AID 1284_T 72 61 11

6.3 Sonuçlar

Belgede Veri madenciliği teknikleri kullanarak bir ilaç sınıflandırma çatısı gerçekleştirimi (sayfa 133-140)