Lenfoma ameliyat verilerini kullanarak k-means, hiyerarşik ve EM algoritmalarının performanslarının karşılaştırılması

(1)

T.C.

DÜZCE ÜNİVERSİTESİ

FEN BİLİMLERİ ENSTİTÜSÜ

LENFOMA AMELİYAT VERİLERİNİ KULLANARAK

K-MEANS, HİYERARŞİK VE EM ALGORİTMALARININ

PERFORMANSLARININ KARŞILAŞTIRILMASI

ÖZGE AKSAKALLİ

YÜKSEK LİSANS TEZİ

ELEKTRİK- ELEKTRONİK ve BİLGİSAYAR MÜHENDİSLİĞİ

(DİSİPLİNLERARASI) ANABİLİM DALI

DANIŞMAN

(2)

T.C.

DÜZCE ÜNİVERSİTESİ

FEN BİLİMLERİ ENSTİTÜSÜ

LENFOMA AMELİYAT VERİLERİNİ KULLANARAK

K-MEANS, HİYERARŞİK VE EM ALGORİTMALARININ

PERFORMANSLARININ KARŞILAŞTIRILMASI

Özge AKSAKALLİ tarafından hazırlanan tez çalışması aşağıdaki jüri tarafından Düzce Üniversitesi Fen Bilimleri Enstitüsü Elektrik-Elektronik ve Bilgisayar Mühendisliği Anabilim Dalı’nda YÜKSEK LİSANS TEZİ olarak kabul edilmiştir.

Tez Danışmanı Dr.Öğr.Üyesi.Sinan TOKLU Düzce Üniversitesi Jüri Üyeleri Dr.Öğr.Üyesi.Sinan TOKLU Düzce Üniversitesi _____________________

Dr.Öğr.Üyesi.Abdullah Talha KABAKUŞ

Düzce Üniversitesi _____________________

Dr.Öğr.Üyesi.İbrahim Alper Doğru

Gazi Üniversitesi _____________________

(3)

BEYAN

Bu tez çalışmasının kendi çalışmam olduğunu, tezin planlanmasından yazımına kadar bütün aşamalarda etik dışı davranışımın olmadığını, bu tezdeki bütün bilgileri akademik ve etik kurallar içinde elde ettiğimi, bu tez çalışmasıyla elde edilmeyen bütün bilgi ve yorumlara kaynak gösterdiğimi ve bu kaynakları da kaynaklar listesine aldığımı, yine bu tezin çalışılması ve yazımı sırasında patent ve telif haklarını ihlal edici bir davranışımın olmadığını beyan ederim.

12 Temmuz 2019

(4)

TEŞEKKÜR

Eğitim ve öğretimim boyunca göstermiş olduğu her türlü yardım ve desteğinden dolayı çok değerli tez hocam Dr.Öğr.Üyesi Sinan TOKLU’ya en samimi dileklerim ve saygılarımla teşekkür ederim.

Tez çalışmam boyunca değerli katkılarını esirgemeyen ve tez konuma karar vermeme vesile olan, her türlü fedakarlığı ve özveriyi gösteren,her konuda bana güvenen ve yüreklendiren canım ablam Özlem AKSAKALLI’ya ,yoğun çalışmalarım sırasında bütün sabrıyla varlığını hissettiren biricik annem ÜLKİYE AKSAKALLI’ya saygı ve sevgilerimi sunarım.

Bu araştırmam boyunca bütün desteğini ve yanımda olduklarını hissettiğim sevgili aileme ve çalışma arkadaşlarıma sonsuz teşekkürlerimi sunarım.

(5)

İÇİNDEKİLER

Sayfa No

ŞEKİL LİSTESİ ... vii

ÇİZELGE LİSTESİ ... viii

KISALTMALAR ... ix

ÖZET ... x

ABSTRACT ... xi

1. GİRİŞ ... 1

1.1. LENF KANSERİNİN BELİRTİLERİ ... 4

1.2. LENF KANSERİNİN TEDAVİSİ ... 5

2. MATERYAL VE YÖNTEM... 7

2.1. K-MEANS ALGORİTMASI ... 7

2.2. HİYERARŞİK KÜMELEME ALGORİTMASI ... 8

2.2.1. Yığınsal Hiyerarşik Kümeleme... 9

2.2.1.1. Tek Bağlantı Yöntemi (TEKBKY, SINGLE Linkage, Nearest Neighbor Method) ... 9

2.2.1.2. Tam Bağlantı Yöntemi (TAMBKY, COMPLETE Linkage Method) ...10

2.2.1.3. Ortalama Bağlantı Yöntemi (ORTBKY, AVERAGE Linkage Method) ...10

2.2.1.4. Küresel Ortalama Bağlantı Yöntemi (KOBKY CENTROID Linkage Method) ...10

2.2.1.5. Ward Bağlantı Bağlantı Kümeleme Yöntemi (WBKY, WARD Linkage Method) ...10

2.2.2. Ayrıştırıcı Hiyerarşik Kümeleme ... 10

2.3. EM (EXPECTATION-MAXIMIZATION) ALGORİTMASI ... 10 2.4. WEKA ... 12 3. BULGULAR VE TARTIŞMA ... 15 4. SONUÇLAR VE ÖNERİLER ... 34 5. KAYNAKLAR ... 35 ÖZGEÇMİŞ ... 37

(6)

ŞEKİL LİSTESİ

Sayfa No

Şekil 1.1. Lenfatik sistem ve lenf dolaşımı ... 2

Şekil 1.2. Reed-Sternberg hücresi. ... 3

Şekil 1.3. Boyunda görülen lenf kanserinin belirtileri. ... 4

Şekil 2.1. Hiyerarşik kümeleme yöntemleri. ... 8

Şekil 2.2. Birleştirici ve ayrıştırıcı hiyerarşik kümeleme yöntemleri (Agglomerative and divisive hierarchical clustering methods) [12] ... 9

Şekil 2.3. Beklenti Maksimizasyonu Algoritmasının Akış Diyagramı ... 11

Şekil 2.4. WEKA’da Uygulama Menüsü ... 13

Şekil 2.5. WEKA’da veri dosyası seçimi ... 14

Şekil 3.1. Excel’e aktarılan veriler ... 15

Şekil 3.2. CSV formatlı dosya ... 16

Şekil 3.3. Formatı değiştirilen veriler ... 17

Şekil 3.4. WEKA' da veriler ... 18

Şekil 3.5. Normalize edilmeden uygulanan K-means ... 19

Şekil 3.6. Normalize edilmeyen veri sınıfı ... 20

Şekil 3.7. Normalize edilen veri sınıfı ... 21

Şekil 3.8. Normalize edildikten sonra uygulanan K-Means kümeleme algoritması ... 22

Şekil 3.9. Normalize edildikten sonra uygulanan hiyerarşik kümeleme algoritması ... 23

Şekil 3.10. Normalize edildikten sonra uygulanan EM algoritması ... 24

Şekil 3.11. Eklenen hasta ile uygulanan K-Means Kümeleme Algoritması ... 25

Şekil 3.12. Eklenen hasta ile uygulanan Hiyerarşik Kümeleme Algoritması ... 26

Şekil 3.13. Eklenen hasta ile uygulanan EM Kümeleme Algoritması ... 27

Şekil 3.14. Yeni hasta eklemeden önce kümeler ... 29

Şekil 3.15. Yeni hasta eklemeden önce algoritmaların kümeleme süresi ... 30

Şekil 3.16. Yeni hasta eklendikten sonra kümeler ... 32

(7)

ÇİZELGE LİSTESİ

Sayfa No

Çizelge 3.1. Sayısal veriye dönüştürülen string veriler ... 17

Çizelge 3.2. Yeni eklenen hastaya ait veriler ... 24

Çizelge 3.3. Yeni hasta eklenmeden önce sonuçlar ... 28

(8)

KISALTMALAR

ARFF Attribute Relationship File Format CSV Comma Separated Values

EM Expectation-Maximization HL Hodgkin Lenfoma

JDBC Java Database Connectivity NHL Non Hodgkin Lenfoma

(9)

ÖZET

LENFOMA AMELİYAT VERİLERİNİ KULLANARAK K-MEANS,

HİYERARŞİK VE EM ALGORİTMALARININ

PERFORMANSLARININ KARŞILAŞTIRILMASI

Özge AKSAKALLİ Düzce Üniversitesi

Fen Bilimleri Enstitüsü,Elektrik-Elektronik ve Bilgisayar Mühendisliği Anabilim Dalı Yüksek Lisans Tezi

Danışman: Dr. Öğr. Üyesi Sinan TOKLU Temmuz 2019, 36 sayfa

Bu çalışmada lenf kanseri verileri incelenerek ve lenf kanseri verileri kümelenerek, en optimize algoritmanın seçilmesi hedeflenmiştir. Belirli parametreler kullanılarak lenf kanseri verileri K-Means, Hiyerarşik ve EM algoritmaları ile kümelenerek, yeni eklenecek veriler için hazırlık yapılmıştır. Giriş bölümünde lenfomaya ait genel bilgiler verilmiş ve vücudun en çok hangi bölge veya organlarında karşılaşıldığı gösterilmiştir. Daha sonra lenf kanserinin tedavileri ve belirtilerinden bahsedilmiştir. Ardından çalışmada kullanılan kümeleme algoritmaları açıklanmış ve çalışma yönteminde bahsedilmiştir. Bu yöntemler için WEKA programı kullanılmıştır. Kümeleme işlemine başlamadan önce nominal olan veriler numerik hale getirilmiştir. Kümeleme işlemine başlamadan önce verilere normalize işlemi uygulanarak, 4 farklı küme belirlenmiştir. Sonuç bölümünde algoritmalar ile elde edilen bulgulardan anlatılmış ve bütün işlemler görsellerle sunulmuştur. Kümeleme işlemi tamamlandıktan sonra parametrelere uygun rastgele değerler verilerek sistemin doğruluğu test edilmiştir. K-Means, Hiyerarşik ve EM kümeleme algoritmaları uygulandıktan sonra ortaya çıkan sonuçlar ile kümeleme algoritmaları doğruluk ve hız bakımından karşılaştırılmıştır.

(10)

ABSTRACT

COMPARISON OF K-MEANS , HIERARCHICAL AND EM ALGORITHMS USING LYMPHOMA SURGERY DATA

Özge AKSAKALLİ Düzce University

Science Institue, Department of Computer and Electrical- Electronic Engineering Master’s Thesis

Supervisor: Assist. Prof. Dr. Sinan TOKLU July 2019, 36 pages

In this study, it is aimed to select the most optimized algorithm by examining the lymph cancer data and clustering the lymph cancer data. Using certain parameters, lymph cancer data was clustered with K-Means, Hierarchical and EM algorithms and preparation was made for new data. In the introduction section, general information about lymphoma is given and in which region or organs of the body are the most encountered. Then, treatment and symptoms of lymph cancer are mentioned. Then, the clustering algorithms used in the study, are explained and mentioned in the study method. WEKA program was used for these methods. Before starting the clustering process, the nominal data were digitized and specific clusters were assigned for the key features of lymph cancer. Before the clustering process, normalization was applied to the data and 4 different clusters were determined. In the conclusion section, the results obtained by the algorithms are explained and all the operations are presented with visuals. After the clustering process was completed, the system was tested for accuracy by giving random values appropriate to the parameters. The results obtained after applying K-Means, Hierarchical and EM clustering algorithms were compared with the accuracy and speed of clustering algorithms.

(11)

1. GİRİŞ

Günümüzde kadın ve erkekleri eşit derece etkileyen lenf kanseri, yaş ilerledikçe toplumda etkisini daha çok gösteren bir hastalık türüdür. Vücudumuzun enfeksiyonlarla ve hastalıklarla savaşmasına yardımcı olan sisteme bağışıklık sistemi denmektedir ve lenf sistemi bu bağışıklık sisteminin bir parçasıdır. Lenfosit adı verilen bir çeşit beyaz kan hücrelerinden meydana gelmektedir. İki çeşit kan beyaz kan hücresi bulunmaktadır;

• B Hücreleri (B Lenfositleri): Antikor proteinlerini üreterek vücudun bakteri, virüs gibi yabancı bileşenlere karşı korunmasında yardımcı olmaktadırlar.

• T Hücreleri (T Lenfositleri): T hücrelerinden bazıları, virüsleri, vücuttaki anormal hücreleri ve bakterileri yok ederken, diğer T hücreleri, bağışıklık sisteminde bulunan diğer hücrelerin eylemlerini kontrol ve takip etmektedir.

Lenf dokuları vücudumuzun lenf bezleri, dalak, kemik iliği, timüs bezi, adenoid ve bademcik ve sindirim sistemi olmak üzere 6 farklı bölgesinde bulunmaktadır. Bulundukları bölgeler ve açıklamaları aşağıda detaylı bir şekilde verilmiştir ve Şekil 1.1 de gösterilmiştir [24] .

• Lenf bezleri: Fasulye büyüklüğündeki bezlerdir. Lenfositler ve diğer bağışıklık sistemi hücreleri tarafından meydana gelmişlerdir. Daha çok göğüs, karın ve alt karının iç kısmında bulunmaktadırlar. Bezler arasındaki iletişim lenfatik damarlar aracılığıyla yapılmaktadır.

• Dalak: Alt kaburga kemiklerinin altında sol tarafta bulunmaktadır. Görevi dalak lenfositlerini ve bağışıklık sistemi hücrelerini üretmektir. Ayrıca, hasarlı kan hücrelerini, bakterileri ve hücre atıklarını temizlemekten de sorumludur

• Kemik iliği: Bazı kemiklerin içinde bulunmaktadır. Yeni kan hücrelerinin oluşturulmasından sorumludur.

• Timüs bezi: Timüs bezi, kalbin önünde ve göğüs kemiğinin üst kısmında bulunan bir organdır. T hücreleri burada gelişmektedir.

(12)

• Bademcik ve adenoidler: Boğazın arkasında bulunmaktadırlar. Nefes alıp-verme ve yutma ile vücuda giren bakteri ya da virüslere karşı antikor üreterek vücudun bağışıklık sistemine yardımcı olmaktadırlar.

• Sindirim sistemi: Mide ve bağırsakta bulunan lenf dokularını içerir.

Şekil 1.1. Lenfatik sistem ve lenf dolaşımı.

Lenfositlerin neden olduğu kanser tipine lenf kanseri denmektedir. Kanserli olan hücrelerin normal hücrelere göre daha uzun yaşamaları ya da onlardan daha hızlı çoğalmaları durumunda görülmektedir. Lenf kanserinin iki önemli çeşidi bulunmaktadır. Bunlar Hodgkin Lenfoma (HL) ve Non Hodgkin Lenfoma (NHL) dır [1].

HL, bağışıklık sisteminin bir parçası olan lenfositlerden kaynaklanan ve lenf dokusunda görülen bir kanser türüdür. Adını hastalığı ilk kez tarif eden Thomas Hodgkin’den almıştır.

(13)

Hemen hemen her yaşta görünmektedir. Ancak daha çok erişkin kişilerde gözlemlenmektedir. Ülkemizde ortaya çıkma sıklığı hakkında tam bilgi olmamasına rağmen, Avrupa’da her 100.000 kişinin içinde 2-3 kişide bu tür lenf kanseri görülmektedir. Lenf dokusunun olduğu her hücrede görülmektedir. Ancak, en çok göğüs ve diyaframdaki tek ya da lenf bezi gruplarında görülmektedir. Reed-Sternberg adı verilen anormal hücreler bu hastalığa neden olmaktadır ve Şekil 1.2‘de bu hücreye ait bir görsel verilmiştir [2].

Şekil 1.2. Reed-Sternberg hücresi.

Reed-Sternberg hücresini kendi kopyalarını meydana getirmek için bölünerek çoğalma gerçekleştirmektedir. Yeni hücreler sürekli bölünerek hastalıklı hücrelerin çoğalmasına ve normal hücrelerde fazla olmasına neden olmaktadırlar. Anormal hücrelerin fazla olmasından dolayı, vücut enfeksiyonlardan ve diğer hastalıklardan korunamaz duruma gelir ve bağışıklık sistemi zayıflar. Zararlı hücrelerin çoğalmasıyla da ur ya da tümör adı verilen bir kitle oluşmaktadır [24].

NHL de ise, lenf sisteminde bulunan hücreler, çok hızlı bölünme, düzensiz ve denetimsiz bir şekilde büyüme gibi anormal özellikler kazanmaktadır. Aynı, HL’de olduğu gibi vücudun çoğu bölgesinde görülebilmekte ve daha çok kemik iliği ile dalakta ortaya çıkmaktadır. Bu kanser türünde, hücre bir lenf kümesinden diğer lenf kümesine doğru düzenli bir yayılım hareketi göstermektedir. Örneğin, boyundaki lenflerde ortaya çıkan NHL, önce köprücük kemiğinden ve daha sonra göğüsten kol altında bulunan lenflere doğru yayılabilir. Bu yayılım bazen tüm vücudu kaplamaktadır.

(14)

NHL, HL’ye göre daha fazla oranda lenf dışı metastaz yapma eğilimindedir. Hastalığın seyri uygulanan tedaviye, hastalığın evresine ve histolojik tipine göre değişiklik göstermektedir [3].

1.1. LENF KANSERİNİN BELİRTİLERİ

İlk olarak hasta boynunda çıkan ağrısız bir şişliği fark etmektedir. HL’de bu şişlik özellikle sol tarafta köprücük kemiğinin hemen üzerinde bulunmaktadır. Diğer bir belirti ise, koltuk altı ve kasıkta bulunan lenf düğümü bölgelerindeki büyümelerde olabilmektedir. Ayrıca, bu büyüme bazı durumlarda göğüs kafesinde veya karın boşluğunda da gözlemlenmektedir. Kitleler büyük olduğunda, kişilerde nefes darlığı, yüzde ve boyunda şişme, karında şişme ve ağrı vb. şikayetler çoğalmaktadır. Fiziksel muayene aşamasında, karaciğer veya dalakta bir büyüme lenf kanserinin bir habercisi olabilmektedir. Hastalık sadece lenf olan bölgelerde değil aynı zamanda lenf düğümü dışındaki dokularda da görülebilmektedir. Lenf düğümü dışında hastalığın en çok görüldüğü bölgeler akciğer, karaciğer ve kemik iliğidir. Şekil 1.3‘te boyunda görülen lenf kanserinin belirtileri gösterilmiştir [4].

(15)

Hastalığın lenf düğümü dışında ortaya çıkmasına ekstranodal hastalık denmektedir. Başlangıç aşamasında vakaların %5-10 arasında ekstranodal hastalık görülmektedir. Bu tarz durumda, hastaların çoğunda ateş, gece terlemesi ve kilo kaybı görülmektedir [24].

1.2. LENF KANSERİNİN TEDAVİSİ

Lenfoma, ilaçlarla ve ilik nakliyle tedavi edilebilen bir hastalıktır ve bazı lenfoma türlerinde %90’ların üzerine kadar çıkabilen başarılı sonuçlar görülmektedir. Tedavinin yanıt vermemesi durumunda ise, akıllı ilaçlar kullanılmakta (yalnızca kanser hücresini etkileyen ilaçlar) ve kök hücre nakli yapılmaktadır.

Tedavi öncelikle lenfoma tanısı ile başlamaktadır. Bu anlamda tanının konulabilmesi için hastalara biyopsi yapılır ve hücreler mikroskop yardımıyla incelenir ve analiz edilir. Ancak bu yöntemle sadece lenfoma tanısı konulabilir, lenfomanın ne tür bir lenfoma olacağı bilinemez. Bunun için özel boyama teknikleri ve özel testler uygulanmaktadır. Lenfoma hücrelerinin vücuda yayılıp yayılmayacağına yönelik araştırmalar da yapılmaktadır. Bunun için en çok kullanılan yöntem PET-CT (pozitron emisyon tomografisi) dir [5].

Lenfoma 4 evreden oluşmaktadır. Evre 1 ve 2 iki erken, 3 ve 4 ileri olarak adlandırılmaktadır. Bu evreler aracılığıyla hastanın hangi tedaviye ne ölçüde yanıt vereceği skorlama tekniği kullanılarak belirlenmektedir. Hastanın yaşı, kandaki LHD düzeyi, hastalığın evresi, lenf nodu ya da dışında olması gibi durumlar bir araya getirilir ve puanlama yapılmaktadır. Eğer puanlama sonucu yüksek ise, kişiye standart lenfoma tedavileri uygulanmaz. Lenf kanserinin tedavisinde en etkili seçenek kemik iliği naklidir [5].

Bu tezin amacı, lenfoma tedavisi sonrasında toplanan verilerin K-Means, Hiyerarşik ve EM algoritmalarıyla analiz edilerek etkinlik ve başarımının belirlenmesidir. Tez boyunca değerlendirilen veri tabanında 21 kişiye ait veriler kullanılmıştır. Veri tabanında her hastanın yaşı, cinsiyeti, evresi, tedavi süresi, kullanılan ilaçların isimleri, radyoterapi değerleri ve lenfoma teşhisleri bulunmaktadır. Bu çalışma ile yeni gelen bir hastanın hangi kategoride olacağının (ameliyat gerekli mi değil mi, radyoterapi gerekli mi değil mi, vb.) belirlenmesi hedeflenmiştir. Aynı zamanda sonuca ulaşırken, K-Means,

(16)

Hiyerarşik ve EM algoritmaları karşılaştırılmıştır. Yeni gelecek hastaların tedavisinin doğru yapılabilmesi için bu veri tabanı tez süresince analiz edilmiştir.

Özellikle tıp alanında K-Means, Hiyerarşik ve EM algoritmalarını kullanarak yapılan çok fazla sayıda çalışma bulunmaktadır. Bunlardan bazıları şunlardır: İlaçların olumsuz etkileri konusunda risk faktörleri için yapılan bir çalışmada, birçok ilaç K-Means algoritması kullanılarak sınıflandırılmıştır [6]. Diş hekimliğinde ameliyat sonrası akut ağrıların analizi yapılan araştırmada, akut ağrı çeken hasta gruplarının özellikleri araştırılırken K-Means algoritmasından faydalanılmıştır [7]. Psikiyatri alanındaki bir araştırmada, antisosyal kişilik bozukluğu gösteren adli suçluların bilgileri araştırılırken Means algoritmasından yararlanılmıştır [8]. Lenf kanseri ameliyat verileri üzerinde, K-means,Hiyerarşik ve EM kümeleme algoritmaları kullanılarak yapılan başka bir veri madenciliği çalışmasına literatür taramasında rastlanmamıştır.

Çin’deki imalat sektörününün 25 adedi Hiyerarşik kümeleme algoritması ile kümelenmiştir ve 4 kümede gruplandırılmasına karar verilmiştir [9].

Literatürde açık kaynak kodlu veri madenciliği programı olan WEKA ile yapılmış birçok çalışma bulunmaktadır. Meme kanseri hücrelerinin teşhis ve tahmini [10], göğüs kanserinin teşhis ve tahmini [11], Parkinson hastalığının teşhisi ve tahmini [12] gibi çalışmalar bulunmaktadır.

Tezin ikinci aşamasında kullanılan veri tabanına ait bilgiler verilmiştir. Veri tabanında hastaların yaşı, cinsiyeti, lenfoma evresi gibi veriler bulunmaktadır. Kümeleme işlemi için kullanılan algoritmalar olan K-Means, Hiyerarşik ve EM algoritmaları tanıtılmış ve gerekli denklemler bu kısımda verilmiştir. Üçüncü kısımda, elde edilen bulgular tablo halinde verilmiştir. Ayrıca her bir parametrenin algoritma üzerindeki etkisi değerlendirilmiş ve yeni gelebilecek olan bir verinin hangi değerlere göre değerlendirileceği gösterilmiştir. Son kısımda çalışmanın sonuçları ve gözlemlenen değerler üzerinde durulmuş ve belirtilmiştir. Ayrıca bu kısımda çalışmanın daha etkili olabilmesi için önerilerde bulunulmuştur.

(17)

2. MATERYAL VE YÖNTEM

Tez çalışmasında verilerin analizi için K-Means, Hiyerarşik ve EM kümeleme algoritmaları kullanılmıştır. Bu algoritmalar ile parametreler kümelenmiş ve değerlerin hangi kümelerde olduğu belirlenmiştir. Kümeleme ve algoritmaları karşılaştırma işlemi için WEKA programı kullanılmıştır.

2.1. K-MEANS ALGORİTMASI

Gözetimsiz öğrenme yöntemlerinden birisi olan K-Means en çok kullanılan kümeleme tekniklerinin başında gelmektedir [13]. Eğiticisiz öğrenme prensibine sahiptir [14]. K-Means adında geçen k parametresinden belli olduğu gibi giriş veri kümesini k adet merkezli kümelere ayıran bir algoritmadır [15]. K-Means algoritmasında veriler sadece bir kümeye ait olmalıdır. Bu algoritmanın ilk aşamasında n adet veri giriş parametresi olarak belirlenen k adet kümeye bölünür. Bunun yapılmasındaki amaç, bölünme sonrasında oluşan kümelerin, küme içindeki benzerliklerini maksimum yapmak ve kümeler arasındaki benzerlikleri ise minimum yapmaktır [16]. K-Means algoritması, rastgele seçilen K adet merkez noktayla başlamaktadır. Veri kümesinde bulunan her bir nokta, kendisine en yakın olan merkez noktanın bulunduğu kümeye atanmaktadır. Kümenin merkez değeri hesaplanırken kendi içerisinde bulunan noktaların ortalaması alınarak belirlenmektedir [17]. Bu işlem merkezin değeri değiştiğinde sona ermektedir. K-Means’e ait hesaplama adımları Denklem (2.1) ‘de verilmiştir [16].

Yukarıda belirtilen Denklem (2.1) ile kümelerin ortak noktaları bulunmaktadır. k değeri kümelerdeki nesnelerin sayısını ifade etmektedir. Küme içindeki değişimlerin belirlenebilmesi için karesel hata kullanılmaktadır. Denklem (2.2) ’de karesel hatanın formülü verilmiştir [16]. 𝑀_𝑘 = 1 𝑁_𝑘 ∑ 𝑥𝑖𝑘 𝑛𝑘 𝑖=1 (2.1)

(18)

Bütün kümelerdeki hataların toplamının belirlenmesi için tüm kümelerdeki karesel değerler toplanır ve Denklem (2.3) ’te hesaplaması verilmiştir [16].

Bütün bu hesaplamaların ardından her bir veri kendisine en yakın kümeye atanır. Ardından kümelerin merkezleri hesaplanır ve eğer kümelerin merkezlerinde bir değişlik olmamış ise, hata hesaplaması tekrar yapılır ve veriler tekrar en yakın kümelere aktarılır.

2.2. HİYERARŞİK KÜMELEME ALGORİTMASI

Şekil 2.1. Hiyerarşik kümeleme yöntemleri.

Hiyerarşik kümeleme yöntemleri, verileri ağaç yapısı şeklinde kümelemektedir [18]. Şekil 2.1‘te gösterilen hiyerarşik kümeleme algoritması bir kümeleme algoritması olup, yığınsal ve ayrıştırıcı hiyerarşik kümeleme olmak üzere iki tip akışı vardır [19]. Hiyerarşik kümeleme yöntemleri küme sayısını belirtmekte kullanılan “k” değerine gerek duymaz ama ağaç yapısının ne zaman duracağını belirten eşik değerine gerek duyar [20]. Hiyerarşik kümeleme yöntemleri iteratif yöntemlerdir. Bu işlemlerin en büyük 𝐸_𝑖2 = ∑(𝑥𝑖𝑘− 𝑀𝑘)2 𝑛𝑘 𝑖=1 (2.2) 𝑇𝐸_𝑘2∑ 𝐸_𝑘2 𝐾 𝑘=1 (2.3)

(19)

olumsuzluğu, bir adım gerçekleştirildikten sonra bir daha tekrar aynı adıma geri dönülememesidir. Bu yüzden yanlış kararları doğrulamaya izin vermemektedir [21]. Yığınsal ve ayrıştırıcı hiyerarşik kümeleme yöntemlerinin aşamalı olarak gösterimi Şekil 2.2‘ te yer almaktadır.

Şekil 2.2. Birleştirici ve ayrıştırıcı hiyerarşik kümeleme yöntemleri (Agglomerative and divisive hierarchical clustering methods) [22].

2.2.1. Yığınsal Hiyerarşik Kümeleme

Parçadan bütüne şeklinde işleyiş gösterir. Yani aşağıdan yukarıya doğru ilerlemektedir. Veri sayısı kadar küme oluşturulur. Daha sonra bu kümelerin birbirine yakınlığı hesaplanır. Birbirine en yakın kümeler birleştirilir ve yeni bir küme oluşturulur. Döngü bu şekilde kararlılığa kadar devam eder.

Yığınsal hiyerarşik kümelemede mesafe hesaplama ve dendrogram oluşturma da kullanılan birçok yöntem vardır. Bunlardan bazıları şunlardır:

2.2.1.1. Tek Bağlantı Yöntemi (TEKBKY, SINGLE Linkage, Nearest Neighbor Method) Seçilen küme elemanları arasındaki en kısa mesafeyi hesaplayarak kümeleri oluşturur [23]. Denklem (2.4) ’de hesaplama denklemi sunulmuştur.

(20)

2.2.1.2. Tam Bağlantı Yöntemi (TAMBKY, COMPLETE Linkage Method)

Seçilen küme elemanları arasındaki en uzak mesafeyi hesaplayarak kümeleri oluşturur [23]. Denklem (2.4) ’de hesaplama denklemi sunulmuştur.

2.2.1.3. Ortalama Bağlantı Yöntemi (ORTBKY, AVERAGE Linkage Method)

Tek bağlantı ve tam bağlantı tekniği ile paralel olarak, kümeler arasındaki ortalama uzaklığın en düşük değerini temel alır [23]. Bu teknik tek bağlantı ve tam bağlantı teknikleri arasında sonuçlar vermesi nedeniyle bir alternatif yöntem olarak önerilmektedir[24]. Denklem (2.4) ’de hesaplama denklemi sunulmuştur.

2.2.1.4. Küresel Ortalama Bağlantı Yöntemi (KOBKY CENTROID Linkage Method) Bir kümeyi oluşturan gözlemlerin ortalamalarını esas alır. Kümede sadece bir merkez varsa onun değeri merkez olarak kabul edilir [25].

2.2.1.5. Ward Bağlantı Bağlantı Kümeleme Yöntemi (WBKY, WARD Linkage Method) Minimum varyans yöntemi olarak da bilinen bu yaklaşım, bir kümenin ortasına düşen gözlemin, aynı kümenin içinde bulunan gözlemlerden ortalama uzaklığını ele alır ve toplam sapma karelerinden yararlanır. Yoğun olarak kullanılan hiyerarşik kümeleme yöntemidir [25].

2.2.2. Ayrıştırıcı Hiyerarşik Kümeleme

Yığınsal hiyerarşik kümelemenin tam tersi mantıkla çalışmaktadır. İlk olarak bir tane küme oluşturulur. Bu küme bütün elemanları içerir. Daha sonra kümeler bölünerek her eleman bir küme oluşturur.

2.3. EM (EXPECTATION-MAXIMIZATION) ALGORİTMASI

En sık kullanılan bir iterative iyileştirme algoritmasıdır. Aslında K-Means algoritmasının bir uzantısı olarak tanımlanabilir. EM algoritması eksik olan veya gizlenmiş olan veri

𝑑_𝑝𝑞 = 𝑚𝑎𝑥 (𝑑_𝑝𝑖, 𝑑_𝑞𝑗) (2.5) 𝑑_𝑝𝑞 = 1 𝑛_𝑝𝑛_𝑞∑ ∑ (𝑑𝑝𝑖, 𝑑𝑞𝑗) 𝑛𝑞 𝑗=1 𝑛𝑝 𝑖=1 (2.6)

(21)

problemlerini çözmek için kullanılan algoritmadır. Maksimum olasılık tahminlerini yapan tekrarlı algoritmadır. Her tekrar, Beklenti (E adımı) ve Maksimizasyon (M adımı) adı verilen iki adımdan oluşur.

Şekil 2.3. Beklenti maksimizasyonu algoritmasının akış diyagramı.

Şekil 2.3‘te gösterilen akış diyagramı Beklenti Maksimizasyonu algoritmasının akış diyagramını açık bir şekilde göstermektedir [26]. Beklenti adı verilen bir parametre ile başlanır. Yani veri setinde eksik veya kayıp (bilinmeyen) olan veri için en iyi olasılıklar tahmin edilir. Merkezler için maximization adı verilen iyileştirme yapılır. Bu adımda tahmin edilen veri yerine konularak, veri setinde maksimum olabilirlik parametresi hesaplanır. Böylece parametrelerin yeni kestirimleri elde edilmiş olur. Expectation (E adımı) için kullanılan hesaplama Denklem (2.7)‘de verilmiştir [27].

(22)

Maksimizasyon (M adımı) hesaplanırken ise Denklem (2.8)’de belirtilen formül kullanılmaktadır [27].

2.4. WEKA

WEKA [28], Waikato Environment for Knowledge Analysis kelimelerinin kısaltılmasıdır. WEKA, Java ile geliştirilmiş açık kaynak kodlu veri madenciliği işlemleri için kullanılan bir programdır. WEKA aşağıdaki özelliklere sahiptir [28] :

• Veritabanında bulunan ön-işleme ve analiz özelliklerinin ve verilerin doğruluklarının değerlendirilmesi.

• Örnek veri setlerinin sınıflara bölünerek sınıf özelliklerinin tanımlanabilmesi. • Sınıflandırma yapabilmek için gerekli olan özelliklerin çıkarılabilmesi.

• Öğrenme işlemi için kullanılacak niteliklerin bir alt veri seti olarak seçilebilmesi. • Seçilen veri seti için mümkün sapmaların araştırılması ve etkisinin nasıl

önlenebileceği.

• Örnek alt setin seçilmesi , örneğin makine öğrenme baz alınarak yapılan kayıtlar. • Öğrenme işlemi için sınıflandırma algoritması programı

• Seçilen algoritmanın performansını tahmin etmek için bir test yöntemine karar verilmesi

Sahip olduğu öğrenme algoritmalarının dışında birçok veri önişleme süzgeçlerini de içermekte ve bu alanda dört uygulamayı barındırmaktadır, bunlar [11]:

• Explorer • Experimenter • Knowledge Flow • Simple CLI 𝜃 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 ∫ 𝑞(𝑥) 𝑙𝑜𝑔 𝑝(𝑥, 𝑧; 𝜃)𝑑𝑥 𝑥 (2.8)

(23)

Şekil 2.4. WEKA’da uygulama karşılama ekranı.

WEKA çalıştırıldıktan sonra ilk olarak, Şekil 2.4. WEKA’da uygulama ’te görülen uygulama giriş menüsü açılmaktadır. Menüde yer alan Explorer seçeneği, projeyi adım adım görsel ortamda hazırlama fırsatı sunmaktadır. SimpleCLI seçeneği, projeyi komut modunda hazılama olanağı sağlamaktadır. Menüde yer alan Explorer seçeneği seçildiğinde proje için kullanılacak verilerin seçilmesi, incelenmesi ve işlem yapılması imkanı elde edilmektedir.

(24)

Şekil 2.5. WEKA’da veri dosyası seçimi.

Şekil 2.5’de WEKA programında işlem yapmak istenilen, veri seti seçilebilmekte ve veri madenciliği işlemleri yapılabilmektedir. WEKA’da ARFF , CSV ve C4.5 formatındaki dosyalar seçilebilmektedir. Ayrıca JDBC aracılığıyla veritabanına bağlanarak , işlemler yapılabilmektedir. WEKA’nın içerisinde veri işleme, veri sınıflandırma, veri kümeleme, veri ilişkilendirme özellikleri mevcuttur [29].

(25)

3. BULGULAR VE TARTIŞMA

Veriler işlenmek üzere Excel ortamına aktarılmıştır. K-Means kümeleme algoritması kullanılırken küme karmaşıklığını önlemek için, içerisinde birçok değişik metinsel verisi bulunan iki sınıf veri setinden çıkarılmıştır. Çünkü K-Means kümeleme algoritması sadece sayısal veriler üzerinde çalışabildiğinden sayısal veriye dönüştürülemeyen metinsel veriler bu nedenden dolayı veri setinden çıkarılmıştır. Kalan veriler Excel’e aktarılmıştır. Excel’e aktarılan veriler CSV formatı ile kaydedilip not defteri aracında açılmıştır. Daha sonra not defteri aracında açılan veriler, WEKA programına uygun formata dönüştürülmüştür. Dönüştürülen veriler üzerinde K-Means algoritması uygulanabilmesi için metinsel veriler sayısal verilere dönüştürülmüştür. Dosya ARFF formatıyla kaydedilip WEKA programında açılmaktadır. WEKA’da açılan dosyada verilerin hepsi normalize edilip K-Means algoritması uygulanmıştır.

Şekil 3.1. Excel’e aktarılan veriler.

Şekil 1.1‘de Excel’e aktarılan veriler gösterilmektedir. Şekil 3.1’de yer alan gerçeğe yakın olabilecek şekilde sentetik (yapay) olarak oluşturulan veriler Excel’e tek tek

(26)

normalize edilerek aktarılmıştır. Şekil 3.1’de yer alan başlıklar veri tabanında bulunan değerlerin isimlendirmesini ifade etmektedir. Diagnosis, hastanın tedavi gördüğü hastalık türünü ifade etmektedir. Age, teşhis konulan hastanın yaş bilgisidir. Sex, hastanın cinsiyetidir. Anna arbor stage, hastalığın düzey bazında evrenme bilgisini içermektedir. Remission, hastalığın tedaviye olumlu yanıt vermesidir.

Recurrence, hastalığın iyileştikten sonra yeniden ortaya çıkma bilgisidir. Follow up, takip edilen hastanın tedavisinin kaçıncı ayında olduğu bilgisini göstermektedir. Status at Follow up, takipteki hastanın hastalık durum bilgisini belirtmektedir.Radiotherapy, hasta radyoterapi gördüyse Y, görmediyse N şeklinde belirtilmektedir. Surgery, hastanın cerrahi müdahaleye ihtiyacı olduğu bilgisini göstermektedir.

Şekil 3.2. CSV formatlı dosya.

Excel’e aktarılan veri seti Şekil 3.2‘teki gibi CSV formatı ile kaydedilip not defteri aracında açıldı. Şekil 3.2’de Excel’e aktarılan verilerin CSV uzantılı hali gösterilmektedir. CSV formatındaki dosyalarda veriler virgül ile ayrılarak tutulmaktadır.

(27)

Çizelge 3.1. Sayısal veriye dönüştürülen string veriler.

FL DLBLC SLL F M Y N U

2 3 1 1 0 1 0 3

NED DOD DOC/NED

1 0 2

Dosya ARFF formatına dönüştürülmek için düzeltildi. Düzeltilen metinsel veriler Çizelge 3.1’de gösterilmektedir. Çizelge 3.1’de yer alan verilere göre, Foliküler Lenfoma (FL) 2, Difüz Büyük B Hücreli Lenfoma (DLBLC) 3, Küçük Lenfositik Lenfoma (SLL) 1,Kadın 1,Erkek 0, Evet 1, Hayır 0, Belirsiz 3,Hastalık tamamen iyileşti (NED) 1,Hastanın ölümü (DOD) 0, Lenfoma bulgusu olmayan diğer hastalıkların iyileşmesi (DOC/NED) 2 olarak normalize edilmiştir.

Şekil 3.3. Formatı değiştirilen veriler.

(28)

@Relation data komutu eklenmiştir. Bu komut ARFF formatı için zorunlu bir komuttur. ARFF formatına dönüştürülecek Excel dosyasının sütun bilgileri çevrilmiştir. Bu sütun bilgileri @attribute tagı ile başlayarak, sütun ismi ile devam etmektedir. @attribute tagından sonra gelen kelime, değişkenimizin adını ifade etmektedir. Değişken adının yanına ise değişken tipi yazılmalıdır. Değişkenimizin değerleri sayısal veri tipte ise, numeric olarak tanımlanmalıdır. Eğer değişkenimiz metin tipinde ise parantezler içerisinde değerleri belirtilmelidir. Daha sonra @data tagı eklenerek, devamında verilerimiz değişkenlerin sırasına uygun olarak virgül ile ayrılarak belirtilmelidir. Dosya ARFF formatında kaydedilip WEKA programında açılmaktadır. Daha sonra bütün veriler WEKA’da normalize edilip K-Means, Hiyerarşik ve EM kümeleme algoritmaları sırasıyla uygulanmaktadır.

Şekil 3.4. WEKA’da verilerin önizlemesi.

Şekil 3.4’te ARFF formatına uyarlanarak WEKA ‘da çalıştırılması ile oluşan önizleme yer almaktadır. Veri setine ait kriterler, istatistiksel sonuçları gözlemlemek için parametre olarak kullanılmaktadır. Şekilde görüldüğü gibi veri tabanında bulunan bütün özellikler WEKA’da hesaplama yapılırken parametre olarak kullanılmaktadır.

(29)

WEKA programına atılan verilere ilk olarak K-Means algoritması uygulanarak, veriler arasındaki uzaklıkların oldukça yüksek olduğu gözlemlendi. Bu durumu düzeltmek için yine WEKA programında bütün veriler normalizasyon işlemine tabi tutulmaktadır.

Şekil 3.5. Normalize edilmeden uygulanan K-means.

Şekil 3.5’de görüldüğü gibi normalize edilmeden işleme sokulan veriler arasında yüksek sonuçlar bulunmaktadır. Bu durum yeni gelen verinin doğru kümeye yerleşemeyeceği durumlara neden olmaktadır. Verilerin hepsine normalizasyon işlemi uygulandıktan sonra, var olan verilere örnek bir veri eklenmekte ve dahil olduğu sınıf bulunmaktadır.

(30)

Şekil 3.6. Normalize edilmeyen veri sınıfı.

Hastanın takip edildiği gün sayısını tutan follow_up sınıfının normalize edilmeden önceki verileri Şekil 3.6’da görüldüğü gibidir. Veriler normalize edilerek 0-1 aralığında sayılara dönüştürülmüştür. Normalize edilen veriler böylece uzaklığın doğru hesaplanmasına yardımcı olacak ve yeni gelen verilerin doğru kümeye konulmasında etkili olacaktır. Şekil 3.7’de follow_up veri sınıfına normalizasyon işlemi uygulanmıştır. Görüldüğü gibi veriler 0-1 aralığındaki verilere dönüşmüştür.

(31)

Şekil 3.7. Normalize edilen veri sınıfı.

Verilerin hepsi aynı normalizasyon işlemine tabi tutulduktan sonra elde edilen verilere tekrar K-Means, Hiyerarşik ve EM algoritması uygulanmıştır. Küme sayısı olarak 4 belirlenmiştir. Normalize edildikten sonra uygulanan K-Means’te bütün veriler 0-1 aralığında olmuş olup Şekil 3.8’de gösterilmiştir. Hiyerarşik algoritması uygulandıktan sonra oluşan sonuçlar Şekil 3.9’da, EM algoritması sonuçları ise Şekil 3.10‘da gösterilmiştir.

(32)

Şekil 3.8. Normalize edildikten sonra uygulanan K-Means kümeleme algoritması.

Şekil 3.8‘de normalize edilen veri setine K-Means algoritması uygulandığında, 0. kümede elemanların %14’ü, 1. kümede elemanların %14’ü, 2. kümede elemanların %43’ü ve 3. kümede elemanların %29’ü yer aldığı görülmektedir.0. kümede 3, 1.kümede 3, 2. kümede 9 ve 3. kümede 6 hasta yer almaktadır. Kümeleme işleminin 0 saniyede tamamlandığı görülmektedir.

(33)

Şekil 3.9. Normalize edildikten sonra uygulanan hiyerarşik kümeleme algoritması. Şekil 3.9‘da normalize edilen veri setine Hiyerarşik Kümeleme Algoritması uygulandığında, 0. kümede elemanların %24’ü, 1. kümede elemanların %14’ü, 2. kümede elemanların %57’ü ve 3. kümede elemanların %5’ü yer aldığı görülmektedir. 0. kümede 5, 1. kümede 3, 2. kümede 12 ve 3. kümede 1 hasta yer almaktadır. Kümeleme işleminin 0.02 milisaniyede tamamlandığı görülmektedir.

(34)

Şekil 3.10. Normalize edildikten sonra uygulanan EM algoritması.

Şekil 3.10’da normalize edilen veri setine EM Algoritması uygulandığında, 0. kümede elemanların %19’ü, 1. kümede elemanların %14’ü, 2. kümede elemanların %57’ü ve 3.kümede elemanların %10’ü yer aldığı görülmektedir. 0. kümede 4, 1. kümede 3, 2. kümede 12 ve 3. kümede 2 hasta yer almaktadır. Kümeleme işleminin 0.03 milisaniyede tamamlandığı görülmektedir.

Kümeleri elde ettikten sonra bir hastanın verilerini veri tabanına ekleyip yeni eklenen hastanın verilerinin hangi kümeye ait olduğunu belirleyeceğiz. Hastaya ait veriler şu şekilde belirlensin: 3,45,0,1,1,2,40,0,0,1

Çizelge 3.2. Yeni eklenen hastaya ait veriler.

DLBLC 45 M 1 Y Y 40 DOD N Y Yeni hastanın verilerini yukarıda anlatıldığı şekilde, WEKA programına eklenip tekrardan K-Means, Hiyerarşik ve EM kümeleme algoritmaları uygulanmaktadır.

(35)

Şekil 3.11. Eklenen hasta ile uygulanan K-Means kümeleme algoritması.

Şekil 3.11‘de yeni eklenen hasta ile oluşan veri setine K-Means kümeleme algoritması uygulandığında, 0. kümede elemanların %18’ü, 1. kümede elemanların %23’ü, 2. kümede elemanların %14’ü ve 3. kümede elemanların %45’ü yer aldığı görülmektedir. 0. kümede 4, 1. kümede 5, 2. kümede 3 ve 3. kümede 10 hasta yer almaktadır. Kümeleme işleminin 0 milisaniyede tamamlandığı görülmektedir.

(36)

Şekil 3.12. Eklenen hasta ile uygulanan Hiyerarşik kümeleme algoritması.

Şekil 3.12‘de yeni eklenen hasta ile oluşan veri setine Hiyerarşik kümeleme algoritması uygulandığında, 0. kümede elemanların %23’ü, 1. kümede elemanların %18’ü, 2. kümede elemanların %55’ü ve 3. kümede elemanların %5’ü yer aldığı görülmektedir. 0. kümede 5, 1. kümede 4, 2. kümede 12 ve 3. kümede 1 hasta yer almaktadır. Kümeleme işleminin 0.01 milisaniyede tamamlandığı görülmektedir.

(37)

Şekil 3.13. Eklenen hasta ile uygulanan EM kümeleme algoritması.

Şekil 3.13‘de yeni eklenen hasta ile oluşan veri setine EM kümeleme algoritması uygulandığında, 0. kümede elemanların %55’ü, 1. kümede elemanların %18’ü, 2. kümede elemanların %23’ü ve 3. kümede elemanların %5’ü yer aldığı görülmektedir. 0. kümede 12, 1. kümede 4, 2. kümede 5 ve 3. kümede 1 hasta yer almaktadır. Kümeleme işleminin 0.03 milisaniyede tamamlandığı görülmektedir.

Eklenen hasta ile küme merkezleri tekrar hesaplanmış, verilerin birbirleri ile uzaklıkları tekrar hesaplanmış, K-Means, Hiyerarşik ve EM kümeleme algoritmaları uygulanmıştır. Sonuca göre gelen yeni hasta bütün algoritmalarda 3. kümede bulunmaktadır. Örnekleri çoğaltabilir, istenilen sayıda farklı hasta eklenebilir. Sonuçlar yeni gelen verilere göre değişecektir. Bunun nedeni eklenen her veride bütün adımların tekrar tekrarlanmasıdır. Yeni hasta eklenmeden önce ve yeni hasta eklendikten sonra oluşan veri setine K-Means, Hiyerarşik ve EM kümeleme algoritmaları uygulanmıştır. Algoritma çıktıları Çizelge 3.3 ve Çizelge 3.4’de gösterilmiştir.

(38)

Çizelge 3.3.Yeni hasta eklenmeden önce sonuçlar.

Algoritma Adı Model oluşturmak için geçen süre Küme Adı-Eleman Sayısı ve Toplam Oran Olabilirlik(Log-likelihood) Değerleri K-Means 0 saniye 0 3 ( 14%) 1 3 ( 14%) 2 9 ( 43%) 3 6 ( 29%) Hiyerarşik Kümeleme 0.02 saniye 0 5 ( 24%) 1 3 ( 14%) 2 12 ( 57%) 3 1 ( 5%) EM 0.03 saniye 0 4 ( 19%) 1 3 ( 14%) 2 12 ( 57%) 3 2 ( 10%) 2.29612

Çizelge 3.3, yeni kayıt eklenmeden önce uygulanan K-Means, Hiyerarşik ve EM kümeleme algoritmalarının sonuçlarını göstermektedir. Bu sonuçlara dayanarak, yeni kümeye hangi kümenin dahil olacağını göstermek mümkündür. Çizelge 3.4’te kümeleme işleminin tamamlanması için geçen süre, kümeleme sonrası oluşan kümelerin adı, kümeleme sonrası oluşan kümelerin eleman sayısı ve oranı açık bir şekilde belirtilmektedir. Kümeleme işlemleri genellikle saniyenin altında kaldığı için milisaniye türünde ifade edilmektedir.

(39)

Şekil 3.14.Yeni hasta eklemeden önce kümeler.

Şekil 3.14, yeni kayıt eklenmeden önce uygulanan algoritmaların kümeleme sonuçlarını grafiksel olarak göstermektedir. K-Means kümeleme algoritması mavi seri, Hiyerarşik kümeleme algoritması turuncu seri, EM algoritması gri serilerle gösterilmektedir. 1. kümede bütün algoritmalar ortak sonuç verirken, 2. kümede Hiyerarşik kümeleme ve EM algoritmaları aynı sonucu vermektedir. Burada amaç, algoritmaların aynı kümeler oluşturmasını beklemek değil, yeni eklenen elemanın doğru kümeye dahil olduğunu göstermektir. 0% 10% 20% 30% 40% 50% 60%

Küme 0 Küme 1 Küme 2 Küme 3

(40)

Şekil 3.15. Yeni hasta eklemeden önce algoritmaların kümeleme süresi.

Şekil 3.15‘de, yeni kaydın eklenmesinden önce uygulanan algoritmaların çalışma süreleri grafiksel olarak gösterilmiş ve performans için karşılaştırılmaktadır. K-Means kümeleme algoritması kümeleme işlemini 0 saniyede bitiriken, Hiyerarşik kümeleme algoritması 0.02 saniyede ve EM algoritması 0.03 saniyede bitirmektedir. Yeni hasta eklenmeden önce veri seti daha küçüktür. K-Means, Hiyerarşik ve EM algoritmaları uygulandığında en hızlı kümeleme işlemini K- Means algoritması yaparken,en yavaş kümelemeyi EM algoritmasının yaptığı görülmektedir.

Çizelge 3.4, yeni kayıt eklendikten sonra uygulanan K-Means, Hiyerarşik ve EM kümeleme algoritmalarının sonuçlarını göstermektedir. Çizelge 3.4’te görülebileceği gibi, yeni eklenen kayıt 3. kümeye dahil edilmektedir.

0 0.005 0.01 0.015 0.02 0.025 0.03 K-Means Hiyerarşik EM K-Means; 0 Hiyerarşik; 0.02 EM; 0.03 Zaman (S an iye ) K-Means Hiyerarşik EM

(41)

Çizelge 3.4. Yeni hasta eklendikten sonra sonuçlar.

Algoritma Adı Model oluşturmak için geçen süre Küme Adı-Eleman Sayısı ve Toplam Oran Olabilirlik(Log-likelihood) Değerleri K-Means 0 saniye 0 4 ( 18%) 1 5 ( 23%) 2 3 ( 14%) 3 10 ( 45%) Hiyerarşik Kümeleme 0.01 saniye 0 5 ( 23%) 1 4 ( 18%) 2 12 ( 55%) 3 1 ( 5%) EM 0.03 saniye 0 12 ( 55%) 1 4 ( 18%) 2 5 ( 23%) 3 1 ( 5%) 12.88485

Çizelge 3.4, yeni kayıt eklenmeden sonra uygulanan K-Means, Hiyerarşik ve EM kümeleme algoritmalarının sonuçlarını göstermektedir. Çizelge 3.4’de kümeleme işleminin tamamlanması için geçen süre, kümeleme sonrası oluşan kümelerin adı, kümeleme sonrası oluşan kümelerin eleman sayısı ve oranı açık bir şekilde belirtilmektedir. Kümeleme işlemleri genellikle saniyenin altında kaldığı için milisaniye türünde ifade edilmektedir. EM algoritmasının Log-likelihood değeri oluşurken , diğer algoritmalarda oluşmamaktadır. K-Means algoritmasının sonucuna göre, yeni hasta eklenmeden önce Küme 3 değeri 9 iken, yeni hasta eklendikten sonra 10 olmaktadır. Bu sonuca göre yeni eklenen hasta 3. kümede yer almaktadır.

(42)

Şekil 3.16.Yeni hasta eklendikten sonra kümeler.

Şekil 3.16, yeni kayıt eklendikten sonra uygulanan algoritmaların kümeleme sonuçlarını grafiksel olarak göstermektedir. K-Means kümeleme algoritması mavi seri, Hiyerarşik kümeleme algoritması turuncu seri, EM algoritması gri seri ile gösterilmektedir. 1. kümede ve 3. kümede Hiyerarşik kümeleme ve EM algoritmaları aynı sonucu vermektedir. 0% 10% 20% 30% 40% 50% 60%

Küme 0 Küme 1 Küme 2 Küme 3

(43)

Şekil 3.17. Yeni hasta eklendikten sonra metotların kümeleme süresi.

Şekil 3.17, K-Means, Hiyerarşik ve EM algoritmaları uygulandığında tüm kayıtların (yani büyük veri setleri gibi) ne kadar süreyle sonuçlandığını göstermektedir. K-Means kümeleme algoritması kümeleme işlemini 0 saniyede bitirirken, Hiyerarşik kümeleme algoritması 0.01 saniyede ve EM algoritması 0.03 saniyede bitirmektedir. Yeni hasta eklendikten sonra veri seti daha büyük hale gelmektedir. K-Means, Hiyerarşik ve EM algoritmaları uygulandığında en hızlı kümeleme işlemini K- Means algoritması yaparken, en yavaş kümelemeyi EM algoritmasının yaptığı görülmektedir.

0 0.005 0.01 0.015 0.02 0.025 0.03 K-Means Hiyerarşik EM K-Means; 0 Hiyerarşik; 0.01 EM; 0.03 Zaman (S an iye ) K-Means Hiyerarşik EM

(44)

4. SONUÇLAR VE ÖNERİLER

Bu çalışmada kümeleme algoritmaları analiz edilmiş ve sonuçlar gösterilmiştir. Sonuçlara göre;

• K-Means algoritması, EM ve Hiyerarşik algoritmadan daha hızlıdır.

• K-Means algoritması veri sayısı arttıkça yüksek performans göstermeye devam eder. Yani büyük veri kümeleri için en uygun algoritma K-Means'dır.

• Çok sayıda değişkenle, K-Means hiyerarşik kümelemeden hesaplama olarak daha hızlı olduğu gösterilmiştir.

• K-Means algoritması diğer algoritmalardan daha basit ve açıktır.

• K-Means algoritması tarafından oluşturulan küme örnekleri diğer algoritmalardan daha iyidir.

(45)

5. KAYNAKLAR

[1] Türk Hematoloji Derneği. (2018, 26 Kasım). Lenfoma .[Online].Erişim: http://thd.org.tr/THD_Halk/?sayfa=lenfoma.

[2] Türk Hematoloji Derneği. (2018, 26 Kasım). Hodgkin Lenfoma. [Online]. Erişim: www.thd.org.tr/THD_Halk/?sayfa=hodgkin.

[3] H. Okutan. (2018, 26 Kasım). Hodgkin dışı lenfoma. [Online]. Erişim: http://www.losante.com.tr/Blog/Detail/2049.

[4] E. Gül. (2019, 15 Ocak). Lenf Sistemi Nedir? [Online]. Erişim: https://www.bilgiustam.com/lenf-sistemi-nedir.

[5] İ. Karadoğan. (2019, 10 Ocak). Lenf kanseri, lenfoma belirtileri ve tedavisi. [Online]. Erişim: https://www.memorial.com.tr/saglik-rehberleri/lenfoma-belirtileri/.

[6] S. L. Kane-Gill, L. Kirisci, M. M. Verrico, ve J. M. Rothschild, “Analysis of risk factors for adverse drug events in critically ill patients”, Critical Care Medicine, c. 40, sayı 3, ss. 823–828, 2012.

[7] E. Vickers, “Analysis of the acute postoperative pain experience following oral surgery: Identification of unaffected, disabled and depressed, anxious and disabled patient clusters”, Australian Dental Journal, c. 51, sayı 1, ss. 69–77, 2006.

[8] H. C. P. Morana, M. H. Stone, ve E. Abdalla-Filho, “Transtornos de personalidade, psicopatia e serial killers”, Revista Brasileira de Psiquiatria, c. 28, sayı SUPPL. 2, ss. 74–79, 2006.

[9] A. A. Uslu, Y. C. Çetinkaya, Y. E. Özceylan, ve D. S. K. İşleyen, “Organize sanayi bölgelerinin hiyerarşik-k-ortamalar yöntemi ile analizi ”, Türk Sosyal Bilimler

Araştırmaları Dergisi, sayı 2, 2017.

[10] M. Danacı, M. Çelik, ve A. E. Akkaya, “Veri madenciliği yöntemleri kullanılarak meme kanseri hücrelerinin tahmin ve teşhisi”, Lisans tezi, Bilgisayar Mühendisliği, Mühendislik Fakültesi, Erciyes Üniversitesi, Kayseri, Türkiye, 2010.

[11] C. Coşkun ve A. Baykal, “Veri madenciliğinde sınıflandırma algoritmalarının bir örnek üzerinde karşılaştırılması”, 13.Akademik Bilişim Konferansı Bildirileri, Malatya, Türkiye, 2011.

[12] M. Karakoyun ve M. Hacıbeyoğlu, “Biyomedikal veri kümeleri ile makine öğrenmesi sınıflandırma algoritmalarının istatistiksel olarak karşılaştırılması”,

Dokuz Eylül Üniversitesi Mühendislik Fakültesi Mühendislik Bilimleri Dergisi, ss.

30–42, 2014.

[13] N. Sharma, A. Bajpai ve M. R. Litoriya, “Comparison the various clustering algorithms of weka tools”, International Journal of Advanced Research in

Computer Science and Software Engineering , c. 2, sayı 5, ss. 73–80, 2012.

[14] M. Takaoğlu, “Birkaç veri kümesi ile weka ve matlab üzerinde kümeleme algoritmalarının karşılaştırılarak incelenmesi”, Yüksek lisans tezi, Bilgisayar Mühendisliği, Fen Bilimleri Ensitüsü, İstanbul Aydın Üniversitesi, İstanbul,

(46)

[15] P. E. Hart, D. G. Stork, R. O. Duda, Pattern Classification (2nd ed.), Second edition, MA, USA: Material, 1997.

[16] G. Sarıman, “Veri madenciliğinde kümeleme teknikleri üzerine bir çalışma: K-Means ve k-medoids kümeleme algoritmalarının karşılaştırılması”, Süleyman

Demirel Üniversitesi Fen Bilimleri Enstitüsü Dergisi, c. 3, sayı 15, ss. 192–202,

2011.

[17] O. Ersoy ve M. F. Amasyalı, “The performance factors of clustering ensembles”, Lisans tezi, Bilgisayar Mühendisliği, Mühendislik Fakültesi, Yıldız Teknik Üniversitesi, İstanbul, Türkiye, 2008.

[18] E. Altıntaş ve M. Karaatlı, “Borsa İstanbul işletmelerinin veri madenciliği ile kümelenmesi”, Mehmet Akif Ersoy Üniversitesi Sosyal Bilimler Enstitüsü

Dergisi,c. 10, sayı 26, ss. 871–886, 2018.

[19] E. Hatipoğlu. (2019, 16 Şubat). Machine learning clustering. [Online]. Erişim: https://medium.com/@ekrem.hatipoglu/machine-learning-clustering-kümeleme-k-means-algorithm-part-13-be33aeef4fc8.

[20] Ş. Z. Erdoğan, “Veri madenciliği ve veri madenciliğinde kullanılan k-menas algoritmasının öğrenci veri tabanında uygulanması”,Yüksek lisans tezi, İşletme Anabilim Dalı, Sosyal Bilimler Ensitüsü, İstanbul Üniversitesi, İstanbul, Türkiye, 2004.

[21] K. Güzel, “Bağlanırlık tabanlı öbekleme için jeodezik uzaklık kestirimi" , Yüksek lisans tezi, Bilgisayar Mühendisliği, Fen Bilimleri Ensitüsü, İstanbul Üniversitesi, İstanbul, Türkiye, 2015.

[22] J. Han, M. Kamber and J. Pei, Data Mining - Concepts & Techniques, Third edition, Waltham, USA: 2011.

[23] A. C. Günay, “Kümeleme analizinde küme sayısının belirlenmesi üzerine bir çalışma”, Yüksek lisans tezi, İstatistik Anabilim Dalı, Fen Bilimleri Ensitüsü, Ankara Üniversitesi, Ankara, Türkiye, 2008.

[24] B. Hossen, S. U. Doulah, ve A. Hoque, “Methods for evaluating agglomerative hierarchical clustering for gene expression data: A comparative study article”,

Computational Biology and Bioinformatics, c. 3, sayı 6, ss. 88-94, 2015.

[25] Y. Ünlükaplan, “Çok değişkenli istatistiksel yöntemlerin peyzaj ekolojisi araştırmalarında kullanımı”, Doktora tezi, Peyzaj Mimarlığı Anabilim Dalı, Fen Bilimleri Ensitüsü, Çukurova Üniversitesi, Adana, Türkiye, 2014.

[26] Ş. Şahin, “Büyük menderes nehri üzerindeki akım gözlem istasyonlarında eksik verilerinin tamamlanması”, Yüksek lisans tezi, İnşaat Mühendisliği, Fen Bilimleri Ensitüsü, Pamukkale Üniversitesi, Denizli, Türkiye, 2012.

[27] S. Borman, The expectation maximization algorithm, Ders Notları, 2009.

[28] A. Tekerek, “Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri Madenciliği Araçları”, Akademik Bilişim’11 - XIII. Akademik Bilişim Konferansı Bildirileri,

Malatya, Türkiye, 2011, ss. 161-169.

[29] A. Orman, M. Dener ve M. Dörterler “Açık kaynak kodlu veri madenciliği programları : Weka ‘da örnek uygulama”, Lisans tezi, Elektronik-Bilgisayar Eğitimi Bölümü, Teknik Eğitim Fakültesi, Gazi Üniversitesi, Ankara, Türkiye, 2009.

(47)

ÖZGEÇMİŞ

KİŞİSEL BİLGİLER

Adı Soyadı : Özge AKSAKALLİ

Doğum Tarihi ve Yeri : 27.08.1992 Üsküdar/İSTANBUL Yabancı Dili : İngilizce

E-posta : [email protected]

ÖĞRENİM DURUMU

Derece Alan Okul/Üniversite Mezuniyet Yılı

Y. Lisans

Elektrik-Elektronik ve

Bilgisayar Müh. Düzce Üniversitesi 2019 Lisans Bilgisayar Müh. Düzce Üniversitesi 2015

Lise Mehmetçik Lisesi 2010