• Sonuç bulunamadı

4.3. Araştırmanın Veri Seti ve Yöntemi

4.3.3. Araştırmanın Yöntemi

Araştırmada “veri madenciliği yaklaşımı” benimsenmiştir. Bu amaçla Karar Ağacı Tekniği öncelikle teorik düzeyde çalışılmış, basit ve verimli bir şekilde analiz yapabilecek veri madenciliği paket programlarının incelenmesinin ve bu programlar ile pilot uygulamaların yapılmasının ardından, uygulamanın WEKA 3.8 programı ile yapılmasına karar verilmiştir.

WEKA (Waikato Environment for Knowledge Analysis) programı, Waikato Üniversitesi tarafından geliştirilmiş Java tabanlı bir veri madenciliği programıdır. Veri madenciliği uygulamaları için geliştirilmiş açık kaynak kodlarını ve makine öğrenme algoritmalarını bir arada bulunduran bir programdır.

WEKA programı; veri önişleme, sınıflandırma, regresyon, kümeleme, ilişkilendirme kuralları ve görselleştirme gibi uygulamaların tamamını bünyesinde bulundurarak, tek program üzerinden ayrıntılı veri analizleri yapabilme imkânını sağlamaktadır (University of Waikato, 2018).

WEKA, 2005 yılında dünyanın önde gelen veri madenciliği ödüllerinden olan ”SIGKDD Service Award” ödülünü alarak bu alandaki konumunu güçlendirme başarısını göstermiştir (KDD, 2005). WEKA programı 2000 yılından bugüne kadar (5 Kasım 2019) 11.272.861 kez indirilme ile en popüler 200 Sourceforge projesinden birisi olmuştur (Sourceforge, 2019).

WEKA, iş zekâsı alanında en çok kullanılan yazılımdan birisi olup 550 civarında IEEE makalesinde (ieeexplore, 2017), 5700 civarında Association for Computing Machinery makalesinde ismi doğrudan geçmektedir (Wikipedia, 2017).

Uygulamada bu programın tercih edilmesinin nedeni olarak; WEKA programının basit, kullanışlı ve tercih edilir olma gibi özelliklerinin yanı sıra verilerin sözel (string veri) olarak işlenebilmesine imkân tanıması da gösterilebilir.

WEKA programı ile yapılan Karar Ağacı analizine ilişkin işlem adımları Şekil 4.1’de gösterilmiştir. Şekil 4.1, aynı zamanda bu tez çalışmasının uygulamasında takip edilen 10 aşamayı göstermektedir.

Şekil 4.1: Araştırma Kapsamında Uygulanan Karar Ağacı Analizine İlişkin İşlem Adımları

Başla Kullanılacak Makro Değişkenleri 1. Aşama: Çalışmada Belirle

2. Aşama: Çalışmada

Kullanılacak Mikro Değişkenleri Belirle

3. Aşama: Çalışmada

Kullanılacak Dönem Aralığını Belirle

6. Aşama: Makro Değişkenlerle,

Fiyat Değişkenini String Yapıya Dönüştür

5. Aşama: Tüm Değişkenler için

Veri Setini Temin Et

4. Aşama: Çalışmada

Kullanılacak Pay Senetlerini Belirle

7. Aşama: Veri Setini WEKA

Programı için ARFF Formatına Dönüştür ve String Değişkenleri Filtreleyerek Nominal Değişkenlere Dönüştür 9. Aşama: KAPPA ve MAE Ölçütleriyle Sonuçların Uygunluğuna Karar Ver

10. Aşama: Her Bir Pay Senedi

için Nihai Karar Ağaçlarını Oluştur

8. Aşama: Dosyaları WEKA

Programında J48 (C4.5) Algoritmasıyla Çalıştır Bitir Uygun Uygun Değil 132

Şekil 4.1’den görüleceği üzere, uygulamanın ilk beş aşaması veri tabanının oluşturulması ile ilgilidir. Birinci aşamada makroekonomik değişkenlerin belirlenmesi yapılmıştır. İkinci aşamada ise mikroekonomik değişkenleri temsil eden mali rasyolar belirlenmiştir. Üçüncü aşamada uygulamanın dönemi, dördündücü aşamada ise çalışmaya dahil edilecek pay senetleri belirlenmiştir. Son olarak veriler temin edilerek veri tabanı Excel ortamında “xlsx” ve “csv”, Notepad ortamında ise “txt” uzantılı dosyalar bünyesinde oluşturulmuştur. Burada, her firma için ayrı bir Excel Çalışma Sayfası ve Notepad Sayfası hazırlanarak verilerin doğruluğuna ve tam olmasına yönelik kontroller yapılmıştır. Böylece veri tabanında 69 adet şirket için veri setleri tamamlanmıştır.

Altıncı aşamada, veri madenciliği uygulamalarının bir üstünlüğü olan sözel (string) veri kullanabilme özelliği devreye alınarak, uygulama kapsamındaki tüm makroekonomik değişkenlerin ve bağımlı değişken olan “pay senedinin fiyatı” değişkeninin sözel veri seti haline dönüştürülme işlemi gerçekleştirilmiştir. Bu tez çalışmasında ile uygulanan veri madenciliği modeli, mevcut seçenekler arasında ilişkilendirme ve eleme yapmak suretiyle bağımlı değişkeni en başarılı sınıflandıran karar ağacını, bir diğer ifade ile takip edilmesi gereken kuralları üretmektedir. Dolayısıyla bu tez çalışması kapsamında yapılan uygulama, özü itibariyle bir sınıflandırma problemidir. Burada makro değişkenler; bir önceki döneme göre yükseliş mi yoksa düşüş mü göstereceğine göre “YÜKSELİRSE” veya “DÜŞERSE” şeklinde şartlar (olasılıklar) ifade edebilecek şekilde sözel veri haline dönüştürülmüştür. Mikroekonomik değişkenler ise herhangi bir dönüşüme uğratılmayıp nümerik değerleri üzerinden alınmıştır. Bağımlı değişken ise bir şart değişkeni olmayıp, bir sonuç (tahmin) değişkeni niteliğindedir. Dolayısıyla karar ağacının üretmiş olduğu kuralların bir sonucu olma niteliğini taşıyan pay senedinin fiyatında; bir sonraki dönemde olacak yükseliş tahmini için “YÜKSELECEK”, düşüş tahmini içinse “DÜŞECEK” ifadesi kullanılarak ilgili değişkenin sözel veriye dönüşümü sağlanmıştır.

Yedinci aşama, veri tabanında yer alan veri setlerinin, veri madenciliği uygulaması için WEKA programına aktarıldığı aşamadır. WEKA programına veri girişi yapabilmek için “arff” uzantılı dosyalar üretilmesi gerekmektedir. Bu işlem için “txt” uzantılı dosyaların belirli kurallar takip edilerek ve tanımlamalar

yapılarak “arff” dosyalarına dönüşümü sağlanmıştır. Veri setlerinin WEKA programına aktarılmasının ardından, veri setinin karar ağacı uygulaması yapılabilmesi için filtreleme işlemi gerçekleştirilmiştir. Bu filtreleme işlemi, “string (sözel)” olarak kodlanmış olan bağımlı ve bağımsız değişkenlerin nominal hale dönüştürülmesini kapsamaktadır. Böylece tüm veri setinin nominal tabanda birbirleri ile karşılaştırılabilir hale getirilmeleri sağlanmıştır.

Sekizinci aşama, Karar Ağacı Tekniği’nin uygulandığı ve program çıktılarının elde edildiği aşamadır. Bu aşamada, bu tez çalışmasının “3.3.2.2. C4.5 Algoritması” başlığı altında denklem notasyonları açıklanmış olan C4.5 algoritması ile hesaplamalar yapılmaktadır. Bu amaçla WEKA programında C4.5 algoritmasının versiyonu olan J48 algoritması kullanılarak çıktılar elde edilmiştir. Dokuzuncu Aşama, Şekil 4.3’te yer alan kurallar ve performans göstergelerinin istatistiksel sonuçları çerçevesinde değerlendirme yapılarak, elde edilen karar ağacının uygunluğu analiz edildiği aşamadır. Eğer istatistiksel analiz sonucunda karar ağacının “uygun olmadığı” kararı verilirse “Başla”ya dönülerek ilk dokuz aşama denetlenerek ve revize edilerek uygulama tekrarlanır. Eğer istatistiksel analiz sonucunda karar ağacının “uygun olduğu” kararı verilirse, onuncu aşamaya ulaşılmış olunur ve dokuzuncu aşamada elde edilmiş olan karar ağacı “nihai karar ağacı” olarak kabul edilerek uygulama sonlandırılır.

Bu çalışmada, Şekil 4.1 her bir pay senedi için en az bir defa tekrarlanarak 69 adet veri madenciliği (karar ağaçları) uygulaması yapılmıştır. Bu analizlere ilişkin sonuçlar “4.4. Bulgular ve Değerlendirme” başlığı altında açıklanmıştır.