• Sonuç bulunamadı

7. MATERYAL VE YÖNTEM

7.1. Veri Seti ve Veri Ö nişleme

7.1.2. Veri temizleme

7.1.3.2. Standart skor (Z- score) normalleştirmesi

Veri setindeki her bir değişken değerinin ortalamadan farkının, standart sapmaya bölünmesidir. Böylece dönüştürülmüş verinin ortalaması 0 ve standart sapması 1 olduğundan değişkenler normal dağılıma uygun hale gelirler.

Z-score dönüştürme bağıntısı, z standart değeri, 𝜙𝜙𝑖𝑖 gözlem değerini, 𝜙𝜙̅ gözlem değerlerinin aritmetik ortalamasını ve 𝜎𝜎𝑥𝑥gözlem değerlerinin standart sapmasını göstermek üzere Denklem (7.2) ile ifade edilmektedir.

𝑧𝑧 =𝜙𝜙𝑖𝑖 − 𝜙𝜙̅

𝜎𝜎𝑥𝑥 (7.2)

7.2. WEKA

WEKA (Waikato Environment for Knowledge Analysis) Waikato Üniversitesi tarafından 1992 yılında Java platformunda geliştirilmeye başlanan, GNU lisanslı, açık kaynak kodlu, özgür bir veri madenciliği (data mining) ve makine öğrenmesi (machine learning) yazılımıdır (Hall vd., 2009).

WEKA’nın; Java Sanal Makinesi ile herhangi bir işletim sisteminden bağımsız çalışabilmesi, birçok algoritma ve gereci içermesi, Java ile entegre olabilen kütüphanelerle birlikte kurulması, kullanıcıların yazdıkları kodların programa eklenebilmesine olanak sağlaması, basit bir kullanıcı arayüzüne sahip olması avantajları olarak sayılabilir.

WEKA’da bir uygulama yapılması için izlenmesi gereken temel adımlar Şekil 7.2’de

Şekil 7.2. WEKA’da izlenen adımlar

WEKA 3.7.12 sürümü itibariyle bünyesinde; 82 adet veri önişleme gereci, 133 adet sınıflama/regresyon algoritması, 12 adet kümeleme algoritması, 32 adet özellik çıkarma algoritması, 7 adet birliktelik kuralı ve 3 adet grafik arayüzü bulundurmaktadır.

WEKA çalıştırıldığında ekrana ilk olarak Şekil 7.3’teki pencere gelmektedir.

“Program” sekmesi altından “Log” penceresine ve “Memoy usage” (hafıza kullanımı) ayarına erişilebilmektedir. “Visualization” sekmesi adı altında veri setini görselleştirmeye yarayacak gereçler bulunmaktadır. “Tool” sekmesinde ise “Package manager” (paket yöneticisi), “Bayes net editor” ve veri okuyucular yer almaktadır.

Şekil 7.3. WEKA açılış ekranı

“Applications” kısmındaki ilk seçenek ile WEKA’yı kullanmanın en temel yöntemi olan “Explorer” arayüzüne erişilir. Bu arayüz, veri kümesi üzerinde çeşitli işlemlere olanak sağlayan gereç, filtre ve algoritmalar içermektedir. “Experimenter” seçeneği ile bir ya da birden fazla veri seti için bir ya da daha fazla algoritmanın çalıştırılarak sonuçların kıyaslanabildiği bir kullanıcı arayüzüne erişilir. “KnowledgeFlow” ise yazılımda kullanıcı arayüzüne sahip son seçenek olup “Explorer” seçeneğindeki tüm gereç ve algoritmaların yer aldığı ve bunların akış diyagramı şeklinde tasarlanabildiği alandır. Simple CLI (Command-Line Interface) ise komut ekranı üzerinden işlem yapılmasına olanak sağlar. WEKA’da yer alan arayüzler izleyen alt başlıklarda daha ayrıntılı olarak açıklanmıştır.

7.2.1. Explorer

WEKA’nın temel grafik arayüzü olan “Explorer” penceresinde Şekil 7.4’te görüldüğü gibi “preprocess” (önişleme), “classify” (sınıflama), “cluster” (kümeleme),

“associate” (birleştirme), “select attributes” (özellik seçimi) ve “visualize” (görselleştirme) olmak üzere altı adet sekme mevcuttur. Herhangi bir veri seti yüklenene kadar “preprocess”

sekmesi dışındakiler pasif haldedir.

Şekil 7.4. Explorer arayüzü

Veri setini disk üzerinden yükleyebilmek için “Open file”, internet üzerinden erişilebilen bir veri setini kullanabilmek için “Open URL”, yerel ağdaki bir veri tabanı sunucusundan veri almak için “Open DB” ve son olarak gerekli parametre ayarlarını yapılmasıyla yapay bir veri kümesi üzerinde çalışabilmek için “Generate” düğmesi kullanılmaktadır. WEKA’nın öntanımlı olarak desteklediği veri uzantıları ARFF, CSV, C4.5, JSON, LibSVM ve XRFF’dir. Bunlara ek olarak paket yöneticisiyle yüklenebilecek eklentilerle Excel ve Matlab dosyaları da WEKA ile açılabilmektedir.

“Preprocess” ekranında veri setine ilişkin basit istatiksel bilgiler ve grafikler görüntülenebilmektedir. Bu sekmenin yüklendiği asıl görev ise, veri değerlerinin dönüşümü, eksik verilerin doldurulması, aşırı uç değerlerin ayıklanması, normalleştirme, örnekleme gibi işlemlerin yapılmasına olanak sağlamasıdır. Verinin bu filtrelerden geçirilmesi için öncelikle

“Choose” düğmesine tıklanarak istenilen filtrenin seçilmesi gerekir. Seçilen filtre hakkında bilgi almak ve gerekli ayarları yapmak içinse “Choose” düğmesinin yanında yer alan filtre ismine tıklanır.

Şekil 7.5. Explorer penceresinde classify sekmesi

“Classify” sekmesinde çeşitli sınıflandırma algoritmalarının kullanılması ve parametrelerinin ayarlanmasıyla ilgili seçenekleri gösteren bir kullanıcı ara yüzü ekrana gelir. Şekil 7.5’teki ekranda “Classifier” başlığı altında bulunan “Choose” düğmesi aracılığıyla istenilen sınıflandırma algoritması seçilir. Yine “Choose” düğmesinin sağında yer alan algoritma ismine tıklanarak gerekli parametre ayarları yapılabilir ve algoritma hakkında detaylı bilgi alınabilir. “Test option” başlıklı option-box ise test verisiyle ilgili ayarların yapıldığı kısımdır. “More options” düğmesine tıklanarak sonuç ekranı için gerekli

ayarlar yapılırken aşağısındaki drop-down list-boxla istenilen hedef sınıf seçilebilir. Son olarak “start” düğmesi aracılığıyla algoritma çalıştırılır.

“Cluster”, “Associate” ve “Select Attributes” sekmelerinde de benzer işlemler yapılmaktadır.

“Visualize” sekmesinde ise Şekil 7.6’da gösterildiği gibi veri setindeki özniteliklerin birbiriyle ilişkilerini gösteren iki boyutlu grafikler bulunmaktadır. Çok büyük boyutlu veri seti ile çalışılırken, görsel karmaşıklığı önlemesi açısından istenilen boyuttaki alt örneklem uzayının kullanılması da mümkündür.

Şekil 7.6. Explorer penceresinde visualize sekmesi

7.2.2. Experimenter

“Experimenter” istenilen veri kümesi veya veri kümelerinin sınıflama veya regresyon çözümlemesinde birkaç algoritmanın ya da bir algoritmanın farklı

parametrelerinin istenilen çıktılar üzerinden kıyaslanabildiği bir kullanıcı arayüzüdür. Şekil 7.7’de gösterilen bu arayüzde yapılan deneyler disk üzerine kaydedilebilmekte böylece bu kayıtlar daha sonra experimenter veya komut satırı üzerinden tekrar çalıştırılabilmektedir.

Öncelikle “Setup” sekmesinde istenilen veri/veriler ve algoritma/algoritmalar seçilerek uygun ayarlar yapılır. “Run” sekmesinde deney çalıştırıldıktan sonra “Analyse” sekmesinde sonuçlar arasında kıyaslama yapılabilmektedir. Experimenter arayüzünün önemli bir avantajı da işlem yükünü birden fazla makine üzerine dağıtabilme yeteneğinin olmasıdır (Witten vd, 2011).

Şekil 7.7. Experimenter arayüzü

Benzer Belgeler