• Sonuç bulunamadı

Veri Madenciliği Süreci konusunda çeşitli öneriler bulunmaktadır. Fayyad (1996), CRISP-DM ve Semma süreç konusunda en çok bilinenleridir. Fayyad ve arkadaşları tarafından 1996 yılında ileri sürülen Veri Madenciliği Süreci, süreç için yapılan ilk tespit olmasından dolayı literatürde önemli bir yere sahiptir. Şekil 2.1'de görüldüğü gibi 5 aşamadan oluşmaktadır.

Şekil 2.1 Veritabanlarında Bilgi Keşfi Süreci Kaynak: Fayyad vd., 1996: 41

SPSS, NCR ve Daimler Benz konsorsiyumu tarafından öne sürülen CRISP-DM süreci, birbirini izleme sırası net olmayan 6 aşamada ifade edilmiştir (Chapman vd., 2000). Bu

aşamalar İşin anlaşılması, Verinin Anlaşılması, Veri Hazırlama, Modelleme, Değerlendirme ve Kullanıcılarla Paylaşım aşamalarıdır. CRISP-DM modelinin, Fayyad'ın önerdiği modele göre farkı Kullanıcılarla Paylaşım aşamasıdır. Burada kullanıcıların belirlenmesi, eğitilmesi ve kullanıcılarda dönüt alınması gibi işlemlersürecin uzamasına ve maliyetlerin artmasına neden olabilir.

SEMMA süreci ise SAS firması tarafından "yazılımcı" bakış açısıyla süreçlerin baş harfleri Sample, Explorer, Modify, Model, Asses (Örnekle, Keşfet, Düzelt, Modelle, Değelendir) aşamalarından oluşmaktadır.

CRISP-DM sürecinde aşama sıralamalarının kesin olmayışı, kullanıcılarla paylaşım gibi ucu açık bir aşamanın oluşu, SEMMA sürecinde ise Fayyad'ın önerdiği modele çok farklı bir yenilik getirmediği için çalışmamızda Fayyad ve arkadaşlarının önerdiği süreç takip edilecektir.

2.3.1 Veri Seçimi

Günümüzde "veri madenciliği" çatısı altında olan yöntemler aslında uzun yıllardır kullanılmaktadır. Bu süre zarfında, birçok farklı veri kümesine çok çeşitli teknikler uygulayarak hem açıklayıcı hem de tahmin edici modellere yönelik araştırmalar yapılmıştır. Hali hazırdaki yöntemlerin veya geliştirilen yeni yöntemlerin başarılı olması için eskimeyen kural ise "iyi verilerle" çalışmak olduğu söylenebilir (Pyle, 1999: 26).

Veri seçimi, veri madenciliği sürecinin ilk basamağıdır. Veri madenciliği analizlerinde kullanılacak verilerin probleme uygun olarak seçilmesi işlemidir. Probleme uygun olmayan veriler gereksiz zaman kaybı ve maliyete yol açabilir. Kaynak veriden hedef veriye ulaşıldığı aşama olarak ifade edilebilir.

2.3.2 Veri Ön İşleme

Veri ön işleme aşamasında veri temizleme,boyut indirgeme, sıra dışı değer analizi gibi çeşitli yöntemler uygulanmaktadır.Veri ön işleme aşağıdaki sebeplerden dolayı verilere uygulanmaktadır (Oğuzlar, 2003: 70).

 Veriler üzerinde herhangi bir analiz türünün uygulanmasını engelleyecek durumların giderilmesi

 Verilerin doğasının anlaşılması ve anlamlı veri analizinin başarılması  Verilen bir veri kümesinden daha anlamlı bilginin çıkarılması.

Tablo 2.2 Veri Kalitesini Etkileyen Faktörler

Faktör Tanım

Anlaşılabilirlik Veri kümesindeki alanların ve değerlerin anlaşılabilir olması. Değer Katabilirlik VM sürecine faydalı olması

Erişilebilirlik Verinin ulaşılabilir ve hazır olması

Güncellik VM sürecine uygun güncel kayıtların bulunması

İnanılırlık Veri kümesinde yer alan kayıtların gerçek ve tüm paydaşlar tarafından kabul edilmiş olması

Nesnellik Verilerin yansız,önyargısız ve tarafsız olması

Tamlık Veri setinde eksik kayıt olmaması

Tutarlılık Veri setinde tutarsız kayıtların olmaması

Uygunluk VM Sürecine uygun olması

Veri miktarının uygunluğu Veri setinin VM sürecine uygun büyüklükte olması Yorumlanabilirlik Veri setindeki kayıtların tanımlanabilmesi

Veri Ön işleme aşamasında bazı kaynaklara göre farklı adlandırılsada genel olarak veri kaynağının güvenirliği sağlandıktan sonra veri temizleme, veri dönüştürme ve boyut azaltma işlemleri yapılmaktadır (Silahtaroğlu, 2013: 22; Akpınar, 2014: 89).

2.3.2.1 Veri Temizleme

Veri temizleme, veri setindeki gürültünün ortadan kaldırılması, mükerrer kayıtların giderilmesi, kayıp verilerin tamamlanması gibi işlemlere veri kalitesini etkileyen faktörlere karşı olumlu cevap verebilecek hale getirmektir. Başka bir ifade ile Veri Temizleme, VM sürecine uygun ve kaliteli veri setinin elde edilmesidir.

2.3.2.2 Boyut Azaltma

Sınıflandırma ve regresyon modellerinin karmaşıklığı girdi (öznitelik) sayısına bağlıdır. Girdi değerine göre modelin eğitim zaman ve uzay karmaşıklığı, eğitim örnek sayısını belirlenmektedir. Aşağıdaki nedenlerden dolayı veri kümesindeki boyut azaltma işlemi gereklidir (Alpaydın, 2011: 89).

 Öğrenme algoritmasındaki karmaşıklık genel olarak örneklem büyüklüğü (N) ve girdi boyutu (d) değerine bağlıdır. Hesaplamada kullanılacak bellek miktarını ve işlem sayısını azaltmak için d değeri optimum olmalıdır.

 Muhtemelen kullanılmayacak olan girdi değeri işlem sayısını ve bellek boyutunu artıracaktır.

 Küçük veri kümesi için girdi değeri optimum olan basit modeller daha güvenilir olmaktadır. Böylece gürültü, aykırı gözlemlerle uğraşmak daha kolay olmaktdır.  Veri üretim sürecinin anlaşılması,tahmin ve bilgi çıkarımı kolaylaşmaktadır.

 Bilgi kaybına neden olmadan yapılan boyut azaltma sürecinde görselleştirme sonucunda veri yapısı hakkında ve aykırı değerler hakkında fikir yürütebiliriz.

2.3.3 Veri Dönüştürme

Veri setindeki değerlerin kendi aralarındaki uyumu ve farklı veri madenciliği yöntemlerinde kullanılmasını sağlamak amacıyla biçimlendirilmesidir. Literatürde normalleştirme ve standardizasyon olarak yer almaktadır. Başlıca veri dönüştürme biçimleri: (Akpınar, 2014: 115)

10 Tabanına Göre Logaritma: Veri setindeki değerlik onluk tabana göre logaritmasının alınmasıdır.

Z Skor Normalleştirme: Z Skor normalleştirme değerler aşağıdaki gibi hesaplanır.

= − ̅

Min-Max Normalleştirme: Veri setinin en küçük değeri 0 en büyük değeri 1 olmak üzere [0,1] aralığında ifade edilmesidir. Değerler aşağıdaki gibi hesaplanır.

= ( − min ( )) (max( ) − min( ))

[-1,1] Aralığında Normalleştirme: Veri setindeki en büyük ve en küçük değerler kullanılarak aşağıda ifade edilen dönüşüm yapılmaktadır.

= −

( ) ( ) ( ) ( )

2.3.4 Modelleme

Probleme ve veri setine uygun Yapay Öğrenme algoritmaların büyük miktarlardaki veri setinde uygulama aşamasıdır. Bu aşamada yeni bilgiler elde edilmektedir.

2.3.5 Yorumlama

Veri madenciliği aşamasında elde edilen bilgilerin yorumlama ve problem çözümünde yeterli olup olmadığının tespiti aşamasıdır. Sonuçlar yeterli olmadığında önceki aşamalarda ifade edilen aşamalar tekrarlanabilir.

2.4 Veri Madenciliği Yöntemleri