Veri Madenciliği Süreci konusunda çeşitli öneriler bulunmaktadır. Fayyad (1996), CRISP-DM ve Semma süreç konusunda en çok bilinenleridir. Fayyad ve arkadaşları tarafından 1996 yılında ileri sürülen Veri Madenciliği Süreci, süreç için yapılan ilk tespit olmasından dolayı literatürde önemli bir yere sahiptir. Şekil 2.1'de görüldüğü gibi 5 aşamadan oluşmaktadır.
Şekil 2.1 Veritabanlarında Bilgi Keşfi Süreci Kaynak: Fayyad vd., 1996: 41
SPSS, NCR ve Daimler Benz konsorsiyumu tarafından öne sürülen CRISP-DM süreci, birbirini izleme sırası net olmayan 6 aşamada ifade edilmiştir (Chapman vd., 2000). Bu
aşamalar İşin anlaşılması, Verinin Anlaşılması, Veri Hazırlama, Modelleme, Değerlendirme ve Kullanıcılarla Paylaşım aşamalarıdır. CRISP-DM modelinin, Fayyad'ın önerdiği modele göre farkı Kullanıcılarla Paylaşım aşamasıdır. Burada kullanıcıların belirlenmesi, eğitilmesi ve kullanıcılarda dönüt alınması gibi işlemlersürecin uzamasına ve maliyetlerin artmasına neden olabilir.
SEMMA süreci ise SAS firması tarafından "yazılımcı" bakış açısıyla süreçlerin baş harfleri Sample, Explorer, Modify, Model, Asses (Örnekle, Keşfet, Düzelt, Modelle, Değelendir) aşamalarından oluşmaktadır.
CRISP-DM sürecinde aşama sıralamalarının kesin olmayışı, kullanıcılarla paylaşım gibi ucu açık bir aşamanın oluşu, SEMMA sürecinde ise Fayyad'ın önerdiği modele çok farklı bir yenilik getirmediği için çalışmamızda Fayyad ve arkadaşlarının önerdiği süreç takip edilecektir.
2.3.1 Veri Seçimi
Günümüzde "veri madenciliği" çatısı altında olan yöntemler aslında uzun yıllardır kullanılmaktadır. Bu süre zarfında, birçok farklı veri kümesine çok çeşitli teknikler uygulayarak hem açıklayıcı hem de tahmin edici modellere yönelik araştırmalar yapılmıştır. Hali hazırdaki yöntemlerin veya geliştirilen yeni yöntemlerin başarılı olması için eskimeyen kural ise "iyi verilerle" çalışmak olduğu söylenebilir (Pyle, 1999: 26).
Veri seçimi, veri madenciliği sürecinin ilk basamağıdır. Veri madenciliği analizlerinde kullanılacak verilerin probleme uygun olarak seçilmesi işlemidir. Probleme uygun olmayan veriler gereksiz zaman kaybı ve maliyete yol açabilir. Kaynak veriden hedef veriye ulaşıldığı aşama olarak ifade edilebilir.
2.3.2 Veri Ön İşleme
Veri ön işleme aşamasında veri temizleme,boyut indirgeme, sıra dışı değer analizi gibi çeşitli yöntemler uygulanmaktadır.Veri ön işleme aşağıdaki sebeplerden dolayı verilere uygulanmaktadır (Oğuzlar, 2003: 70).
Veriler üzerinde herhangi bir analiz türünün uygulanmasını engelleyecek durumların giderilmesi
Verilerin doğasının anlaşılması ve anlamlı veri analizinin başarılması Verilen bir veri kümesinden daha anlamlı bilginin çıkarılması.
Tablo 2.2 Veri Kalitesini Etkileyen Faktörler
Faktör Tanım
Anlaşılabilirlik Veri kümesindeki alanların ve değerlerin anlaşılabilir olması. Değer Katabilirlik VM sürecine faydalı olması
Erişilebilirlik Verinin ulaşılabilir ve hazır olması
Güncellik VM sürecine uygun güncel kayıtların bulunması
İnanılırlık Veri kümesinde yer alan kayıtların gerçek ve tüm paydaşlar tarafından kabul edilmiş olması
Nesnellik Verilerin yansız,önyargısız ve tarafsız olması
Tamlık Veri setinde eksik kayıt olmaması
Tutarlılık Veri setinde tutarsız kayıtların olmaması
Uygunluk VM Sürecine uygun olması
Veri miktarının uygunluğu Veri setinin VM sürecine uygun büyüklükte olması Yorumlanabilirlik Veri setindeki kayıtların tanımlanabilmesi
Veri Ön işleme aşamasında bazı kaynaklara göre farklı adlandırılsada genel olarak veri kaynağının güvenirliği sağlandıktan sonra veri temizleme, veri dönüştürme ve boyut azaltma işlemleri yapılmaktadır (Silahtaroğlu, 2013: 22; Akpınar, 2014: 89).
2.3.2.1 Veri Temizleme
Veri temizleme, veri setindeki gürültünün ortadan kaldırılması, mükerrer kayıtların giderilmesi, kayıp verilerin tamamlanması gibi işlemlere veri kalitesini etkileyen faktörlere karşı olumlu cevap verebilecek hale getirmektir. Başka bir ifade ile Veri Temizleme, VM sürecine uygun ve kaliteli veri setinin elde edilmesidir.
2.3.2.2 Boyut Azaltma
Sınıflandırma ve regresyon modellerinin karmaşıklığı girdi (öznitelik) sayısına bağlıdır. Girdi değerine göre modelin eğitim zaman ve uzay karmaşıklığı, eğitim örnek sayısını belirlenmektedir. Aşağıdaki nedenlerden dolayı veri kümesindeki boyut azaltma işlemi gereklidir (Alpaydın, 2011: 89).
Öğrenme algoritmasındaki karmaşıklık genel olarak örneklem büyüklüğü (N) ve girdi boyutu (d) değerine bağlıdır. Hesaplamada kullanılacak bellek miktarını ve işlem sayısını azaltmak için d değeri optimum olmalıdır.
Muhtemelen kullanılmayacak olan girdi değeri işlem sayısını ve bellek boyutunu artıracaktır.
Küçük veri kümesi için girdi değeri optimum olan basit modeller daha güvenilir olmaktadır. Böylece gürültü, aykırı gözlemlerle uğraşmak daha kolay olmaktdır. Veri üretim sürecinin anlaşılması,tahmin ve bilgi çıkarımı kolaylaşmaktadır.
Bilgi kaybına neden olmadan yapılan boyut azaltma sürecinde görselleştirme sonucunda veri yapısı hakkında ve aykırı değerler hakkında fikir yürütebiliriz.
2.3.3 Veri Dönüştürme
Veri setindeki değerlerin kendi aralarındaki uyumu ve farklı veri madenciliği yöntemlerinde kullanılmasını sağlamak amacıyla biçimlendirilmesidir. Literatürde normalleştirme ve standardizasyon olarak yer almaktadır. Başlıca veri dönüştürme biçimleri: (Akpınar, 2014: 115)
10 Tabanına Göre Logaritma: Veri setindeki değerlik onluk tabana göre logaritmasının alınmasıdır.
Z Skor Normalleştirme: Z Skor normalleştirme değerler aşağıdaki gibi hesaplanır.
= − ̅
Min-Max Normalleştirme: Veri setinin en küçük değeri 0 en büyük değeri 1 olmak üzere [0,1] aralığında ifade edilmesidir. Değerler aşağıdaki gibi hesaplanır.
= ( − min ( )) (max( ) − min( ))
[-1,1] Aralığında Normalleştirme: Veri setindeki en büyük ve en küçük değerler kullanılarak aşağıda ifade edilen dönüşüm yapılmaktadır.
= −
( ) ( ) ( ) ( )
2.3.4 Modelleme
Probleme ve veri setine uygun Yapay Öğrenme algoritmaların büyük miktarlardaki veri setinde uygulama aşamasıdır. Bu aşamada yeni bilgiler elde edilmektedir.
2.3.5 Yorumlama
Veri madenciliği aşamasında elde edilen bilgilerin yorumlama ve problem çözümünde yeterli olup olmadığının tespiti aşamasıdır. Sonuçlar yeterli olmadığında önceki aşamalarda ifade edilen aşamalar tekrarlanabilir.
2.4 Veri Madenciliği Yöntemleri