• Sonuç bulunamadı

Veri yığınları arasından bilgiye ulaşabilmek adına bilgileri, örüntüleri ayrıştırarak yararlı olan verileri ortaya çıkarmak için birçok süreçten oluşan veri madenciliği çalışmalarının başarıya ulaşabilmesi, projeyi yürütecek takımın iyi bir yöntem izlemesine bağlıdır. İyi bir yöntem ile yürütülemeyen projeler başarısız olmaktadır [36].

Veri madenciliği çalışma süreçlerinin yönetimi sistematik bir şekilde yapılmalıdır. Verilerin büyük ve karmaşık olması, süreç sınırlarının net olmaması geri dönüşü olmayan küçük hatalar yapılmasına sebep olabilmektedir. Çalışma sırasında yapılabilecek bu küçük hatalar nedeniyle ciddi kaynak ve zaman kayıpları yaşanabilmektedir. Bu nedenle veri maddeciliği süreçlerini standardize edebilmek adına Cross-Industry Standard Process for Data Mining (CRISP-DM) şirketler birliği geliştirilmiştir. Cross-Industry Standard Process for Data Mining (CRISP-DM) veri madenciliği süreçleri konusunda 1996 yılında DaimlerChrysler, SPSS ve NCR’ ı temsil eden bir analist grubu tarafından yoğun çalışmalar yapılarak geliştirilen veri madenciliği süreçlerinin standardizasyonudur. CRISP-DM, tescilli olmayan ve serbest kullanıma açık veri madenciliği süreçlerini problem çözme stratejisine uydurmak için bir işlem standardı sunmaktadır [36, 37].

CRISP-DM göre veri madenciliği altı ana başlıktan oluşan ve birbirleri ile bağlantılı olarak işleyen bir süreçtir. Tamamlanan bir aşamanın sonucu diğer bir aşamanın girdisi olabilmektedir. Bu durum her aşamanın bir önceki aşamanın sonuçlarına bağımlı olduğunun göstergesidir [36]. Şekil 3.3’te CRISP-DM veri madenciliği standart süreci verilmiştir.

Şekil 3.3. CRISP-DM Veri madenciliğinin standart süreci [38].

Şekil 3.3’te gösterilen CRISP-DM adımlarından iş sorusunu anlama adımında problemin tanımlanması yapılır. Veriyi anlama adımında veriler toplanır ve değişkenler incelenir. Veri hazırlığı adımında, veriye temizleme, dönüştürme, birleştirme gibi işlemler yapılarak veri, model oluşturabilmek için uygun hale getirilir. Modelleme adımında veriye uygun olan veri madenciliği algoritmaları uygulanır. Değerlendirme adımında kurulan modelin doğruluğu test edilir ve sonuca göre model uygulanır. Son olarak tüm bu adımlar gerçekleştirildikten sonra kurulan model izlenir [38].

CRISP-DM yaklaşımı veri madenciliği projelerinin daha etkili, güvenilir, hızlı, az maliyetle ve yönetilebilir sonuçlandırılmasını sağlar [39]. CRISP-DM adımları ve bu adımların tanımları aşağıda verilmiştir.

3.2.1. Problemin Tanımlanması

Problemin tanımlanması adımı veri madenciliği sürecinin ilk ve en önemli adımı olarak tanımlanabilir. Problemin açık bir şekilde belirlenmesi elle tutulur sonuçlar elde edebilmek için en önemli etkendir. Veri madenciliği sürecinin doğru işleyişini sağlayabilmek için süreci uygulayanların belirlenen probleme odaklı işletme hedefinin farkında olması gerekmektedir. Bu süreçte probleme uygun çözüm yollarını belirleyen yine süreci uygulayanlardır [40].

Veri madenciliği ile problemin çözümü için sağlanacak bilgi ihtiyaçları tanımlanmaktadır. Genel olarak bunlar örüntülere ilişkin sorular ve veri tabanında var olabilen ilişkilerdir. Bazı örnek sorular: “Cep telefonu satın alan müşteriler nasıl karakterize edilebilir?” veya “Gelir ile cep telefonu alımı arasında bir ilişki var mıdır?” gibi özel bir soru klasik istatistik yöntemleri kullanılarak test edilebilir. Ancak çok sayıda nitelik arasındaki olası ilişkilerin değerlendirilmesi gerektiğinde, veri madenciliği kendi sorusunu ortaya koyar. Bu durum ise sonuçta beklenmeyen ilişkilerin keşfine izin verir [41].

3.2.2. Verilerin Hazırlanması

Verilerin hazırlanması adımı kendi içinde verilerin toplanması, verilere değer biçme, verilerin birleştirilmesi ve temizlenmesi, verilerin seçimi ve verilerin dönüştürülmesi olarak alt basamaklara ayrılır. Veri setinin ve keşfedilecek özelliklerin seçimi bu adımda gerçekleştirilir. Bu aşama bilgi keşfi sürecinin kalbi olarak tanımlanabilir. Verilerin hazırlanması aşamaları aşağıda maddeler halinde verilmiştir [42]:

o Toplama: Veri madenciliği sürecinin amacı çok büyük verilerden anlamlı bilgi çıkarılması olduğu için eksik ve hataların olmadığı, güvenilir veri elde etmek ilk şarttır. Çünkü problemin çözümünün kalitesi öncelikle verinin kalitesine bağlıdır. Verilerin toplanması problemin çözümü için gerekli olan verilerin çeşitli veri tabanlarından faydalanılarak belirlenmesi basamağıdır. Problemin çözümünde kullanılacak veri sağlıklı ve kaliteli bir şekilde toplanmadığı zaman

eksik ya da yanlış veriler ile alınacak kararlarda başarılı sonuçlar elde edilemeyeceği gibi firmayı zarara da uğratabilir.

o Değer Biçme: Bu basamakta toplanan verinin birbiri ile uyumu kontrol edilmektedir. Toplanan veriler farklı kaynaklardan elde edilebildiğinden veriler arasında tam bir uyum olmayabilir. Veriler arasındaki uyum sağlandığında başarılı bir model kurulması kolaylaşmış olur.

o Birleştirme ve Temizleme: Bu aşamada veriler tek bir veri tabanında toplanarak birleştirilir.

o Seçim: Veri madenciliği süreci için kurulması planlanan modele en uygun verinin seçimi bu aşamada yapılır.

o Dönüştürme: Veri tabanlarından toplanmış olan bağlantılı veriler bu basamakta anlamlı bir yapıya dönüştürülür.

3.2.3. Modelin Kurulması

Veri madenciliği problemi için birden fazla teknik kullanılabilir. Problemin çözümü için uygun olan teknik veya tekniklerin bulunabilmesi için neyin amaçlandığına bakılmalı ve amaca bağlı olarak uygun veri madenciliği modeli (tekniği) seçilmelidir [37, 39].

3.2.4. Modelin Değerlendirilmesi, Uygulanması ve İzlenmesi

Değerlendirme aşamasında analizi yapacak kişi yüksek kaliteli bir modele sahiptir. Modelin uygulama aşamasına geçilmeden önce her aşamanın sonucu problemin veya işin sahiplerinin bakış açılarından tartışılır ve uygun olup olmadığı analiz edilir. Bu adımda amaçlanan, analiz süresince gözden kaçan önemli bir noktanın var olup olmadığını belirlemektir. Model uygun ise bir sonraki adıma geçilir ancak değerlendirme aşamasında yeterli olmayan sonuçlar nedeniyle proje durdurulabilir ve analiz için kullanılan veriler tekrar gözden geçirilmek durumunda kalınabilir [38, 39].

Uygulama adımı bulguların değerlendirilmesi ve yorumlanması sonucu elde edilen bilgiler ile belirlenen stratejilerin ve eksikliklerin giderilerek gerçek hayata

uygulanması işlemidir. Bütün bu adımlar gerçekleştirildikten sonra kurulan model izlenir [38].

Benzer Belgeler