• Sonuç bulunamadı

3. MATERYAL VE YÖNTEM

3.4. Veri Madenciliği

3.4.1. Veri madenciliği işlem süreci

Veri madenciliği projelerinin daha verimli, hızlı ve maliyetsiz bir şekilde gerçekleştirilmesi için altı adımdan oluşan bir süreç kullanılmaktadır (Frawley ve ark., 1991).

Problemin Tanımlanması: Veri madenciliğinin ilk aşaması çalışmasının hangi

amaç için yapılacağının net olarak tanımlanmasıdır. Veri madenciliği çalışmalarında başarılı bir sonuç elde etmek için uygulamanın hangi amaçla yapılacağının açık ve net bir şekilde ortaya konulması gerekmektedir. Amaç, açık ve anlaşılır bir dille ifade edilmeli, elde edilecek olan sonuçların başarılarının nasıl ölçüleceği önceden belirgin bir şekilde tanımlanmalıdır.

Veri Anlama: Bu aşama verilerin toplanması, mevcut verilerin uygunluğunun

değerlendirilmesi, modeli oluşturmada kullanılacak veri ihtiyaçlarının tespiti, mevcut kayıt sayısının yeterliliği gibi işlemlerin gerçekleştirildiği bir aşamadır. Bu döngü kendi içinde devam ettikçe çalışmada kullanılacak olan veriler netlik kazanır.

Veri anlama aşaması başlangıç verilerini toplama, veri tanımlama, veri keşfi ve son olarak veri kalitesinin belirlenmesi adımlarından oluşmaktadır (Witten ve Frank, 2005).

Başlangıç Verilerini Toplama: Proje içerisinde kullanılacak olan başlangıç

verilerinin ilgili veri kaynaklarından toplanması aşamasıdır.

Veri Tanımlama: Veri kaynaklarından toplanan verilerin tanımlanması ve

yeterliliklerinin değerlendirildiği aşamadır.

Veri Keşfi: Başlangıçta toplanan veriler üzerinde bir takım hipotezlerinin

kurulduğu ve verilerden çıkarımların yapıldığı aşamadır. Bu aşamada sonuca ulaşmada kullanılacak bilgilerin elde edilmesinden daha çok çalışmanın gerçekleştirilebilmesi için veri anlamında bulunan eksikliklerin tespit edilmesi amaçlanır.

Veri Kalitesinin Belirlenmesi: Verilerde eksiklik var mı, doğru mu, içerisinde bir

takım hatalar içeriyor mu, eğer hatalar mevcut ise bu hataların türü ne şeklinde sorular ile veri kalitesinin belirlendiği aşamadır.

Veri Hazırlama: Veri madenciliğinin en önemli aşamalarından birisidir ve

uygulamanın büyük bir bölümünü kapsamaktadır. Bu aşama başlangıçta bulunan verilerin, çalışmalara temel oluşturacak sonuç verilere dönüştürülmesidir. Bu çalışmanın adımlarına ait her hangi bir sıra veya tekrar sayısı yoktur. Modelin kurulması aşamasında ortaya çıkacak problemler, sürecin bu aşamaya geri dönülmesine ve verilerin yeniden düzenlenmesine sebep olabilmektedir.

Verilerin hazırlanması aşaması veri setini tanımlama, veri seçimi, veri temizleme, veri kurma, veri birleştirme ve veri biçimleme adımlarından oluşmaktadır (Ye, 2003).

Veri Setini Tanımlamak: Ele alınan problem için gerekli olan veri setinin

belirlendiği aşamadır. Bazen problemler için büyük boyutlarda veri toplanıyor olmasına rağmen, toplanan veriler mevcut problem için yeterli olmayıp, başka veri gruplarından eklemelerin yapılması gerekebilir.

Veri Seçimi: Yapılacak olan analiz işleminde kullanılacak verilerin belirlendiği

aşamadır. Değerlendirme sırasında verinin kalitesine de dikkat etmek gerekir. Problemde kullanılacak olan kayıt sayısı da önemlidir. Veri kümesinde gereğinden az veri bulunması durumunda çalışmanın değerlendirilmesi eksik olabilir. Gereğinden fazla veri ise veri kirliliğine ve işlem sürecinin uzamasına neden olabilir. Bundan dolayı veri seçimi dikkat edilmesi gereken önemli bir işlem adımıdır.

Veri Temizleme: Gürültülü ve tutarsız verilerin veri kümesinden çıkartılarak

verinin kalitesinin artırıldığı aşamadır. Yanlış girilen verilerin, değerlendirmeye almadan veri kümesinden çıkartılması tercih edilir. Çok büyük boyutlu veri tabanı ile çalışmak yerine örnekleme yapılması uygun olabilir. Verileri temizlemek sadece veri kümesinden eksik verileri çıkarmak gibi düşünülmemelidir, bazen eksik verilerin tamamlanması için modellemeler yapmak da söz konusu olabilir.

Veriyi Kurmak: Verileri tanımlayan mevcut değişkenler üzerinde düzeltmeler

yaparak model için daha kullanılabilir değişken setleri oluşturma aşamasıdır.

Veri Birleştirmek: Veri madenciliğinde problemler için kullanılacak verilerin

farklı ortamlardan toplanması veri uyumsuzluklarına sebep olmaktadır. Bu uyumsuzlukların başlıca sebepleri verilerin farklı zamanlara ait olmaları, güncelleme sırasında meydana gelen hatalar, kullanılan veri formatlarının farklı olması, gerçekleştirilen kodlama farklılıkları, farklı ölçü birimleri ve varsayım farklılıklarıdır. Bu adımda farklı ortamlardan toplanan verilerdeki uyumsuzluklar mümkün olduğu oranda giderilerek, verilerin tek bir veri tabanında toplanması amaçlanır. Bu aşamada çok dikkatli ve titiz davranmak gerekmektedir. Yapılacak bir hata, ileriki aşamalarda daha büyük sorunların ortaya çıkmasına neden olacaktır.

Veri Biçimleme: Veri seti oluşturulduktan sonra kullanılacak modele göre anlam

üzerinde her hangi bir değişikliğe meydan vermeyecek biçimlemelerin yapılması aşamasıdır.

Modelleme: Veri madenciliği problemleri için birden çok çözüm tekniği

bulunmaktadır. Bazı teknikler verilerde bir takım özel durumlara ihtiyaçlar duyarlar. Bundan dolayı veri hazırlama ve model kurma aşamaları, en iyi modele ulaşılıncaya kadar tekrar ettirilen bir süreçtir (Adriaans ve Zantige, 1996).

Model Tekniğini Seçmek: Kullanılacak veri madenciliği fonksiyonunun ve

algoritmasının belirlendiği aşadır.

Model Test Tasarımı Yapmak: Modelin çalıştırılıp sonuçlarının elde edilmesine

başlanmadan önce, modelin kalitesini ve geçerliliğini test etmek gerekmektedir. Verilerin hazırlanmasından sonra, ilk aşamada veri kümesinde bulunan verilerin bir kısmı modelin eğitilmesi, kalan kısmı ise modelin geçerliliğinin test edilmesi için ayrılır. Modelin eğitilmesi işlemi, eğitim kümesi kullanılarak gerçekleştirildikten sonra, test kümesi ile modelin doğruluk derecesi hesaplanır. Modelde yanlış olarak sınıflanan örnek sayısının, tüm örnek sayısına bölünmesi ile hata oranı, doğru olarak sınıflanan örnek sayısının tüm örnek sayısına bölünmesi ile ise doğruluk oranı hesaplanır (Akpınar, 2000).

Sınırlı oranda veriye sahip olunması durumunda, çapraz geçerlilik test yöntemi kullanılır. Bu yöntemde ele alınan veri kümesi rasgele iki eşit parçaya bölünür. İlk aşamada, ele alınan bir veri parçası üzerinde model eğitimi ve diğer veri parçası üzerinde test işlemi; ikinci aşamada ise ikinci veri parçası üzerinde model eğitimi ve birinci veri parçası üzerinde test işlemi gerçekleştirilerek elde edilen hata oranlarının ortalaması kullanılır.

Aynı teknikle farklı parametre değerlerinin kullanıldığı veya başka algoritma ve yöntemlerin kullanıldığı farklı modeller oluşturulabilir. Modellemeye başlamadan önce, hangi tekniğin daha uygun olduğuna karar verebilmek oldukça güçtür. Modellerin doğruluk derecelerine göre en uygun modeli bulmak için bir takım denemelerin yapılmasında fayda görülmektedir. Ancak oluşturulan modelin doğruluk derecesi ne kadar yüksek olursa olsun, gerçek dünya problemlerini tam olarak modellediğini garanti etmek mümkün değildir.

Modeli Kurmak: Modelde kullanılacak metodun ele alınan veri kümesi üzerinde

çalıştırılma aşamasıdır. Oluşturulan model doğrudan bir uygulama olabileceği gibi, bir başka uygulamaya ait bir alt parça olarak da kullanılabilir.

Modeli Değerlendirmek: Elde edilen tecrübeler ve test sonuçlarına göre modelin

değerlendirildiği aşamadır. Burada modelin teknik olarak değerlendirilmesi amaçlanır.

Değerlendirme: Bu aşama, modelin tüm detaylarıyla değerlendirilip ve ana

değerlendirilerek modelin geçerliliği ve uygunluğu konusunda kararlar alınır. Bu aşamada modelin hedefleri ne ölçüde karşıladığı değerlendirilir. Modelleme esnasında meydana gelen fakat ana hedefler ile ilişkili olmayan bir takım ek faydaların da bu aşamada tanımlanması uygun olur (Argüden ve Erşahin, 2008).

Yayma: Modelin tamamlanmış olması projenin bitmiş olduğu anlamına gelmez.

Modelin amacı veriler hakkında bir takım bilinen bilgileri artırmak dahi olsa, elde edilen veri kullanılacak biçimde düzenlenmeli ve sunulmalıdır. Bu işlem genellikle gerçek veriler içerisinden örneklerin sunulması şeklinde olur.

Benzer Belgeler