• Sonuç bulunamadı

2.2. Veri Madenciliği

2.2.3. Veri Madenciliği Süreci

Veri madenciliği çalışmalarının istendiği gibi başarılı bir şekilde sonuçlanması isteniyorsa sistematik bir yaklaşımda bulunmak gerekmektedir. Kullanılan süreçlerde yapılacak hatalar (örneğin, veri boyutlarının ve sınırlarının net olmayışı) ve gözden kaçırılan durumlar araştırmacı için zaman kaybına ve bunun beraberinde ciddi hatalar ortaya çıkarabilmektedir. Veri madenciliğini sistematik bir şekilde yürütebilmek için 1996 yılında Veri Madenciliği için Sektörler Arası Standart konsorsiyumu kurulmuştur. Bu çalışmada bu süreç CRISP-DM adıyla anılacaktır. Bu konsorsiyum tarafından belirlenen veri madenciliği süreci beş aşamadan oluşmaktadır (Gürsoy, 2009, s. 64).

15

Şekil 2. Veri madenciliği süreci

1. Problemin veya Projenin Tanımlanması (iş’ i anlamak) 2. Veri Anlama

3. Veri Hazırlama 4. Modelin Kurulması

5. Modelin Değerlendirilmesi 6. Modelin Uygulanması

2.2.3.1.Problemin veya Projenin Tanımlanması

Veri madenciliği sürecinin ilk adımı çalışmasının hangi amaç için yapılacağının ve çalışmanın gerekliliklerinin anlaşılmasının ortaya çıkarılmasıdır. Cevap aranan sorunun üzerine odaklanılmalı, net biçimde ifade edilmeli ve sonuç değerlendirme kriterleri tanımlanmalıdır. Araştırmanın ve veri madenciliğinin amacını, mevcut durumun değerlendirilmesiyle planlama sürecinin belirlenmesini kapsar. Çalışma sonucunda ortaya çıkacak sonucun hangi durumlarda kullanılacağına karar verilir. Veri madenciliğinin temel amacı veri arttırmak olduğundan sonuçlar kadar sürecin kendisi de önemlidir. Problemin veya projenin tanımlanması aşaması eldeki verilerin, risklerin ve maliyetler gibi kriterlerin hepsinin değerlendirildiği bir süreçtir (Ergüden & Erşahin, 2008, s. 15).

16

2.2.3.2.Veri Anlama

Verileri inceledikçe proje ile ilgili farklı bakış açısı kazanmak mümkündür. Proje ile ilgili farklı bakış açısı kazandıkça daha farklı verilere bakılır ve bu döngü dahilinde çalışma sürecinde kullanılacak veriler netlik kazanır. Bu süreçte veri toplanarak, toplanan verilerin ihtiyaçlara cevap verip vermediğinin değerlendirmesi yapılır. Çalışmada kullanılacak verilerden eksik verinin olup olmadığının ve verilerin doğru olup olmadığının değerlendirilmesi yapılır (Ergüden & Erşahin, 2008, s. 16).

2.2.3.3.Veri Hazırlama

Veri hazırlanmasını bir süreç olarak ele almak gerekmektedir. Başlangıç verilerinin çalışmada kullanılacak şekilde hazırlanması amaçtır. Bu sürecin belirli bir sırası yoktur, karşımıza çıkan herhangi bir sorunda sıklıkla geriye dönülerek gözden geçirilebilir. Büyük miktardaki veri tabanlarından verilerin kullanımı zor olacaktır. Bu büyük veri setleri içerisinde bulunan veriler, veri madenciliği için uygun hale getirildiğinde veri tabanları, veri madenciliği için daha kaliteli bir çalışma alanı haline getirilmiş olur. Söz konusu süreç aşağıdaki adımları içermektedir (Han & Kamber, 2001, s. 142):

1. Verilerin Toplanması 2. Verilerin Temizlenmesi 3. Verilerin Bütünleştirilmesi 4. Verilerin İndirgenmesi 5. Verilerin Dönüştürülmesi 2.2.3.3.1.Verilerin Toplanması

Modelin kurulabilmesi için gereken bilgilerin hazırladığı bu aşamada problem için gerekli olan verilerin toplanmasında öncelikle veri kaynaklarının belirlenmesi gerekir. Bu veriler birincil veri kaynaklarından bulabileceği gibi farklı veri tabanlarından da bulabilmektedirler. Kullanılacak verilerin sayısı iyi ayarlanmalıdır. Eğer az miktarda veri kullanılırsa istenilen sonuçlar elde edilemeyebilir, çok fazla miktarda veri kullanıldığında ise veri kirliliği meydana gelir ve sürece katkı sağlamayacaktır. Aynı şekilde toplanan verilerin güvenilir olup olmadığı doğru sonuçlara ulaşılıp ulaşılmayacağını etkileyecektir. Bu nedenle veri

17

madenciliğinde doğru sonuçları elde etmek için toplanan verilerin yeterli sayıda ve güvenilir kaynaktan toplanması gerekmektedir (Yıldırım, 2016).

2.2.3.3.2.Veri temizleme

Bazı uygulamalarda, üzerinde çözümleme yapılacak verilerin eksik olması ya da uygun olmaması gibi sorunlarla karşılaşılabilir. Veri tabanlarında yer alan bu hatalı verilere gürültü veri denilmektedir (Han & Kamber, 2001, s. 143). Bu aşamada veri setleri içerisinde bulunan bazı kötü verileri düzeltmek, yanlış girilmiş verileri temizlemek ve çok ayrıntı içeren verileri süzerek onların arasından işe yarayan verileri modelde kullanmak için yapılan işlemleri içerir (Nisbet vd., 2009). Eksik ve hatalı verilerin yerine yenileri belirlenerek konulmalıdır. Eksik verilerin yaratacağı sorunları ortadan kaldırmak için kullanılan teknikler aşağıdakilerden biri olabilir (Han & Kamber, 2001, s. 143):

• Eksik değer içeren kayıtları bulunduğu veri tabanından çıkartmak ya da bu kayıtları iptal etmek,

• Kayıp değerleri tüm değişkenlerde aynı sabit değerle doldurmak. Örneğin “bilinmiyor” değeri kullanılabilir.

• Tüm veriler kullanılarak değişkenin ortalaması hesaplanır ve eksik değer yerine bu ortalama değeri verilebilir.

• Sadece bir sınıfa ait örneklerin ortalaması hesaplanarak eksik değerin yerine konulabilir.

• Regresyon yöntemi kullanarak eksik değer tahmini yapılabilir (Özkan, 2008, s. 40).

2.2.3.3.3.Verilerin Bütünleştirilmesi

Farklı veri kaynaklarından elde edilen verilerin birlikte değerlendirilebilmesi için farklı türdeki verilerin tek bir veri tabanına dönüştürülmesi gerekir. Bu aşamada ilgisiz niteliklerin atılır ve tekrarlı kayıtların temizlenerek farklı kaynaklar arasındaki uyumsuzluklar giderilmeye çalışılır (Ersöz, 2013, s. 59).

18

2.2.3.3.4.Verilerin İndirgenmesi

Veri çözümleme işlemi veri madenciliğinde bazen çok uzun zaman alabilmektedir. Değişken sayısının ve veri sayısının çok fazla olduğu durumlarda çözümleme yaparken elde edilecek sonucun değişmeyeceğine inanılıyorsa veri sayısında azaltılma yapılabilir (Han & Kamber, 2001, s. 144). Veri indirgeme yöntemleri Şekil 3’ de şematik olarak gösterilmiştir.

Şekil 3. Veri indirgeme yöntemleri

Veri İndirgeme Yöntemleri Birleştirme Veya Veri küpü Boyut İndirgeme Genelleme Örnekleme Veri Sıkıştırma

19

Şekil 4.Veri indirgeme yöntemleri tanımları

2.2.3.3.5.Verilerin Dönüştürülmesi

Veri madenciliğinde bazı durumlarda kullanılan kaynakları çözümlemeye doğrudan dahil etmek uygun olmayabilir. Değişkenler açısından, her değişkenin ortalama ve varyansları birbirinden önemli ölçüde farklı olacağından büyük ortalama ve varyansa sahip olan değişkenler diğerleri üzerinde daha baskın olacaktır ve bu da diğer değişkenlerin önemini azaltacaktır. Değişkenler içerisinde bulunan çok küçük ya da çok büyük değerler

• Veriler çok boyutlu veri küpleri biçimine dönüştürülür. Dağınık ve düzensiz olan veriler toplanarak yararlı ve düzenli şekle getirilir. Kirli ve gereksiz veriler silinir. Örneğin, aylık bazda kayıtları tutulan satışların, üçer, altışar aylık ya da yıllık olarak gösterilmesi gibi. Veri küpleri ise çok değşkenli birleştirilmiş bilginin saklandığı küplerdir. Örneğin bir firmanın satışı yapılan modelleri, renkleri ve mağazaları aynı küp üzerinde gösterilebilir (Han & Kamber, 2001, s. 145).

Veriyi birleştirme veya veri küpü

• Verilerden ilgisiz, az ilgili veya gereksiz olan değişkenlerin kaldırılmasıdır. Veri kümesi bazen, bir ürünün satışına ilişkin olarak düzenlenen bir veri kümesinde, tüketicilerin telefon numaraları veya e- mailleri gibi gereksiz olarak yüzlerce değişken içerebilir. Bu tür gereksiz değişkenler elde edilecek örüntüleri kalitesizleştirebileceği gibi veri madenciliği sürecinin yavaşlamasına da yol açacaktır (Han & Kamber, 2001, s. 145).

Boyut indirgeme

• Veri seti büyüklüğünü azaltmak amacı ile veri şifreleme veya veri dönüşümü ile yapılan işlemlerdir (Han & Kamber, 2001, s. 145).

Veri sıkıştırma

• Tüm veri kümeleri yerine onu temsil eden küme grupları kullanılır (Han & Kamber, 2001, s. 145).

Örnekleme

• Veriler tek tek değil genel kavramlarla ifade edilir (Han & Kamber, 2001, s. 145).

20

çözümlemenin hatalı sonuç çıkartmasına neden olabilmektedir. Verilerin dönüştürülmesi sayesinde veriler arasında çözümlenin etkilenmemesi sağlanmaktadır (Özkan, 2008, s. 61).

2.2.3.4.Modelin Kurulması

Modelin kurulması aşaması, verilerden anlamlı bilgileri çekmek için ileri çözümleme yöntemleri kullanıldığından veri madenciliğinin en gösterişli aşamasıdır. Veri madenciliği yardımıyla uygun teknikler kullanılarak farklı durumlar için sonuç üretilmektedir. (Olson & Shi, 2007, s. 185). Diğer bir ifadeyle anlatmak gerekirse model için kullanılacak algoritmanın hazırlanan veri üzerinde çalıştırılmasıdır.

Bu aşamada tanımlanan probleme en uygun modelin bulunabilmesi için çok sayıda modelin test edilmesi söz konusudur. Bu nedenle en iyi modele ulaşılıncaya kadar süreç devam eder. Model kuruluş süreci denetimli (supervised) ve denetimsiz (unsupervised) öğrenimin kullanıldığı modellere göre farklılık göstermektedir. Denetimli öğrenme diğer ismiyle örnekten öğrenmede, bir denetçi tarafında önceden belirlenen denetimli sınıflar birtakım kriterlere ayrılarak, her sınıf için çeşitli örnekler verilir. Amaç verilen örneklerden hareketle her bir sınıfa ilişkin özelliklerin bulunmasıdır. Öğrenme süreci tamamlandığında, tanımlanan kurallar verilen yeni örneklere uygulanır ve yeni örneklerin hangi sınıflara ait olduğu kurulan model tarafından belirlenir. Denetimsiz öğrenmede, kümeleme analizinde olduğu gibi ilgili örneklerin gözlemlenmesi ve bu özellikleri arasındaki benzerlikler doğrultusunda sınıfların tanımlanması amaçlanmaktadır (Yavuz, 2009).

Modellerin kurulması aşamasında kullanılan değişkenlerin arasındaki ilişki düzeyleri olması gerekenden fazla ise, daha anlamlı değeri modele almak sağlıklı olacaktır. Model seçimi yapıldıktan sonra eğer en doğru modelin kurulduğu düşünülüyorsa modelin değerlendirilmesi aşamasına geçilir (Ersöz, 2013, s. 83).

2.2.3.5.Modelin Değerlendirilmesi

Bu aşamada kurulan modeller karşılaştırılarak en iyi model seçilir. Kurulan modeller içinden en doğru sonucu verenin bulunabilmesi için bazı teknikler ve yöntemler geliştirilmiştir (Ersöz, 2013, s. 85). Modelin değerlendirilmesi aşamasında kullanılan en basit yöntem geçerlilik testleridir. Büyük veri yığınları için uygulanacak ise basit geçerlilik, küçük veri yığınları için uygulanacak ise çapraz geçerlilik testleri kullanılır. Basit geçerlilik testinde

21

verilerin %5 ile %33 arasındaki bir kısmı test verileri olarak ayrılır. Geri kalan kısım üzerinde modelin öğrenimi gerçekleştirildikten sonra, bu veriler üzerinde test işlemi yapılır. Bir sınıflama modelinde doğru olarak sınıflanan olay sayısının, tüm olay sayısına bölünmesi ile doğruluk oranı, yanlış olarak sınıflanan olay sayısını, tüm olay sayısına bölünmesi ile hata oranı hesaplanır (Doğruluk Oranı= 1- Hata Oranı) (Terzi, Küçüksille, Ergin & İlker, 2011). Çapraz geçerlilik testinde ise veriler rastgele iki eşit parçaya ayrılır. Ayrılan birinci parça üzerinde modelin eğitimi ve ikinci parça üzerinde modelin test işlemi yapılır. Daha sonra ise tam tersi yapılır. Yani; ikinci parça üzerinde modelin eğitimi ve birinci parça üzerinde modelin test işlemi yapılır. Her iki işlem sonucunda ulaşılan hata oranlarının ortalaması kullanılır (Yaralıoğlu, 2004, s. 24).

Kurulan modelin doğruluk derecesi ne kadar yüksek olursa olsun, gerçek dünyayı tam anlamıyla modellediğini garanti etmek mümkün değildir. Modeller yaygın kullanıma alınmadan önce sonuçlarının ve güvenirliliklerinin mutlaka kontrol edilmesi gerekmektedir. Gain, profit, lift ve response grafikleri bu aşamada yararlanılabilinecek uygulamalardandır (Ersöz, 2013, s. 89).

2.2.3.6.Modelin Uygulanması

Modelin uygulanması aşamasında, modelin doğruluğuna ve genelliğine ilişkin faktörlerle ilgilenilir. Kurulan ve geçerliliği kabul edilen model doğrudan bir uygulama olabileceği gibi, bir başka uygulamanın alt parçası olarak kullanılabilir. Zaman içerisinde bütün sistemlerin özelliklerinde ve dolayısıyla ürettikleri verilerde değişiklikler meydana gelebilir. Bu durum kurulan modellerin sürekli olarak izlenmesini ve gerekiyorsa yeniden düzenlenmesini gerektirecektir. Sonuç olarak ortaya çıkan model ihtiyaçları karşılayarak tatmin edici olmalıdır. (Ayık, Özdemir & Yavuz, 2007).

Benzer Belgeler