Gürültülü Veri - Veri Madenciliğinde Karşılaşılan Problemler

3.4 Veri Madenciliğinde Karşılaşılan Problemler

3.4.2 Gürültülü Veri

Gerçek hayatta elde edilen veriler içinde mutlaka bazı sorunlar bulunur. Veri tabanları büyüdükçe pek çok niteliğin değeri yanlış olabilir. Hatalar, veri girişi sırasında

yapılan insan hataları ya da girilen değerin yanlış ölçülmesinden kaynaklanır. Veri girişi ya da veri toplanması sırasında oluşan sistem dışı hatalara gürültü adı verilir.

Gürültülü veriler ticari yazılımların çalıştığı veri tabanlarında da ciddi problemler oluşturmaktadır. Veri tabanlarından alınan veri kümelerinde bulunan gürültülü veriler üzerinde yapılan problem araştırmaları, tümevarımsal karar ağaçlarında uygulanan yöntemler bağlamında kapsamlı bir biçimde yapılmıştır. Buradan çıkan sonuca göre gürültülü verilerin tanımlanması ve ihmal edilmesi gerektiği ortaya çıkmıştır. Quinlan, gürültünün sınıflama üzerindeki etkisini araştırmak için bir dizi deney yapmıştır. Çıkan sonuçlarda etiketli öğrenme de gürültülü verilerin öğrenme algoritmasının başarımını doğrudan kötü yönde etkilediği görülmüştür (Quinlan 1986).

Buna karşın çalışmada eğitim kümesindeki nesnelerin özellikleri/nitelikleri üzerinde en çok %10’luk gürültü miktarı ayıklanabilmiştir. Gürültünün etkisini analiz etmek için istatistiksel yöntemlerde kullanmışlardır (Chan ve Wong 1991, Karabatak 2008).

3.4.3 Boş Değerler

Veri tabanlarında her bir satırın yerine vekil olarak atanabilecek birincil anahtar değer, haricinde diğer nitelikler boş değer alabilir. İlişkisel veri tabanlarında tasarımdan kaynaklanan nedenlerle nitelik değerleri boş olarak bırakılabilir. Boş değer içeren nitelikler tamamıyla ihmal edilir ya da niteliğe olası en yakın değer atanır (Quinlan 1986).

Lee, tarafından ilişkisel veri tabanını genişletmek üzere boş değeri; uygulanamaz, bilinmeyen ve her ikisini den biri olacak şekilde öne sürmüştür. Boş değerleri sistemde devre dışında bırakmak yerine bu değerlerin ne olabileceği yönünde de çalışmalar yapılmıştır. (Grzymala-Busse , Lee 1992, Luba ve Lasocki 1994)

3.4.4 Eksik Veri

Veri tabanları genel olarak veri madenciliği dışındaki amaçlar için tasarlanmışlardır. Bu nedenle, öğrenme görevini kolaylaştıracak bazı özellikler bulunmayabilir. Veri tabanlarında her nesne ayrıntılı biçimde tanımlansaydı, sınıflama işlemi basitçe nesnelerin altkümelerinden faydalanılarak yapılırdı. Veri tabanları o anki

yapılacak işlemlere göre tasarladığı için alınan bilgiler gerçek hayatı yeterince yansıtmayabilir. Örneğin bir hastalığı tanımlamak için orta yaşlı insanların bulunduğu veri kümelerinin tanısından çocuklar için aynı hastalığın tanısı konması pek sağlıklı olmaz.

3.4.5 Artık Veri

Veri madenciliği çalışması için veri tabanlarından elde edilen bilgilerde uygun olmayan veya artık nitelikler olabilir. Veri madenciliği çalışmaları sırasında veri tabanından alınan bilgiler çalışma yapılacak konuyla ilgili nitelikler alındığı gibi ilgisiz niteliklerde alınır. Artık nitelik olarak adlandırılan bu bilgileri elemek için geliştirilmiş algoritmalar özellik seçimi olarak adlandırılmaktadır. Özellik seçiminde çok sayıda niteliğe sahip olan bir veri tabanında konu ile ilgili olan en önemli niteliklerin seçilmesi amaçlanır. Bu sayede daha az işlem yükü ile yüksek başarım elde edilebilmektedir. Özellik seçimi yalnız arama uzayını küçültmekle kalmayıp, sınıflama işleminin kalitesini de arttırmaktadır (Almuallim ve Dietterich 1991, Kira 1992).

3.4.6 Dinamik Veri

Veri tabanları içerikleri her zaman ekleme, çıkarma, düzeltme gibi işlemler ile değişim halindedir. Bu dinamik yapıda veri içerikleri sürekli değiştiğinden veri madenciliği yöntemlerinde kuralların hala aynı kalıp kalmadığı ve istikrarlılığı problemi ortaya çıkmaktadır.

Mevcut veri tabanı ile birlikte veri madenciliği uygulamaları çalıştırıldığın da mevcut uygulamalarında performansını düşürür (Karabatak 2008). Eğer veri tabanından ayrı olarak çalıştırıldığında veri tabanındaki bilgiler değişmeyeceği için, değişen verinin elde edilen örüntülere yansıtılması gerekmektedir. Veri tabanları “triger” gibi tetikleme mekanizmalarına sahiptir. Bu özellik sayesinde farklı bir yerdeki bilgilerimiz sürekli güncellenerek mevcut uygulamada sorun çıkarmadan bilgi keşif işlemleri yapılabilmektedir (Karabatak 2008).

3.5 Birliktelik Kuralları

Günümüzde, birçok alandaki veriler bilgisayarlarda ve veri tabanları üzerinde saklanmaktadır. Son zamanlarda, otomatik tanıma ve veri toplama uygulamalarındaki gelişmeler sayesinde büyük verilerin elde edilmesi ve bunların saklamasını sağlayan yüksek kapasiteli depolama araçları çok hızlı bir şekilde gelişmiştir. Biriken geçmiş verilerin analiz edilerek bu veriler içindeki birliktelik davranışlarının tespiti ile geleceğe yönelik çalışmalar yapılmasını destekleyen yaklaşıma birliktelik kuralları denir.

Birliktelik kuralı, birçok alanda geniş kullanım alanına sahiptir ve nesnelerin veya niteliklerin bir arada olma durumlarını belirlemede kullanılmaktadır. Birliktelik kuralı bulma işlemi, yoğun nesne kümesi hesaplamaya dayalı bir işlem olup büyük veri tabanları üzerinde uygulanması oldukça zaman alıcı bir işlemdir (Koyuncu 2004).

Birliktelik kuralları büyük veri tabanlarının analiz edilerek ilginç birliktelik örüntülerini keşfederek karar verme, pazarlama ve iş yönetimine oldukça fayda sağlamaktadır. Bundan dolayı veri tabanlarında bilgi keşif işlemlerinde birliktelik kuralları konusu oldukça popüler olmaktadır. Bu kurallar anlaşılması basit ve kullanışlı olduğundan finans, telekomünikasyon, pazarlama, perakendecilik ve online ticaret gibi alanlarda geniş bir alanda kullanılmaya başlanmıştır (Han ve Fu 1995, Chen ve ark 2006).

Birliktelik kurallarının kullanıldığı en belirgin örnek market sepet analizidir. Bu işlem müşterinin sepetine koyduğu farklı ürünler arasındaki birliktelikleri bularak müşterinin satın alma alışkanlıklarını analiz etmektedir. Elde edilen sonuçlar perakendecilere birlikte satılacak ürünlerden daha iyi kazançlar elde etme konusunda pazarlama stratejileri geliştirme imkânı sağlamaktadır (Chen ve Lin 2007). Perakende satışlarında, yerleşim düzenin satın alma davranışlarını etkileyen önemli faktörlerden biri olduğu görülmektedir. Bu yüzden ürünlerin tiplerine ve markasına göre yerlerinin ayarlanması oldukça önemlidir. Sepet analizleri, müşteri dağılım bilgileri de içerdiğinden indirim, mağaza düzeni, ürün alımı, reklam, planlama yatırımları için karar alanları yardımcı olmaktadır (Yang ve Lai 2006) (Griffith 2005).

Belgede Veri madenciliği uygulamaları için veri indirgeme algoritmalarının geliştirilmesi ve resim madenciliğine uygulanması (sayfa 39-43)