Veri Madenciliği Teknikleri - Veri madenciliği uygulamaları için veri indirgeme algoritmalarını

Veri madenciliği teknikleri eldeki veri türüne ve elde edilen sonuçların kullanım amacına göre Tanımlayıcı ve Öngörüsel olmak üzere iki kategoride incelenebilir (Han ve Kamber 2001):

Tanımlayıcı kategori, verinin veri yığınları içindeki genel karakterini ve o anki durumuna yönelik yöntemleri içerir. Öngörüsel kategori ise eldeki verilere göre gelecekte neler olabileceğine dair tahminler, keşifler yapma, sonuç çıkarma yöntemlerini içerir.

Kullanıldıkları tekniklere göre veri madenciliği, veri yapılarına ve keşfedebildikleri örüntü biçimlerine göre kategorilere ayrılır. Veri madenciliği teknikleri için birçok gruplandırma yönteminden en çok kullanılan J.Han’a göre aşağıdaki şekilde kategorilere ayrılır.

a) Tanımlama ve Ayrımlama b) Birliktelik Analizi

c) Sınıflandırma ve Öngörü d) Kümeleme Analizi e) Sıradışılık Analizi

f) Evrimsel Analiz

3.3.1 Tanımlama ve Ayrımlama

Verilerin ortak özelliklerine göre genelleştirilmiş sınıflara ayrılabilirler. Bir eğitim kurumu öğrencilerin aldığı not durumlarına göre belirli bir ortalamanın üstünde olan öğrenciyi “Çalışkan”, ortalama düzeyinde olan öğrenciye “orta”, ortalamanın altında olan öğrenciye “zayıf” olarak tanımlayabilir. Genellemeler verilerin ortak özellikleri veya farklı veri tabanlarının diğer veri kümelerinden farklılıklarını yansıtacak şekilde olmalıdır.

a) Tanımlama: Verilerin genel özelliklerini özetlemek için kullanılır. Örneğin “bir eğitim kurumunda bu yıl başarı oranı, %15’in üzerinde artan dersler” ifadesi bir Tanımlama işlemidir.

b) Ayrımlama: Verilerin farklarını ortaya çıkarmak için kullanılır. Örneğin “bu yıl başarı oranı %10 artan dersler ile başarı oranı %20 azalan derslerin karşılaştırılması” Ayrımlama tabanlı veri madenciliğidir.

3.3.2 Birliktelik analizi

Veri kümesindeki kayıtlar arasındaki kendiliğinden, sıklıkla gerçekleşen, birlikte ya da aynı süre içinde alınma, oluşma etkileri gibi bağlantıları arayan denetimsiz veri madenciliğidir. Birliktelik analizi, müşterilerinin satın alma davranışlarını ortaya koymak için çoğu zaman perakende sektöründe kullanıldığından “pazar sepeti analizi” olarak da adlandırılır.

Sepet analizinde amaç ürün ile ürünü alanlar arasındaki ilişkileri bulmaktır. Eğer X malını alanların Y malını da çok yüksek olasılıkla aldıklarını biliyorsak, X malını alan her müşterinin Y malını almak için potansiyel bir müşteri olduğunu bilebiliriz. Birliktelik analizi yalnızca mal ve hizmetlerin birlikte satın alınması için değil, aynı zamanda hangi koşulları sağlayan müşterilerin hangi ürünleri alacağı hakkında da çözümler getirmektedir.

3.3.3 Sınıflandırma ve Regresyon

Sınıflandırma işlemi insan düşünce yapısına en uygun ve veri madenciliği tekniklerinde en çok kullanılanıdır. Mevcut verilere dayanarak gelecekteki durumlarla ilgili öngörü yapılmasında ve yeni eklenen veri elemanının daha önceden belirlenmiş sınıflara atamak için kullanılır. Sınıflandırma, bir veri öğesini, önceden tanımlı sınıflardan birine tasnif ederken, regresyon süreklilik gösteren değerlerin tahmin edilmesinde kullanılır.

Sınıflandırma işlemine, bir okulda yeni gelen öğrencilerin hangi sınıfta eğitim görmesi gerektiğinin belirlenmesi örnek olarak verilebilir. Regresyon işlemine örnek olarak deprem tahmini verilebilir.

Sınıflama ve regresyon modeli birbirine giderek yaklaştığı için aynı tekniklerden yararlanılması mümkün olmaktadır.

Sınıflama ve regresyon modellerinde kullanılan başlıca teknikler şunlardır; a) Karar Ağaçları

b) Yapay Sinir Ağları c) Genetik Algoritmalar d) K-En Yakın Komşu e) Bellek Temelli Nedenleme f) Lojistik Regresyon

g) Destek Vektör Makineleri

3.3.4 Kümeleme analizi

Veri tabanındaki verileri alt kümelere ayıran yöntemde, her kümede yer alan veriler birbirlerine çok benzerler, özellikleri farklı olan veriler ise farklı kümelerde bulunmaktadır. Kümeleme analizinde en önemli özellik, sınıf içi benzerliği maksimum, sınıflar arası benzerliği minimumda tutmaya çalışmaktır (Han ve Kamber 2001).

Sınıflandırma ve regresyon işleminin aksine kümeleme yönteminde, veri kümesini önceden kategorilere ayrılmaz, bunun yerine veriler dağılımlarına göre araştırılarak doğal sınıflandırmalar oluşturulur. Kümeleme analizinin sınıflandırma işleminden en önemli farkı önceden belirlenmiş sınıflar ya da sınıf tanımları (etiketleri)

olmamasıdır. Bu yüzden kümeleme işlemi gözetimsiz (unsupervised) veri madenciliği yöntemidir.

Kümelemede, genellikle bir kayıt kendisine en yakın kümeye atanır ve bu kümeyi tanımlayan değeri değiştirir. Optimum çözüm bulununcaya kadar kayıtlar yeniden atanır ve küme merkezleri ayarlanır. En yaygın kullanılan kümeleme algoritması “k ortalamalar algoritması” dır (Akbulut 2006).

Kümeleme analizi sadece veri madenciliğinde değil, örüntü tanıma, görüntü işleme, coğrafi bilgi sistemleri gibi birçok alanda yoğun olarak kullanılmaktadır.

3.3.5 Sıradışılık analizi

Sıradışılık analizi, veri tabanındaki verilerin genel özelliklerinden veya veri dağılımlarından farklılık gösteren nesnelere sıra dışı denir. Birçok veri madenciliği yöntemi istisnaları gürültü veya aşırı durumlar olarak görüp dikkate almasa da bazı durumlarda istisna noktalar genele uyan verilere göre çok daha fazla bilgi içerebilir. Kredi kartı veya sigorta sahtekârlıklarının tespitinde normal veriler haricinde uyuşmayan veriler daha çok işe yaramaktadır. Aynı zamanda tıp biliminde yeni bir hastalığın başlangıcını tespit etmede de sıradışılık analizi kullanılabilir.

Sıradışılık analizinde istatistik ve yoğunluk tabanlı yöntem olmak üzere iki yöntem mevcuttur (Han ve Kamber 2001). İstatistik tabanlı yöntem, çok büyük veri yapılarında yoğun hesaplama gerektirdiği için performansı düşüktür. Standart sapma gibi istatistik yöntemleriyle istisnalar tespit edilir. Yoğunluk tabanlı yöntem de ise her noktanın çevresindeki komşularıyla ilgili yakınlıkları hesaplanır. Yeterince komşu olmayan noktalar tespit edilir (Dinçer 2006).

3.3.6 Evrimsel analiz

Nesnelerin zamanla davranışlarının sisteme uygunluğunu ya da eğilimlerini bulmayı amaçlar (Han ve Kamber 2001).

Evrimsel analiz tanımlama, diğer veri madenciliği tekniklerini içerse de asıl amacı verinin zaman ile ilişkisini ortaya çıkarmaya çalışır. Birçok kaynakta bağımsız bir kategoride değerlendirilse de J.Han tarafından veri madenciliği içinde kategorilendirilmiştir.

Belgede Veri madenciliği uygulamaları için veri indirgeme algoritmalarının geliştirilmesi ve resim madenciliğine uygulanması (sayfa 35-39)