Veri Madenciliği Modelleri - VERİ MADENCİLİĞİ

4. VERİ MADENCİLİĞİ

4.4. Veri Madenciliği Modelleri

Büyük boyuttaki veri kümelerinden bilgi çıkarımı amacıyla farklı modeller geliştirilebilir. Bu modeller tahmin edici ve tanımlayıcı olarak iki gruba ayrılabilir [53]. Tahmin edici yapıda, elde olan veriler üzerinde modeller oluşturularak bu modellere göre gelecekte değerleri bilinmeyen veritabanları için sonuç değerlerinin tahmin edilmesi sağlanır. Bir mağazanın zaman üzerinde geçmişteki satışlarına bakılarak, gelecekte oluşabilecek keskin düşüşler belirlenebilir. Tanımlayıcı yapıda ise var olan veritabanı üzerinden bilgi çıkaracak kararların üretilmesine dayalıdır. Veri madenciliği modelleri, kişilerin satın alma alışkanlıklarını çıkarılması için kullanılan birliktelik kuralları, sınıflandırma, tahmin ve kestirim için kullanılan eğiticili öğrenme metotları ve eğiticisiz kümelemeyi kapsar [54]. Veri madenciliği modelleri birçok alanda uygulandığından bu alanlar ile ilgili isimler almışlardır. Örneğin, web sayfalarındaki log bilgilerinden ilginç örüntülerin çıkarılması amacıyla web kullanım madenciliği, büyük tekst verilerinden ilginç örüntülerin aranıp bulunması ile tekst madenciliği veya zaman üzerinde alınan verilerden ilginç örüntülerin çıkarılması ile zaman serileri veri madenciliği gibi alanlar ortaya çıkmıştır. Şekil 4.2’de temel veri madenciliği modelleri verilmiştir.

Veri Madenciliği Modelleri

Kümeleme Eğiticili öğrenme Birliktelik Kuralları

Sınıflandırma Tahmin Kestirim

Şekil 4.2. Veri madenciliği modelleri

4.4.1. Birliktelik Kuralları

Birliktelik kural madenciliği, geniş veri kümeleri içerisinden ilginç birliktelik ve bağıntıların bulunması amacıyla veritabanlarının taranmasıdır. Birliktelik kuralları, her bir kaydı

işlemlerden oluşan ve her bir işlemin de ürün birlikteliklerinden oluştuğu bir veritabanında en sık birlikte alınan ürün kümelerini aramak için veritabanını birçok kez tarar [55]. Büyük veri kümeleri içerisinden ilginç birlikteliklerin bulunması katalog tasarımı, reyon düzenlemesi gibi birçok karar verme sürecine katkıda bulunur. Birliktelik kural madenciliği için en temel örnek market sepet analizidir. Bu süreç müşterilerin alışveriş sepetlerindeki farklı ürünler arasındaki birliktelikleri bularak müşterilerin satın alma alışkanlıklarını analiz eder. Market sepet analizi sayesinde bir marketteki müşteriler için “süt alanların %80’i ekmek ve yumurta da alır” gibi bir kural çıkarılabilir. Birliktelik kuralları çıkarılırken bir işlem esnasında birden fazla ürün alınabildiği için, bir ürünün alınıp alınmadığı sıfır veya bir ile ifade edilir. Örneğin, “dizüstü bilgisayar alan kişiler aynı zamanda Windows Xp işletim sistemini de alır” şeklindeki bir kural denklem 4.1’deki gibi gösterilebilir.

Xp Windwos isayar

lg Bi

Dizüstü ⇒ [Destek=%30, Güven=%60] (4.1)

Denklem (4.1)’deki destek ve güven değerleri, birliktelik kuralının ilginçliğini ölçmek için kullanılır. Buradaki %30 destek değeri, incelenen veritabanındaki kişilerin %30’u hem bilgisayarı hem de Windows Xp yazılımını tercih ettiği anlamındadır. Güven değeri ise bilgisayarı tercih edenlerin %60’ı aynı zamanda Windows Xp yazılımını da aldığı anlamındadır. Destek ve güven değerleri aşağıdaki denklemler ile ifade edilir.

) B A ( P ) B A ( Destek ⇒ = ∪ (4.2) ) A | B ( P ) B A ( Guven ⇒ = (4.3)

Bir birliktelik kuralının ilginç olabilmesi için belirlenen minimum destek ve güven değerlerini sağlaması gerekir. Denklem (4.2)’de destek değeri, A ve B’nin birlikte bulunabilme olasılığını ifade eder. Denklem (4.3)’teki güven değeri ise A ürününün yer aldığı işlemin aynı zamanda B’yi de içerme olasılığını ifade eder. Şekil 4.3’te birliktelik kuralı için basit bir örnek verilmiştir.

) 7 . 66 % , 50 (% Tereyagı Sut ⇒ ) 100 % , 50 (% Sut Tereyagı ⇒ B A ⇒

Şekil 4.3 Birliktelik kuralları için bir örnek.

4.4.2. Sınıflandırma ve Tahmin

Sınıflandırma ve tahmin, önemli veri kümelerini tanımlayan modeller çıkarmak veya gelecekteki veri eğilimlerini tahmin etmek için kullanılır [54]. Sınıflandırma kategorik etiketler ile ilgilenirken, tahmin modelleri sürekli değerlikli fonksiyonlar ile ilgilidir. Örneğin, bir sınıflandırma modeli banka kredi uygulamalarını riskli veya güvenli olarak sınıflandırmak için kullanılabilir. Tahmin modelleri, gelir ve işi verilen müşterilerin giderlerini tahmin etmek için kullanılabilir. Sınıflandırma ve tahmin için makine öğrenmesi, istatistik ve uzman sistem kullanan birçok yöntem geliştirilmiştir. En çok kullanılanlar arasında yapay sinir ağları, bayesian sınıflandırma ve karar ağaçlarıdır [31]. Sınıflandırma işlemi temel olarak iki adımdan oluşur. İlk adımda veri sınıflarının ön tanımlı bir kümesini tanıyacak bir modelin oluşturulmasıdır. Bu eğitim aşaması olarak bilinir. Diğer adım ise gelen test verisinin hangi sınıfa ait olduğunu bulmaktır. Şekil 4.4’te sınıflandırma için eğitim kümesinden kuralların oluşturulmasının basit gösterimi verilmiştir.

Şekil 4.4’te gösterildiği gibi eğitim aşamasında sistem için sınıflandırma kuralları elde edildikten sonra gelen test verisinin en uygun düştüğü sınıf belirlenerek sınıflandırma işlemi yapılır.

4.4.3. Kümeleme

Kümeleme, verileri alt gruplara ayırmak için kullanılır. Sınıflandırmadan farklı olarak küme etiketleri yoktur. Aynı küme içerisindeki elemanlar birbirleri ile yüksek benzerlikte iken farklı bir kümedeki eleman ile benzerliği düşüktür [31]. Kümeleme için model tabanlı, hiyerarşik tabanlı, yoğunluk tabanlı ve grid tabanlı yöntemler kullanılır. Kümeleme örüntü tanıma, veri analizi, görüntü işleme gibi birçok alanda kullanılmaktadır. Şekil 4.5’te bir kümeleme örneği verilmiştir.

x x x x x x x x x x x x x x x x x x x x x x B o rç Gelir

Şekil 4.5. Kümeleme örneği

Kümeleme modellerinde amaç, şekil 4.5’ te görüldüğü gibi küme üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere bölünmesidir.

Başlangıç aşamasında, veri tabanındaki kayıtların hangi kümelere ayrılacağı veya kümelemenin hangi değişken özelliklerine göre yapılacağı bilinmemekte, konunun uzmanı olan bir kişi tarafından kümelerin neler olacağı tahmin edilmektedir. Bu yüzden kümeleme, denetleyicisiz öğrenmeye girer. Yaygın kullanım alanları nüfusbilimi, astronomi ve zaman serilerinin sınıflandırılması gibi alanlardır.

Belgede Arıza teşhisinde veri madenciliği ve yumuşak hesaplama tekniklerinin kullanımı / The using of data mining and soft computing techniques in fault diagnosis (sayfa 75-79)