• Sonuç bulunamadı

Veri madenciliğinde apriori algoritması ve apripori algoritmasının farklı veri kümelerinde uygulanması

N/A
N/A
Protected

Academic year: 2021

Share "Veri madenciliğinde apriori algoritması ve apripori algoritmasının farklı veri kümelerinde uygulanması"

Copied!
82
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

FEN BĠLĠMLERĠ ENSTĠTÜSÜ

VERĠ MADENCĠLĠĞĠNDE APRĠORĠ ALGORĠTMASI VE APRĠORĠ ALGORĠTMASININ FARKLI

VERĠ KÜMELERĠNDE UYGULANMASI Ali Cenk GÜLCE

Yüksek Lisans Tezi

Bilgisayar Mühendisliği Ana Bilim Dalı DanıĢman: Yrd. Doç. Dr. NurĢen SUÇSUZ Yardımcı DanıĢman: Yrd. Doç. Dr. Nilüfer YURTAY

(2)
(3)

ÖZET

Günümüzde teknoloji sayesinde çok büyük miktarda veri elde edilip saklanabilmektedir. Bilindiği gibi veriler tek baĢlarına değersizdirler. Bu veriler ancak belli bir amaç doğrultusunda iĢlendiği zaman anlamlı hale gelmektedir. Veri madenciliği, büyük miktardaki mevcut veri içinden anlamlı, potansiyel olarak kullanıĢlı, gelecekle ilgili tahmin yapılmasını sağlayan bağıntı ve kuralların bilgisayar programları kullanarak bulunmasıdır.

Veri madenciliğinde en sık kullanılan yöntemlerden bir tanesi birliktelik kurallarıdır. Birliktelik kuralları, aynı iĢlem içinde çoğunlukla beraber görülen nesneleri içeren kurallardır.

Apriori algoritması, veri madenciliğinde sık geçen öğelerin keĢfedilmesi için kullanılan en çok bilinen birliktelik-iliĢki kuralı algoritmasıdır. Sık geçen öğeleri bulmak için birçok kez veritabanını taramak gerekir, bu taramalar aĢamasında Apriori algoritmasının birleĢtirme, budama iĢlemleri ve minimum destek ölçütü yardımı ile birliktelik iliĢkisi olan öğeler bulunur.

Bu tez çalıĢmasında, veri madenciliği ile ilgili kavramlar ve özellikle market sepet analizinde kullanmak üzere birliktelik kuralları üreten apriori algoritması detaylı bir Ģekilde ele alınmıĢtır. Apriori algoritması market sepet analizinden farklı bir veri küme seti üzerine uygulanmıĢtır. Örnek anket veri setinden, apriori algoritması kullanılarak birliktelik kurallarını bulan bir uygulama geliĢtirilmiĢtir. Bu uygulama içinde, veri tabanı dönüĢüm iĢlemi gerçekleĢtirilmiĢtir.

Anahtar Kelimeler: Veri madenciliği, Apriori algoritması, Birliktelik kuralları, Market sepet analizi, Apriori algoritmasının farklı veri kümelerine uygulanması, Apriori algoritmasının anket verileri üzerine uygulanması

(4)

ABSTRACT

Today, large amounts of data can be collected and stored by using technology. As known the data are worthless alone. These data would be significant only if they worked in the aim of this subject. Data mining is the process of finding the rules and the correlations among the large amounts of data by the computer programmes, which are understandable, potentially useful and provide predictions about the future.

In data mining, association rules are one of the most frequently used methods which are the special application areas of the data mining. Association rules are the rules that include which items commonly occur together in the same transactions.

The Apriori algorithm is the most popular association rule algorithm which discovers all frequent itemsets in large database of transactions. This algorithm uses iterative approach to count the frequent itemsets. Using this algorithm, candidate patterns which receive sufficient support from the database and the algorithm uses aprior gen actions join and prune to find all frequent itemsets.

In this thesis, concepts about the data mining and apriori algorithm especially using in the market-basket analysis to produce the association rules are examined in details. Apriori algorithm was applied to dataset which is different from market basket analysis. An application was developed to find association rules from sample poll datasets by using apriori algorithm. Dataset transformation algorithm was developed and applied in this application.

Keywords: Data mining, Apriori algorithm, Association rules, Market basket analysis, Applying apriori algorithm for different datasets, Applying apriori algorithm for poll datasets

(5)

TEġEKKÜR

Bu çalıĢmanın hazırlanmasında bana yol gösteren, hiçbir yardımı esirgemeyen değerli hocam Yrd. Doç. Dr. Nilüfer YURTAY‟ a, tez çalıĢmamda ve yazımında bana yardımcı olan ve desteğini esirgemeyen değerli hocam Yrd. Doç. Dr. NurĢen SUÇSUZ‟ a, bu çalıĢmanın hazırlanması sırasında baĢından sonuna kadar yanımda olup hiçbir yardımdan kaçınmayan baĢta Emre ÖZER olmak üzere tüm arkadaĢlarıma ve benim bu seviyeye gelmemde en büyük katkıya sahip, hayatımın her aĢamasında bana destek olan sevgili aileme sonsuz teĢekkürlerimi sunarım.

(6)

ĠÇĠNDEKĠLER

ÖZET ... ĠĠĠ ABSTRACT ... ĠV TEġEKKÜR ... V ĠÇĠNDEKĠLER ... VĠ SĠMGELER VE KISALTMALAR LĠSTESĠ ... VĠĠĠ ġEKĠLLER LĠSTESĠ ... ĠX TABLOLAR LĠSTESĠ ... X

1. GĠRĠġ ... 1

2. VERĠ MADENCĠLĠĞĠ ... 4

2.1. LĠTERATÜRDE VERĠ MADENCĠLĠĞĠ ... 5

2.2. VERĠ MADENCĠLĠĞĠNĠN GELĠġĠMĠNDEKĠ ETKENLER ... 7

2.3. VERĠ MADENCĠLĠĞĠ SÜRECĠ ... 8

2.4. VERĠ MADENCĠLĠĞĠNĠN UYGULAMA BASAMAKLARI ... 9

2.5. VERĠ MADENCĠLĠĞĠNĠN UYGULAMA ALANLARI ... 10

2.6. VERĠ MADENCĠLĠĞĠ UYGULAMALARINDA KARġILAġILAN PROBLEMLER ... 15

2.7. METODOLOJĠ ... 16

2.8. VERĠ MADENCĠLĠĞĠ TEKNĠKLERĠ ... 17

2.8.1. Sınıflama ... 17 2.8.1.1. Diskriminant analizi ... 18 2.8.1.2. Naive bayes ... 19 2.8.1.3. Karar ağaçları ... 19 2.8.1.4. Sinir ağları ... 20 2.8.1.5. Kaba kümeler ... 20 2.8.1.6. Genetik algoritma ... 20 2.8.1.7. Regresyon analizi ... 21 2.8.2. Kümeleme ... 21 2.8.2.1. Bölümleme yöntemleri ... 22 2.8.2.2. HiyerarĢik yöntemler ... 22

(7)

2.8.2.4. Izgara tabanlı yöntemler ... 23

2.8.2.5. Model tabanlı yöntemler ... 24

2.8.3. Birliktelik Kuralları ve Ardışık Örüntüler ... 24

2.8.4. Bellek Tabanlı Yöntemler ... 24

2.8.5. Yapay Sinir Ağları ... 25

2.8.6. Karar Ağaçları ... 25

3. BĠRLĠKTELĠK KURALI ... 26

3.1. BĠRLĠKTELĠK KURALININ MATEMATĠKSEL GÖSTERĠMĠ ... 27

3.1.1. Güven (confidence) ve destek (support) kavramları ... 30

3.2. APRĠORĠ ALGORĠTMASI ... 33

4. UYGULAMA ... 45

4.1. KULLANILAN TEKNOLOJĠLER ... 46

4.2. VERĠLERĠN HAZIRLANMASI ... 46

4.3. APRĠORĠ ALGORĠTMASI ĠLE UYGULAMA ... 51

5. SONUÇLAR ... 66

KAYNAKLAR ... 68

(8)

SĠMGELER VE KISALTMALAR LĠSTESĠ

A B : A ürünün bulunduğu satıĢlarda B ürünün de bulunması olayı A T : A, T‟ nin alt kümesi

Ck : K adetli sık geçen aday veri setleri

I A : I birleĢim A

Lk : Sık geçen k adet öğeli veri setleri

k

L Lk : K öğeli veri setlerinin kombinasyonları min_destek : Minimum destek değeri

min_güven : Minimum güven değeri SQL : Structured Query Language

(9)

ġEKĠLLER LĠSTESĠ

ġekil 2.1. Veri madenciliği çalıĢmasında kullanılan metodoloji ... 16

ġekil 3.1. Apriori algoritması akıĢ diyagramı ...……… 34

ġekil 3.2. Apriori algoritması özet kodu ………... 36

ġekil 3.3. Apriori-gen iĢleminin özet kodu ... 37

ġekil 3.4. Apriori budama iĢleminin grafiksel gösterimi ... 38

ġekil 4.1. Uygulama akıĢ diyagramı ... 45

ġekil 4.2 Tablo iliĢkileri ………...………. 47

ġekil 4.3 Taraftar anketi demografik bilgiler giriĢ ekranı ……… 48

ġekil 4.4 Taraftar bilgileri giriĢ ekranı ………. 49

ġekil 4.5 AlıĢveriĢ alıĢkanlıkları giriĢ ekranı ……….... 50

(10)

TABLOLAR LĠSTESĠ

Tablo 2.1. Veri madenciliği uygulama alanları ve oranları ... 14

Tablo 3.1. Ürün satıĢ tablosu ... 31

Tablo 3.2. Apriori algoritmasında kullanılan değiĢkenler ... 35

Tablo 3.3. Hareketler ve ürünler tablosu ... 39

Tablo 3.4. Tekli birlikteliklerin destek değerleri ... 40

Tablo 3.5. Minimum destek değerini sağlayan ürünler ………. 40

Tablo 3.6. Ġkili birliktelikler ve destek değerleri ... 41

Tablo 3.7. Ġkili birlikteliklerden destek değerini sağlayan setler ... 42

Tablo 3.8. Üçlü birliktelikler ve destek değerleri ... 42

Tablo 3.9. Üçlü birlikteliklerden destek değerini aĢan ürün setleri ... 43

Tablo 3.10. Üçlü birlikteliklerden çıkan birliktelik kuralları ... 44

Tablo 4.1. Ürünler tablosu ... 52

Tablo 4.2. Anket veri tablosu ... 53

Tablo 4.3. Eğitim durumları tablosu ... 54

Tablo 4.4. ĠĢlemler tablosu ... 54

Tablo 4.5. Ürünler tablosu ... 56

Tablo 4.6. ĠĢlemler tablosu ... 57

Tablo 4.7. C1 ve L1 tabloları ... 59

(11)

Tablo 4.9. C3 ve L3 tabloları ... 61

Tablo 4.10. C3 ve L3 tabloları iterasyon sonu ... 62

Tablo 4.11. Kurallar tablosu ... 64

(12)

1. GĠRĠġ

GeliĢen ve değiĢen teknoloji sayesinde biliĢimde de baĢ döndürücü hızda geliĢmeler yaĢanmaktadır. Bu geliĢmeler sayesinde bilgisayar sistemleri de her geçen gün hem daha fazla ucuzlamakta, hem de teknik anlamda kapasiteleri geliĢmektedir. ĠĢlemciler hızlanmakta, disklerin kapasiteleri artarken fiziksel yapıları da küçülmektedir. Bu sayede artık bilgisayarlar daha büyük miktardaki veriyi saklayabilmekte ve daha kısa sürede iĢleyebilmektedir. Bu geliĢmeler doğrultusunda bilgisayar ağlarındaki alt yapı kalitesinin artmasıyla veriye baĢka bilgisayarlardan da hızla ulaĢabilmek mümkün olmaktadır. Bu geliĢmeler ekonomik yapılanmayı da peĢinden getirmektedir. Yeni bir sistem geliĢtirildiğinde otomatikman eski sistemlerin fiyatları da ucuzlamaktadır. Bilgisayarların ucuzlaması ise sayısal teknolojiyi daha yaygın olarak kullanılabilir hale getirmektedir. Bu yaygın teknoloji veriyi depolamada sayısal sistemin kullanılmasına imkân tanımaktadır. Veri doğrudan sayısal olarak toplanmakta ve saklanmaktadır. Buda detaylı ve doğru bilgiye daha rahat ulaĢabilmeyi sağlamaktadır.

Bu geliĢmeler günlük hayatta kullanılan birçok araç ve gerecinde fonksiyonelliklerini arttırmaktadır. Mesela cep telefonları sadece telefon olmaktan çıkarak, fotoğraf makinesi, hesap makinesi, telefon defteri ajanda vb. özelliklerle günlük yaĢantıda vazgeçilmez bir köĢeye yerleĢmiĢtir. Örneğin, eskiden marketlerdeki yazarkasalar basit bir hesap makinesi gibi müĢterinin satın almıĢ olduğu ürünlerin bedelini hesaplamak için kullanılmaktayken, günümüzde kasa yerine kullanılan satıĢ noktası terminalleri sayesinde yapılan alıĢveriĢin bütün detayları veri olarak saklanabilmektedir. Saklanan bu binlerce malın ve binlerce müĢterinin hareket bilgileri sayesinde her malın zaman içindeki hareketleri takip edilebilmektedir. Marketlerin indirim ve kampanya avantajlarını sunmak maksadıyla kartlı müĢteri takip sistemleriyle bir müĢterinin zaman içindeki tüm alıĢveriĢ verilerine ulaĢmak ve analiz etmek artık firmalar için çok önemli olduğu kadar bir o kadar da kolay hale gelmiĢtir.

(13)

Sadece veri kendi baĢına değersiz olabilmektedir. Ġsteğe ve amaca bağlı olarak Ģekillendirildiğinde ise o veri artık bilgi olmaktadır. Bilgi bir amaca yönelik iĢlenmiĢ veridir. Veriyi bilgiye çevirmeye veri analizi denmektedir [Akpınar, 2002]. Bilgi de bir soruya yanıt vermek için veriden çıkardığımız olarak tanımlanabilir. Veri sadece sayılar veya harfler değildir; veri, sayı ve harfler ve onların anlamıdır. Veri hakkındaki bu veriye metaveri denmektedir [Akpınar, 2002].

Mesela market örneğinde veri analizi yaparak her mal için bir sonraki ayın satıĢ tahminleri çıkarılabilmekte; satın alınan mallara bağlı olarak müĢteriler gruplanabilmekte; yeni bir ürün için potansiyel müĢteriler belirlenebilmekte; müĢterilerin zaman içindeki hareketleri incelenerek onların davranıĢları ile ilgili tahminler yapılabilmektedir. Binlerce malın ve müĢterinin olabileceği düĢünülürse bu analiz gözle ve elle yapılamayacağı için yazılımla desteklenerek yapılabilmektedir. ĠĢte veri madenciliği burada devreye girer:

Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programları kullanarak aranmasıdır [Akpınar, 2002].

Veri Madenciliği;

Büyük ve karmaĢık verilerle çalıĢır.

Her türlü veriyi kullanarak çözümler üretebilir.

Ġstatistik, yapay zekâ, makine öğrenmesi, veri tabanlarında bilgi keĢfi, bilgisayar bilimi vb. gibi disiplinlerden faydalanır.

Daha önceden bilinmeyen, doğrulanabilir, etkinleĢtirilebilir bilgi arar. Otomatik veya yarı otomatik olarak çalıĢan çözüm araçları kullanır. Birçok endüstride kullanılmaktadır.

(14)

Hızla büyümekte olan bir sektördür.

Gelecekte en popüler mesleklerden biri olacağı tahmin edilen veri madenciliği için Gartner Group araĢtırma Ģirketinin gelecek 10 yıla dair tahminlerine göre; hedef pazarlarda veri madenciliği kullanımının %75‟lere ulaĢacağı iddia edilmektedir.

Nobel ödülü sahibi Dr. Penzias vermiĢ olduğu bir röportajda veri madenciliğinin önemini Ģu sözlerle belirtmektedir. “Veri madenciliği oldukça önemli bir konuma gelecektir ve firmalar müĢterileriyle ilgili hiçbir bilgiyi atamayacaklardır, çünkü bu bilgiler oldukça değerli olacaktır. Eğer siz müĢterilerinizin bilgilerini değerlendirmiyorsanız, firmanız sektörünüzün dıĢında kalacaktır.”

Yakın geleceğin, insanların tüketim alıĢkanlıklarına ıĢık tutacağını varsayarsak geçmiĢ veriden çıkarılmıĢ olan yorumlar gelecekte de geçerli olacak ve ilerisi için doğru tahmin yapılmasını sağlayacaktır.

(15)

2. VERĠ MADENCĠLĠĞĠ

Basit bir tanım yapmak gerekir ise veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaĢma, bilgiyi madenleme iĢidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecek ile ilgili tahminde bulunabilmeyi sağlayabilecek bağıntıların bilgisayar programı kullanılarak aranmasıdır. Spesifik veri madenciliği yazılımları; kümeleme, doğrusal regresyon, sinir ağları, bayes ağları, görselleĢtirme ve ağaç tabanlı modeller gibi pek çok modeli içermektedir. Veri madenciliği uygulamalarında yıllar boyu istatistiksel yöntemler kullanılmıĢtır. Bununla birlikte, bugünün veri madenciliği teknolojisinde eski yöntemlerin tersine büyük veri kümelerindeki trend ve iliĢkileri kısa zamanda saptayabilmek için yüksek hızlı bilgisayarlar kullanılmaktadır. Böylece veri madenciliği, gizli trendleri minimum çaba ve emekle ortaya çıkarmaktadır.

Veri madenciliğinin temel bileĢenlerinden biri veri ambarlarıdır. Veri ambarı, organizasyonun ihtiyaçları ile uyumlu büyük miktarlardaki verinin kolay eriĢilebilir bir yapıda tutulmasını sağlayan bilgisayar tabanlı depolama sistemidir.

Veri ambarları, organizasyonel veriye kolay bir Ģekilde ulaĢılmasını sağlayan yapılardır. Veri ambarları 1990‟lı yıllarda ortaya çıkmıĢtır. Veri ambarları veriyi kullanılabilir iliĢki ve profillerde sınıflandırmazlar, sadece potansiyel bilgiye sahip veritabanlarıdırlar. Veride saklı bilgiyi keĢfetmeyi sağlayan ise veri madenciliği gibi tekniklerdir. Veri ambarından veriyi çekebilmek için hangi verinin gerekli olduğunu ve bu verinin nerede olduğunu tespit etmek önemlidir. Çoğunlukla gerekli veri, farklı sistemler üzerinde olup, farklı formatlardadır. Bu nedenle, ilk aĢamada veri temizleme ve düzenleme iĢlemi gerçekleĢtirilmektedir. Veri ambarının yaratıcısı W.H. Immon‟a göre veri ambarı verinin temizlendiği, birleĢtirildiği ve yeniden düzenlendiği merkezi ve entegre bir depodur.

(16)

Bazı veri madenciliğinin teknikleri tümevarım mantığı (inductive logic) programlamasını, makinevi öğrenmeyi v.b. kapsar. Veri madenciliği, sınıflandırmayı, birliktelik ve verilerin arasındaki sıralamayı yapmak için kurallar bulmayı içermektedir. Temel olarak birisi gözlenen örneklerden ve desenlerden çıkarılan bilgi olan hipotezlere varır. Bu desenler verilen sorgulardan elde edilmekte ve her sorgu önce verilen sorguya bağlı olmaktadır [Thuraisingham, 2003].

Gartner Grup tarafından yapılan tanımda ise veri madenciliği, istatistik ve matematik tekniklerle birlikte iliĢki tanıma teknolojilerini kullanarak, depolama ortamlarında saklanmıĢ bulunan veri yığınlarının elenmesi ile anlamlı yeni iliĢki ve eğilimlerin keĢfedilmesi sürecidir [Eker, 2004].

Veri madenciliği, temel olarak bilgisayar destekli bir bilgi çözümleme iĢlemidir [Nazife, 2003].

Veri madenciliği, ayrı sorgular vererek büyük miktarda olan veriden yararlı bilgi, desenler ve eğilimler (genelde önceden belli olmayan) çıkarabilmektir [Thuraisingham, 2003].

Veri madenciliği, verinin sahibine anlamlı ve yararlı olacak Ģekilde veri kümesinin içinde Ģüphe uyandırmayan iliĢkileri bulmak ve veriyi yeni bir Ģekilde özetlemek için veri kümelerinin incelenmesidir [Larose, 2005].

2.1. Literatürde Veri Madenciliği

Veri madenciliği 1990‟lı yıllarda ortaya çıkmıĢtır. Bir online veritabanı olan Science Direct‟te 1960‟tan günümüze kadar bir literatür taraması yapıldığında veri

(17)

madenciliği ile ilgili 1500‟e yakın makale olduğu görülmektedir. Veri madenciliğinin özellikle 2000 yılından bu yana büyük bir geliĢme gösterdiği göze çarpmaktadır.

AĢağıda 2000 – 2006 tarihleri arasında veri madenciliği konusunda farklı alanlarda gerçekleĢtirilen uygulama örnekleri yer almaktadır.

Jiao, Zhang ve Helande 2006‟ da Kansai haritalama tekniği ile bir karar destek sistemi tasarlamıĢlardır [Jiao vd., 2006].

Jeng, Chen ve Liang 2006‟ da genetik algoritma ile biyolojik sistemlerin kinetik parametrelerini belirlemiĢlerdir [Jeng vd., 2006].

Facca ve Lanzi 2005‟ te web kütüklerinde tutulan verileri analiz etmek için makine öğrenme algoritmalarını kullanmıĢlardır [Facca ve Lanzi, 2005].

Hong, Park, Jon ve Rho 2005‟ te veri madenciliği tekniklerini kullanarak bir tedarikçi seçim modeli önermiĢlerdir [Hong vd., 2005].

Huang, Chen ve Wu 2005‟ te kümeleme tekniklerini kullanarak dağıtım merkezleri için bir sipariĢ yönetim sistemi geliĢtirmiĢlerdir [Huang vd., 2005].

Cervone, Kafatos ve Singh 2006‟ da, veri madenciliği tekniklerini kullanarak bir deprem erken uyarı sistemi geliĢtirmiĢlerdir [Cervone vd., 2006].

Crespo ve Weber 2004‟ te, bulanık kümelemeye dayalı veri madenciliği metodolojisi geliĢtirmiĢlerdir [Crespo ve Weber, 2004].

Lee, Chiu, Chou ve Lu 2004‟ te, sınıflama ve regresyon tekniklerini kullanarak bir kredi derecelendirme uygulaması gerçekleĢtirmiĢlerdir [Lee vd., 2004].

Bellazi, Larizza ve Magni 2005‟ te, veri madenciliği tekniklerini kullanarak hemodiyaliz servislerinin kalite ölçümünü gerçekleĢtirmiĢlerdir [Bellazi vd., 2005].

(18)

Last ve Kandel 2004‟ te, karar ağacı algoritmasını kullanarak yarı iletken endüstrisindeki bir fabrikada üretim planlama uygulaması gerçekleĢtirmiĢlerdir [Last ve Kandel, 2004].

Lian, Lai, Lin ve Yao 2002‟ de, veri madenciliği tekniklerini montaj hattı uygulamalarında kullanmıĢlardır [Lian vd.,2002].

Lin ve McClean 2001‟ de, Ģirket iflaslarının tahminine yönelik veri madenciliği yaklaĢımı geliĢtirmiĢlerdir [Lin ve McClean, 2001].

Caskey 2001‟ de, genetik algoritma ve sinir ağları teknikleri ile bir fabrikadaki çalıĢma koĢullarını ortaya koymuĢ ve bu koĢulları iyileĢtirici iĢletme stratejileri önermiĢtir [Caskey, 2001].

Cox ve Lewis 2002‟ de, çelik endüstrisindeki bir fabrikada yaptıkları uygulamada yapay sinir ağları yöntemini kullanarak ürünün istenilen kalite standartlarını sağlaması için gerekli girdi miktarını saptamıĢlardır [Cox vd., 2002].

2.2. Veri Madenciliğinin GeliĢimindeki Etkenler

Temel olarak veri madenciliğini etkileyen faktörler aĢağıdaki gibi ayrılabilir:

Veri: Veri madenciliğinin geliĢimindeki en önemli etken veridir. Son yıllarda sayısal verinin hızla artması bu verilerin yorum ihtiyacını hızlandırmıĢ, dolayısıyla da veri madenciliğindeki geliĢmeler hızlanmıĢtır.

Donanım: Verilerin çoğalması sonucu, veri madenciliğinde, sayısal ve istatistiksel olarak bu veriler üzerinde iĢlemler yapma ihtiyacı doğmuĢtur. GeliĢen

(19)

bellek ve iĢlem hızı kapasitesi, birkaç yıl önce madencilik yapılamayan veriler üzerinde çalıĢmayı mümkün hale getirmiĢtir.

Ġnternet ve Bilgisayar Ağları: Mevcut internet eskiye nazaran oldukça hızlandığı için daha fazla veriye hızlı bir Ģekilde ağ üzerinden ulaĢmak ve farklı yerlerdeki verileri kolaylıkla toplayarak belirli algoritmalarla yorumlamakta kolay hale gelmiĢtir. Buna bağlı olarak, veri madenciliğine uygun ağların tasarımı da yapılmaktadır.

Bilimsel Hesaplamalar: Günümüz bilim adamları ve mühendisleri, simülasyonu, bilimin üçüncü yolu olarak görmektedirler. Veri madenciliği ve bilgi keĢfi, teori, deney ve simülasyonu birbirine bağlamada önemli rol almaktadır.

Ticaret: Ticari alanda rekabet gün geçtikçe artmakta ve bu da iĢletmelerin bu ortamda ayakta kalabilmek için farklı yollar ve yöntemler aramalarına yol açmaktadır. Bu yöntemler hem az maliyetli olmalı, hem de kaliteyi düĢürmeden hizmet ederek verimliliği artırmalıdır. ĠĢte bu noktada veri madenciliği kullanılan temel teknoloji haline gelmektedir. Çünkü veri madenciliği sayesinde müĢterilerin ve müĢteri faaliyetlerinin oluĢturduğu fırsatlar daha kolay tespit edilebilmekte ve riskler daha açık görülebilmektedir.

2.3. Veri Madenciliği Süreci

Veri madenciliğinde sadece verilerin sağlıklı bir Ģekilde toplanması ya da algoritmanın doğru seçilip düzgün çalıĢıyor olması yeterli değildir. Sistemin belirli bir düzende iĢliyor olması temel Ģarttır. BaĢarılı bir veri madenciliği projelerinde izlenmesi gereken adımlar aĢağıdadır;

(20)

1. Problemin tanımlanması, 2. Verilerin hazırlanması,

3. Modelin kurulması ve değerlendirilmesi, 4. Modelin kullanılması,

5. Modelin izlenmesi.

2.4. Veri Madenciliğinin Uygulama Basamakları

Veri madenciliğinin uygulama adımları aĢağıdadır.

Veri Temizleme (gürültü ve tutarsız verileri çıkarmak) Veri BütünleĢtirme (birçok veri kaynağını birleĢtirmek)

Veri Seçme (yapılacak olan analiz ile ilgili olan verileri belirlemek) Veri DönüĢümü (verinin, veri madenciliği tekniğinde kullanılabilecek Ģekilde dönüĢümünü gerçekleĢtirmek)

Veri Madenciliği (veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)

Örüntü Değerlendirme (bazı ölçümlere göre elde edilmiĢ bilgiyi temsil eden ilginç örüntüleri tanımlamak)

Bilgi Sunumu (madenciliği yapılmıĢ olan elde edilmiĢ bilginin kullanıcıya sunumunu gerçekleĢtirmek)

(21)

2.5. Veri Madenciliğinin Uygulama Alanları

Veri madenciliğinin asıl amacı, çeĢitli kaynaklar kullanılarak elde edilen birçok veriyi anlamlı bilgiler elde etmek ve bunu eyleme dönüĢtürecek kararlar için kullanmaktır. Örnek birkaç kullanım alanı aĢağıdadır [Akpınar, 2002].

• Bir iĢletme kendi müĢterisiyken rakibine giden müĢterilerle ilgili analizler yaparak rakiplerini tercih eden müĢterilerinin özelliklerini elde edebilir ve bundan yola çıkarak gelecek dönemlerde kaybetme olasılığı olan müĢterilerin kimler olabileceği yolunda tahminlerde bulunarak onları kaybetmemek, kaybettiklerini geri kazanmak için strateji geliĢtirebilir.

• Ürün veya hizmette hangi özelliklerin ne derecede müĢteri memnuniyetini etkilediği, hangi özelliklerinden dolayı müĢterinin bunları tercih ettiği ortaya çıkarılabilir.

• MüĢterilerin kredi riskleri hesaplanarak hangi müĢterilerin kredi riskinin yüksek olduğu, hangi müĢterilerin geri ödemesini zamanında yapamayabileceği kestirilebilir.

• Kredi kartı ödemelerini aksatan, gecikmeli olarak yapan veya hiç yapmayanların özelliklerinden yola çıkılarak bundan sonra aynı duruma düĢebilecek muhtemel kiĢiler saptanabilir.

• Ürün talebi bazında müĢteri profillerini belirleyerek, müĢteri segmentasyonuna gitmek ve çapraz satıĢ olanakları yaratmakta kullanılabilir.

• Piyasada oluĢabilecek değiĢikliklere mevcut müĢteri portföyünün vereceği tepkinin firma üzerinde yaratabileceği etkinin tespitinde kullanılabilir.

(22)

• En karlı mevcut müĢteriler saptanarak, potansiyel müĢteriler arasından en karlı olabilecekler belirlenebilir. Karlı müĢteriler tespit edilerek onlara özel kampanyalar uygulanabilir. En masraflı müĢteriler daha masrafsız müĢteri haline dönüĢtürülebilir.

Örneğin, en çok bankacılık iĢlemi yapanlar ortaya çıkarılıp bunlar Ģube bankacılığı yerine daha masrafsız Ġnternet bankacılığına yönlendirilebilir.

• Bir ürün veya hizmetle ilgili bir kampanya programı oluĢturmak için hedef kitlenin seçiminden baĢlayarak bunun hedef kitleye hangi kanallardan sunulacağı kararına kadar olan süreçte veri madenciliği kullanılabilir.

• Operasyonel süreçte oluĢabilecek olası kayıpların veya suiistimallerin tespitinde kullanılabilir.

• Kurum teknik kaynaklarının optimal Ģekilde kullanılmasını sağlamakta kullanılabilir.

• Firmanın finansal yapısının, makro ekonomik değiĢmeler karĢısındaki duyarlılığı ve oluĢabilecek risklerin tespitinde kullanabilir.

• GeçmiĢ ve mevcut yapı analiz edilerek geleceğe yönelik tahminlerde bulunulabilir. Özellikle ciro, karlılık, pazar payı, gibi analizlerde veri madenciliği çok rahat kullanılabilir.

Yukarıda anlatılanlar ıĢığında veri madenciliğinin uygulama alanları konu baĢlıkları itibariyle aĢağıdaki gibi sınıflandırılabilir.

Veri madenciliğinin pazarlama alanındaki kullanım amaçları; • MüĢteri segmentasyonunda,

(23)

• ÇeĢitli pazarlama kampanyalarında, • Mevcut müĢterilerin elde tutmada, • Pazar sepeti analizinde,

• Çapraz satıĢ analizleri, • MüĢteri değerleme,

• MüĢteri iliĢkileri yönetiminde, • ÇeĢitli müĢteri analizlerinde, • SatıĢ tahminlerinde.

Veri madenciliğinin bankacılık alanındaki kullanım amaçları;

• Farklı finansal göstergeler arasındaki gizli korelasyonların bulunmasında, • Kredi kartı dolandırıcılıklarının tespitinde,

• MüĢteri segmentasyonunda,

• Kredi taleplerinin değerlendirilmesinde, • Usulsüzlük tespiti,

• Risk analizleri, • Risk yönetimi, • Sigortacılık,

• Yeni poliçe talep edecek müĢterilerin tahmin edilmesinde, • Sigorta dolandırıcılıklarının tespitinde,

• Riskli müĢteri tipinin belirlenmesinde.

Veri madenciliğinin perakendecilik alanındaki kullanım amaçları; • SatıĢ noktası veri analizleri,

• AlıĢ-veriĢ sepeti analizleri,

(24)

Veri madenciliğinin borsa alanındaki kullanım amaçları; • Hisse senedi fiyat tahmini,

• Genel piyasa analizleri,

• Alım-satım stratejilerinin optimizasyonu.

Veri madenciliğinin telekomünikasyon alanındaki kullanım amaçları; • Kalite ve iyileĢtirme analizlerinde,

• Hisse tespitlerinde,

• Hatların yoğunluk tahminlerinde, • ĠletiĢim desenlerinin belirlenmesi, • Kaynakların daha iyi kullanılması, • Servis kalitesinin arttırılması.

Veri madenciliğinin sağlık ve ilaç alanındaki kullanım amaçları; • Test sonuçlarının tahmini,

• Ürün geliĢtirme, • Tıbbi teĢhis,

• Tedavi sürecinin belirlenmesinde, • Semptomlara göre hastalık tespiti,

• Magnetik rezonans verileri ile sinir sistemi bölge iliĢkilerinin belirlenmesi.

Veri madenciliğinin endüstri alanındaki kullanım amaçları; • Kalite kontrol analizlerinde,

• Lojistik,

(25)

Son yıllar içinde veri madenciliğinin uygulandığı alanlar ise Tablo 2.1‟ deki gibidir.

Tablo 2.1. Veri Madenciliği uygulama alanları ve oranları

Bankacılık (51) 12% Bioteknoloji / Genetik (11) 3% Kredi skorlama (35) 8% CRM (52) 12% Doğrudan pazarlama (34) 8% E-Ticaret (11) 3% Eğlence/ Müzik (4) 1% Sahtekarlık tespiti (31) 7% ġans oyunu (2) 0,01 % Kamu uygulamaları (12) 3% Sigortacılık (24) 6%

Yatırım / Hisse senedi (5) 1% Junk email / Anti-spam (5) 1%

Sağlık/ ĠK (15) 4% Ġmalat (19) 5% Tıp/ Farmakoloji (12) 3% Perakende (25) 6% Bilim (17) 4% Güvenlik / Anti-terörizm(5) 1% Telekomünikasyon (23) 5% Seyahat (8) 2% Web (9) 2% Diğer (11) 3%

(26)

2.6. Veri Madenciliği Uygulamalarında KarĢılaĢılan Problemler

Veri madenciliği girdi olarak kullanılacak bilgileri veritabanlarından alır. Bu sebeple veritabanlarının dinamik, eksiksiz, geniĢ ve net veri içermesini gerektirir. Aksi durumda sağlıksız bilgiler içeren analizler yanlıĢ stratejilerin oluĢturulmasına neden olacaktır.

Veri madenciliğinde karĢılaĢılan baĢlıca sorunlar aĢağıdaki gibi sıralanabilir:

Sınırlı Bilgi: Veritabanları genel olarak veri madenciliği dıĢındaki amaçlar için tasarlanmıĢlardır. Bu yüzden, öğrenme görevini kolaylaĢtıracak bazı özellikler bulunmayabilir.

Gürültü ve Kayıp Değerler: Veri özellikleri ya da sınıflarındaki hatalara gürültü adı verilir. Veri tabanlarındaki eksik bilgi ve bu yanlıĢlardan dolayı veri madenciliği amacına tam olarak ulaĢmayabilir. Bu bilgi yanlıĢlığı, ölçüm hatalarından, ya da öznel yaklaĢımdan olabilir.

Belirsizlik: YanlıĢlıkların Ģiddeti ve verideki gürültünün derecesi ile ilgilidir. Veri tahmini bir keĢif sisteminde önemli bir husustur.

Ebat, Güncellemeler ve Konu DıĢı Sahalar: Veri tabanlarındaki bilgiler, veri eklendikçe ya da silindikçe değiĢebilir. Veri madenciliği perspektifinden bakıldığında, kuralların hala aynı kalıp kalmadığı ve istikrarlılığı problemi ortaya çıkar. Öğrenme sistemi, kimi verilerin zamanla değiĢmesine ve keĢif sisteminin verinin zamansızlığına karĢın zaman duyarlı olmalıdır.

(27)

2.7. Metodoloji

Bir veri madenciliği çalıĢmasında kullanılan metodoloji ġekil 1‟de verilmiĢtir. Standart form içinde verilen veri, öğrenme ve deneme olmak üzere ikiye ayrılır. Her uygulamada kullanılabilecek birden çok teknik vardır ve önceden hangisinin en baĢarılı olacağını kestirmek olası değildir. Bu yüzden öğrenme kümesi üzerinde L değiĢik teknik kullanılarak L tane model oluĢturulur. Sonra bu L model deneme kümesi üzerinde denenerek en baĢarılı olanı, yani deneme kümesi üzerindeki tahmin baĢarısı en yüksek olanı seçilir.

Eğer bu en iyi model yeterince baĢarılıysa kullanılır, aksi takdirde baĢa dönerek çalıĢma tekrarlanır. Tekrar sırasında baĢarısız olan örnekler incelenerek bunlar üzerindeki baĢarının nasıl arttırılabileceği araĢtırılır. Örneğin standart forma yeni alanlar ekleyerek programa verilen bilgi arttırılabilir veya olan bilgi değiĢik bir Ģekilde kodlanabilir veya amaç daha değiĢik bir Ģekilde tanımlanabilir.

ġekil 2.1. Veri madenciliği çalıĢmasında kullanılan metodoloji. İlk Standard Form Deneme Kümesi Öğrenme Kümesi Model 1 Model 2 Model L En iyiyi Seç Olası modelleri Öğrenme kümesi Üstünde eğit Eğitilmiş Modelleri Deneme kümesi Üzerinde dene ve En başarılısını seç Yeterince İyi ise Kabul et

(28)

2.8. Veri Madenciliği Teknikleri

• Sınıflama, • Kümeleme,

• Birliktelik Kuralları ve Sıralı Örüntüler,

Veri madenciliği, bu maddelerle, iĢlevlerine göre 3 temel grupta toplanabilir.

2.8.1. Sınıflama

Verinin önceden belirlenen çıktılara uygun olarak ayrıĢtırılmasını sağlayan bir tekniğe sınıflama denmektedir. Çıktılar, önceden bilindiği için sınıflama, veri kümesini denetimli olarak öğrenmektedir.

Örneğin; A finans hizmetleri Ģirketi; müĢterilerinin yeni bir yatırım fırsatıyla ilgilenip ilgilenmediğini öğrenmek istemektedir. Daha önceden benzer bir ürün satmıĢtır ve geçmiĢ veriler hangi müĢterilerin önceki teklife cevap verdiğini göstermektedir. Amaç; bu teklife cevap veren müĢterilerin özelliklerini belirlemek ve böylece pazarlama ve satıĢ çalıĢmalarını daha etkin yürütmektir.

MüĢteri kayıtlarında müĢterinin önceki teklife cevap verip vermediğini gösteren “evet”/ “hayır” Ģeklinde bir alan bulunmakta bu alan “hedef ” ya da “bağımlı” değiĢken olarak adlandırılmaktadır. Amaç, müĢterilerin diğer niteliklerinin (gelir düzeyi, iĢ türü, yaĢ, medeni durum, kaç yıldır müĢteri olduğu, satın aldığı diğer ürün ve yatırım türleri)

(29)

hedef değiĢken üzerindeki etkilerini analiz etmektir. Analizde yer alan diğer nitelikler “bağımsız” ya da “ tahminci” değiĢken adını almaktadır.

Temel sınıflama algoritmaları aĢağıdadır: • Diskriminant analizi, • Naive Bayes, • Karar ağaçları, • Sinir ağları, • Kaba kümeler, • Genetik algoritma, • Regresyon analizi. 2.8.1.1. Diskriminant analizi

Diskriminant analizi, bir dizi gözlemi önceden tanımlanmıĢ sınıflara atayan bir tekniktir. Model, ait oldukları sınıf bilinen gözlem kümesi üzerine kurulmaktadır. Bu küme, öğrenme kümesi olarak da adlandırılmaktadır. Öğrenme kümesine dayalı olarak, diskriminant fonksiyonu olarak bilinen doğrusal fonksiyonların bir kümesi oluĢturulmaktadır. Diskriminant fonksiyonu, yeni gözlemlerin ait olduğu sınıfı belirlemek için kullanılmaktadır. Yeni bir gözlem söz konusu olduğunda tüm diskriminant fonksiyonları hesaplanmakta ve yeni gözlem diskriminant fonksiyonunun değerinin en yüksek olduğu sınıfa atanmaktadır.

(30)

2.8.1.2. Naive bayes

Naive Bayes, hedef değiĢkenle bağımsız değiĢkenler arasındaki iliĢkiyi analiz eden tahminci ve tanımlayıcı bir sınıflama algoritmasıdır.

Naive Bayes, sürekli veri ile çalıĢmaz. Bu nedenle sürekli değerleri içeren bağımlı ya da bağımsız değiĢkenler kategorik hale getirilmelidir. Örneğin; bağımsız değiĢkenlerden biri yaĢ ise, sürekli değerler “<20” “21-30”, “31-40” gibi yaĢ aralıklarına dönüĢtürülmelidir.

Naive Bayes, modelin öğrenilmesi esnasında, her çıktının öğrenme kümesinde kaç kere meydana geldiğini hesaplar. Bulunan bu değer, öncelikli olasılık olarak adlandırılır. Örneğin; bir banka kredi kartı baĢvurularını “iyi” ve “kötü” risk sınıflarında gruplandırmak istemektedir. Ġyi risk çıktısı toplam 5 vaka içinde 2 kere meydana geldiyse iyi risk için öncelikli olasılık 0,4‟tür.

Bu durum, “Kredi kartı için baĢvuran biri hakkında hiçbir Ģey bilinmiyorsa, bu kiĢi 0,4 olasılıkla iyi risk grubundadır” olarak yorumlanır Naive Bayes aynı zamanda her bağımsız değiĢken / bağımlı değiĢken kombinasyonunun meydana gelme sıklığını bulur. Bu sıklıklar öncelikli olasılıklarla birleĢtirilmek suretiyle tahminde kullanılır.

2.8.1.3. Karar ağaçları

Karar ağaçları, yaygın olarak kullanılan sınıflama algoritmalarından biridir. Karar ağacı yapılarında, her düğüm bir nitelik üzerinde gerçekleĢtirilen testi, her dal bu testin çıktısını, her yaprak düğüm ise sınıfları temsil eder. En üstteki düğüm kök düğüm olarak adlandırılır. Karar ağaçları, kök düğümden yaprak düğüme doğru çalıĢır.

(31)

2.8.1.4. Sinir ağları

Sinir ağları, tanımlayıcı ve tahminci veri madenciliği algoritmalarındandır. Ġnsan beyninin fizyolojisini taklit ederler. Komplike ve belirsiz veriden bilgi üretirler. KeĢfettikleri örüntü ve trendler, insanlar ya da bilgisayarlarca kolay keĢfedilemez. Bu tür karmaĢık problemlerde birbirleriyle etkileĢimli yüzlerce değiĢken bulunur.

Bu teknik, veritabanındaki örüntüleri, sınıflandırma ve tahminde kullanılmak üzere genelleĢtirir. Sinir ağları algoritmaları sayısal veriler üzerinde çalıĢırlar.

2.8.1.5. Kaba kümeler

Kaba küme teorisi 1970‟li yıllarda Pawlak tarafından geliĢtirilmiĢtir. Kaba küme teorisinde bir yaklaĢtırma uzayı ve bir kümenin alt ve üst yaklaĢtırmaları vardır. YaklaĢtırma uzayı, ilgilenilen alanı ayrı kategorilerde sınıflandırır. Alt yakınlaĢtırma belirli bir altkümeye ait olduğu kesin olarak bilinen nesnelerin tanımıdır. Üst yakınlaĢtırma ise alt kümeye ait olması olası nesnelerin tanımıdır. Alt ve üst sınırlar arasında tanımlanan herhangi bir nesne ise “kaba küme” olarak adlandırılır.

2.8.1.6. Genetik algoritma

Genetik algoritma, Darwin tarafından geliĢtirilen “evrim teorisinine” dayalıdır. Algoritma ilk olarak popülasyon adı verilen bir çözüm kümesi (öğrenme veri kümesi)

(32)

ile baĢlatılır. Bir popülasyondan alınan sonuçlar bir öncekinden daha iyi olacağı beklenen yeni bir popülasyon oluĢturmak için kullanılır. Evrim süreci (yeni popülasyonlar oluĢturma iterasyonu) tamamlandığında bağımlılık kuralları veya sınıf modelleri ortaya konmuĢ olur.

2.8.1.7. Regresyon analizi

Regresyon analizi, bir ya da daha fazla bağımsız değiĢken ile hedef değiĢken arasındaki iliĢkiyi matematiksel olarak modelleyen bir yöntemdir. Veri madenciliğinde yaygın olarak kullanılan regresyon modellerinden doğrusal regresyonda tahmin edilecek olan hedef değiĢken sürekli değer alırken; lojistik regresyonda hedef değiĢken kesikli bir değer almaktadır. Doğrusal regresyonda hedef değiĢkenin değeri; lojistik regresyonda ise hedef değiĢkenin alabileceği değerlerden birinin gerçekleĢme olasılığı tahmin edilmektedir [Lee vd., 2006].

2.8.2. Kümeleme

Kümeleme tekniğinde amaç üyelerinin birbirlerine çok benzediği, ancak özellikleri birbirlerinden çok farklı olan kümelerin bulunması ve veri tabanındaki kayıtların bu farklı kümelere bölünmesidir. Kümeleme analizinde; veri tabanındaki kayıtların hangi kümelere ayrılacağı veya kümelemenin hangi değiĢken özelliklerine göre yapılacağı, konunun uzmanı olan bir kiĢi tarafından belirtilebileceği gibi veri tabanındaki kayıtların hangi kümelere ayrılacağını geliĢtirilen yazılımlar da yapabilmektedir.

(33)

Literatürde pek çok kümeleme algoritması bulunmaktadır. Kullanılacak olan kümeleme algoritmasının seçimi, veri tipine ve amaca bağlıdır. BaĢlıca kümeleme yöntemleri Ģu Ģekilde sınıflandırılmaktadır:

1- Bölümleme Yöntemleri 2- HiyerarĢik Yöntemler 3- Yoğunluk tabanlı yöntemler 4- Izgara tabanlı yöntemler 5- Model tabanlı yöntemler

2.8.2.1. Bölümleme yöntemleri

Bölümleme metotları, n adet nesneden oluĢan veritabanını, giriĢ parametresi olarak belirlenen k adet bölüme (k ≤ n) ayırma temeline dayanır. Veritabanındaki her bir eleman bir farklılık fonksiyonuna göre k adet bölümden birine dahil edilir. Bu bölümlerden her biri bir küme olarak adlandırılır. Bölümleme metotları means, k-medoids ve Clara-Clarans olarak bilinen algoritmaları kullanır.

2.8.2.2. HiyerarĢik yöntemler

HiyerarĢik yöntemler nesneleri ağaç yapısı Ģeklinde gruplandırma temeline dayanır. HiyerarĢik yöntemler giriĢ parametresi olarak bulunacak küme sayısını belirten

(34)

k değerine ihtiyaç duymazlar, fakat ağaç yapısı oluĢturma iĢlemini ne zaman

durdurulacağını belirten eĢik değeri parametresine ihtiyaç duyarlar.

2.8.2.3. Yoğunluk tabanlı yöntemler

Yoğunluk tabanlı metotlar, nesnelerin doğal dağılımını bir yoğunluk fonksiyonu aracılığı ile tespit ederek bir eĢik yoğunluğunu aĢan bölgeleri küme olarak adlandırırlar. Yoğunluk tabanlı algoritmalar düzgün Ģekilli olmayan kümeleri bulma baĢarısı, gürültü ve istisnalardan etkilenmeme ve tek tarama ile sonuca ulaĢma avantajları ile en baĢarılı kümeleme metotları arasındadır.

2.8.2.4. Izgara tabanlı yöntemler

Izgara tabanlı yöntemler veri uzayını incelemek için sonlu sayıda kare Ģeklinde hücrelerden oluĢan ızgara yapıları kullanırlar. Kullandıkları ızgara yapısından dolayı veritabanındaki nesne sayısından bağımsızdırlar. Performanslarını etkileyen tek unsur kullandıkları kare sayısıdır, kare sayısı arttıkça hesaplama zamanı artacağından performans düĢer. Izgara tabanlı yöntemlerin en önemli avantajları iĢlem yükü az olduğu için hızlı ve çabuk sonuca ulaĢabilmeleridir.

(35)

2.8.2.5. Model tabanlı yöntemler

Model tabanlı yöntemler eldeki verileri bir matematiksel model ile ifade etmeye çalıĢırlar. Bu yöntem verilerin belirli bazı olasılık teorilerinin karıĢımından oluĢan bir mantık ile veri uzayına yerleĢtiklerini farz ederler.

2.8.3. Birliktelik Kuralları ve ArdıĢık Örüntüler

Birliktelik analizi, bir veri kümesindeki kayıtlar arasındaki bağlantıları arayan denetimsiz veri madenciliği Ģeklidir. Birliktelik analizi çoğu zaman perakende sektöründe süpermarket müĢterilerinin satın alma davranıĢlarını ortaya koymak için kullanıldığından “pazar sepeti analizi” olarak da adlandırılır.

Sepet analizinde amaç alanlar arasındaki iliĢkileri bulmaktır. Bu iliĢkilerin bilinmesi Ģirketin kârını arttırmak için kullanılabilir. Eğer X malını alanların Y malını da çok yüksek olasılıkla aldıklarını biliyorsanız ve eğer bir müĢteri X malını alıyor ama Y malını almıyorsa o potansiyel bir Y müĢterisidir.

2.8.4. Bellek Tabanlı Yöntemler

Bellek tabanlı veya örnek tabanlı bu yöntemler istatistikte 1950‟li yıllarda önerilmiĢ olmasına rağmen, o yıllarda gerektirdiği hesaplama ve bellek boyutları yüzünden kullanılamamıĢ ama günümüzde bilgisayarların ucuzlaması ve kapasitelerinin

(36)

artmasıyla, özellikle de çok iĢlemcili sistemlerin yaygınlaĢmasıyla, kullanılabilir olmuĢtur. Bu yönteme en iyi örnek en yakın k komĢu algoritmasıdır.

2.8.5. Yapay Sinir Ağları

1980‟lerden sonra yaygınlaĢan yapay sinir ağlarında amaç fonksiyon birbirine bağlı basit iĢlemci ünitelerinden oluĢan bir ağ üzerine dağıtılmıĢtır. Yapay sinir ağlarında kullanılan öğrenme algoritmaları veriden üniteler arasındaki bağlantı ağırlıklarını hesaplar. YSA istatistiksel yöntemler gibi veri hakkında parametrik bir model varsaymaz yani uygulama alanı daha geniĢtir ve bellek tabanlı yöntemler kadar yüksek iĢlem ve bellek gerektirmez

2.8.6. Karar Ağaçları

Ġstatistiksel yöntemlerde veya yapay sinir ağlarında veriden bir fonksiyon öğrenildikten sonra bu fonksiyonun insanlar tarafından anlaĢılabilecek bir kural olarak yorumlanması zordur. Karar ağaçları ise veriden oluĢturulduktan sonra ağaç kökten yaprağa doğru inilerek kurallar yazılabilir. Bu Ģekilde kural çıkarma, veri madenciliği çalıĢmasının sonucunun doğrulanmasını sağlar. Bu kurallar uygulama konusunda uzman bir kiĢiye gösterilerek sonucun anlamlı olup olmadığı denetlenebilir. Sonradan baĢka bir teknik kullanılacak bile olsa karar ağacı ile önce bir kısa çalıĢma yapmak, önemli değiĢkenler ve yaklaĢık kurallar konusunda analizciye bilgi verir ve daha sonraki analizler için yol gösterici olabilir.

(37)

3. BĠRLĠKTELĠK KURALI

Birliktelik kuralı, geçmiĢ verilerin analiz edilerek bu veriler içindeki birliktelik davranıĢlarının tespiti ile geleceğe yönelik çalıĢmalar yapılmasını destekleyen bir yaklaĢımdır. 90‟ lı yılların baĢına kadar saklanan satıĢ verilerinde ürün ve müĢteri verisi çok nadir yer alırken, genelde mali açıdan önemli olan tutarsal gelir verilerinin depolaması yapılmaktaydı. 90‟ lı yılların baĢından itibaren veri toplama uygulamalarındaki geliĢmeler doğrultusunda, firmaların satıĢ noktalarında yeni teknoloji, otomatik ürün veya müĢteri tanıma sistemleri (barkod ve manyetik kart okuyucular) yaygınlaĢmaya baĢlamıĢtır. Bu tip teknolojik geliĢmeler, bir satıĢ hareketine ait verilerin satıĢ esnasında toplanmasına ve elektronik ortamlara aktarılmasına olanak tanımıĢtır. Günümüzde, süper marketlerde, orta ve büyük ölçekli alıĢveriĢ mağazalarındaki satıĢ noktalarında akıllı satıĢ sistemlerinin kullanımı oldukça yaygındır. Bu satıĢlardan elde edilen verilerde, iĢlem tarihi, satın alınan ürünlere ait bilgiler (ürün kodu, miktar, fiyat, indirim vb.) yer alır ve ayrıca hareket numarası tekildir. Bazı kuruluĢlar bu tip bilgileri içeren veritabanlarını pazarlama alt yapılarının önemli parçalarından biri olarak görmekte ve bu verileri kullanmak için çaba harcamaktadırlar [Han ve Kamber, 2001].

Birliktelik kuralında, müĢterilerin alıĢveriĢ esnasında satın aldıkları ürünler arasındaki birliktelik-iliĢki bağlarını bularak, müĢterilerin satın alma alıĢkanlıklarının tespit edilmesi amaçlanmaktadır. KeĢfedilen bu birliktelik-iliĢki bağıntıları sayesinde satıcılar daha etkin ve kazançlı satıĢlar yapabilme imkanına sahip olmaktadırlar. Süpermarket alıĢveriĢi sırasında müĢteriler patates cipsi aldıktan sonra genelde aynı alıĢveriĢte kola da satın alıyorlarsa, bu iki ürün arasında kuvvetli bir birliktelik-iliĢki kuralı var anlamı yakalanır. Bu elde edilen veri sayesinde, bu ürünlere ek ürün satıĢı yapmak için düzenlemeler yapılabilir.

Birliktelik kurallarının kullanıldığı en tipik örnek market sepeti uygulamasıdır. Bu iĢlem, müĢterilerin yaptıkları alıĢveriĢlerdeki ürünler arasındaki birliktelikleri

(38)

bularak müĢterilerin satın alma alıĢkanlıklarını analiz etmektedir. Bu tip birlikteliklerin keĢfedilmesi, müĢterilerin hangi ürünleri bir arada aldıkları bilgisini ortaya çıkarmakta ve market yöneticileri de bu bilgi ıĢığında daha etkili satıĢ stratejileri geliĢtirebilmektedirler.

Örneğin, bir süpermarkette ekmek ve peynir satın alınan satıĢ hareketlerinin %75 ‟inde zeytin de satın alınmıĢtır. Bu tür birliktelik-iliĢki örüntüleri ancak, örüntüde yer alan öğelerin birden fazla harekette tekrarlandığında potansiyel olarak mevcut olabilirler.

Markette bulunabilecek tüm ürünlerin kümesi evren olarak düĢünülecek olursa, her ürünün varlığını veya yokluğunu gösteren boolean bir değiĢkeni olacaktır. Böylece her bir sepet bu boolean değerlerden oluĢan bir vektör olarak tasvir edilebilir. Bu vektörlerden alınan numuneler hangi ürünlerin beraber satıldığını ortaya koyabilir. Bu numuneler iliĢkisel kurallar formunda tasvir edilebilir [Sever ve Oğuz, 2002].

3.1. Birliktelik Kuralının Matematiksel Gösterimi

Birliktelik kuralının matematiksel modeli 1993 yılında Agrawal, Imielinski ve Swami tarafından ifade edilmiĢtir. Bu modele göre; I= i1,i2,i3...im nesnelerin

kümesi ve D iĢlemler kümesi olarak ifade edilir. Her i, bir nesne (ürün) olarak adlandırılır. D veritabanında her iĢlem T, T I olacak Ģekilde tanımlanan nesnelerin kümesi olsun. Her iĢlem bir tanımlayıcı alan olan TID ile temsil edilir. A ve B nesnelerin kümeleri olsun. Bir T iĢlemler kümesi ancak ve ancak A T ise yani A, T‟ nin alt kümesi ise A‟ yı kapsıyor denir. Bir birliktelik kuralı A B formunda ifade edilir. A önce ve B sonuç olarak adlandırılır. Burada, A I, B I ve A B = dır.

Hareket numaraları gruplandırılarak elde edilen ürünler arasındaki bağımlılık iliĢkisinin yüzde yüz doğru olması beklenemez. Benzer Ģekilde, çıkarım yapılan

(39)

kuralın eldeki hareketler kümesinin önemli bir kısmı tarafından desteklenmesi istenir. Bu nedenlerden dolayı, X Y eĢleĢtirme kuralı kullanıcı tarafından minimum değeri belirlenmiĢ güvenirlik (c) ve destek (s) eĢik değerlerini sağlayacak biçimde üretilir. X Y eĢleĢtirme kuralına, c güvenirlik ölçütü ve s destek ölçütü iliĢtirilir ve biçimsel olarak (D) = (X Y, c, s) ile gösterilir. Burada D örneklemi; X Y birliktelik-iliĢki kuralını; c eĢik değeri, ilgili kuralın minimum güvenirliğini (X ürünlerini içeren hareketlerin en az %c oranında Y içeren hareketler kümesinde yer aldığını); s ilgili kuralın, minimum desteğini (X ve Y ürünlerini içeren hareket tutanaklarının toplam hareket tutanakları içinde en az %s oranında var olduğunu) gösterir [Agrawal vd., 1993].

Ürünler kümesi ailesi T(I) ile gösterilsin, X ve Y‟ nin her ikisi de T(I) üzerinde değiĢebilen iki rastgele değiĢken olsun. Pr(X), X kümesi içinde yer alan tüm ürünlerin herhangi bir sepet varlığında bulunma olasılığını; Pr(X Y), X ve Y rastgele değiĢkenlerince paylaĢılan ortak ürünlerin herhangi bir sepet varlığında bulunma olasılığını, ve Pr(X Y), X ve Y rastgele değiĢkenlerinin birleĢiminde yer alan ürünlerin herhangi bir sepet varlığında bulunma olasılığını göstersin. O zaman, güvenirlik eĢiği Pr(Y/X) = Pr(X Y)/Pr(X) ile, destek eĢiği ise Pr(X Y) ile ifade edilir. Güvenirlik metriği, eĢleĢtirme kuralının doğruluk derecesini, destek metriği ise kuralda yer alan öğelerin (ürünlerin) geçiĢ sıklığını gösterir. Yüksek güvenirlik ve destek değerine sahip kurallara güçlü kurallar adı verilir [Agrawal vd., 1993]

Birliktelik-iliĢki kuralı formülsel olarak Ģu Ģekilde tanımlanabilir;

A1, A2, ...An B1, B2, ...Bm (3.1)

Buradaki, Ai ve Bj yapılan iĢ veya nesnelerdir. Bu kural genellikle A1, A2,..., An meydana geldiğinde, sık olarak B1, B2, ..., Bm‟ inde aynı olay veya hareket içinde yer aldığı anlamına gelmektedir [Bellazi vd., 2005].

(40)

Örneklendirmek gerekirse; aĢağıdaki kural bir dijital ürün satıĢ mağazasının satıĢ hareketlerinden gelmektedir.

Ürün (X, ”dijital fotoğraf makinesi”) Ürün (X, ”bellek kartı”)

Burada X bir hareketteki değiĢkeni simgelemektedir. Bu kural da, dijital fotoğraf makinesi alan müĢterinin aynı zamanda ayrıca ek bellek kartı almaya yöneldiği anlamı çıkarılmaktadır.

BaĢka bir örnek; aĢağıdaki kural üç boyutlu bir veri ambarından gelmektedir: YaĢ, Meslek ve Ürün.

YaĢ (X, “12 – 17”), Meslek (X, “öğrenci”) Ürün (X, ”oyun konsolu - playstation”)

Bu kural ile, “12-17 yaĢları arasındaki öğrenci en çok “oyun konsolu (playstation) almaktadır” anlamı elde edilmektedir [33].

YaĢ(X, “30...39”) gelir(X, “60K...69K”) alıĢ(X, “Plazma TV”)

Meslek(X, “öğrenci”) yaĢ (X, “15...20”) alıĢ(X, “Oyun Konsolu”)

Yukarıdaki ilk kuralda, otuzlu yaĢlarındaki, yıllık gelirleri 60K-69K arasında olan müĢterilerin Plazma TV satın almıĢ olduğunu gösterir. Bir sonraki kural ise, yirmi yaĢ altı öğrenci olan müĢterilerin oyun konsolu satın almıĢ olduğunu ifade etmektedir.

(41)

3.1.1. Güven ve destek kavramları

Kuralın destek ve güven değerleri, kuralın ilginçliğini ve ilgililiğini ifade eden iki ölçüdür. Bu değerler sırasıyla keĢfedilen kuralların yararlılığını (kullanıĢlılığını) ve kesinliğini (doğruluğunu) ifade eder.

Güven ve destek değerlerinin örnek bir formülü Ģu Ģekildedir:

A B [destek = % 2, güven = % 60] (3.2)

(A B) güveni aĢağıdaki gibi hesaplanır:

Güven (A B) = (A ve B‟ nin bulunduğu satır sayısı) / (A‟ nın bulunduğu satır sayısı) (3.3)

Güven değerinin %60 olduğu (3.2) den çıkan sonuç; A ürünü satın alanların %60‟ı B ürününü de almıĢlardır. Güven değerinin %100 olması demek A ürünün alan her kiĢi B ürünün de almıĢtır anlamına gelir ve böyle kurallara kesin kural adı verilir.

(A B) desteği ise Ģu Ģekildedir:

Destek (A B) = (A ve B‟ nin bulunduğu satır sayısı) / (toplam satır sayısı) (3.4)

Destek değeri %2 olan (3.2) den çıkan sonuç; Satılan tüm satıĢların %2‟sinde A ve B birlikte bulunmaktadır.

(42)

Tablo 3.1. Ürün satıĢ tablosu TID ÜRÜNLER

1 Su, Ekmek, Kek, Süt 2 Su, Kek, Ekmek, Balık 3 Bira, Ekmek, Kek, Süt 4 Ekmek, Kek, Süt 5 Su, Bira, Kek, Süt

Tablo 3.1‟ den yola çıkarak toplam alıĢ hareketlerine göre {Kek, Süt} ile Su arasındaki iliĢki Ģu Ģekilde açıklanabilir:

(Kek, Süt, Su) 2 Destek = --- = --- = 0.4 Toplam hareket 5 (Kek, Süt, Su) 2 Güven = --- = --- = 0.5 (Kek, Süt) 4

Bu eĢitliklerden de anlaĢılacağı gibi, {Kek, Süt} Su kuralı %40 destek, %50 güven ölçülerine sahiptir.

Birliktelik kuralının kullanım alanları, market satıĢ analizlerinde, ticarette, mühendislikte, tıp ve finans Ģeklinde sıralanabilir. Sepet analizi en çok kullanıldığı alanlardan biridir. MüĢteri alım alıĢkanlıklarına ve perakendecilik esaslarına göre kararlar alınmasını sağlar; hangi ürün indirime konacağı, katalogların nasıl tasarlanacağı, raflarda ürünleri nasıl dizileceği vb. [Ülker vd., 2005].

(43)

Örnek olarak sepet analizi yöntemi farklı raf dizimlerinin olabilmesine olanak tanır. Bir stratejide, birlikte sık olarak alınan ürünler raflarda yakın yerlere dizilebilirler.

Bilgisayar alan müĢterilerin çoğunluğu yazılım da alma eğilimdeler ise bu ürünlerin yakın yerlere konulması iki ürünün satıĢ oranlarını da artırabilir. Diğer alternatif bir stratejide, bilgisayar ve yazılım ürünlerini markete ait bir rafın baĢlangıcına ve sonuna koymak, müĢteriyi kandırma metotlarından birisi olabilir. Çünkü müĢteri raf boyunca baĢka ürünlere bakarak ilerler ve bunları satın alma olasılığı doğar [Sever ve Oğuz, 2002].

Birliktelik-iliĢki kuralı madenciliği 2 aĢamalıdır:

Tüm sık geçen nesne kümelerinin bulunması; tanıma göre, her nesne kümesinin sık geçenler kümesinde yer alabilmesi için, her nesnenin destek değerinin önceden tanımlanmıĢ olan min_destek değerinden büyük olması gerekir.

Sık geçen nesne kümelerinden güçlü iliĢki kurallarının oluĢturulmasına; tanıma göre, bu kurallar min_destek ve min_güven durumunu sağlamalıdır.

Birliktelik kuralı algoritmalarının performansını belirleyen adım, birinci adımdır. Sık geçen öğe kümeleri belirlendikten sonra, eĢleĢtirme kurallarının bulunması düz bir adımdır.

Birliktelik kuralı çıkarmak için en çok kullanılan algoritma “Apriori” algoritmasıdır.

(44)

3.2. Apriori Algoritması

Apriori, boolean iliĢki kuralları için geçerli bir veri madenciliği algoritmasıdır. Algoritmanın ismi, bilgileri bir önceki adımdan aldığı için “prior” anlamında Apriori‟dir. Bu algoritma özünde iteratif (tekrarlayan) bir niteliğe sahiptir [Sever ve Oğuz, 2002] ve hareket bilgileri içeren veritabanlarında sık geçen öğe kümelerinin keĢfedilmesinde kullanılmaktadır.

Sık geçen öğe kümelerini bulmak için birçok kez veritabanını taramak gerekmektedir. Ġlk taramada bir elemanlı minimum destek ölçütünü sağlayan sık geçen öğe kümeleri bulunmakta, izleyen taramalarda bir önceki taramada bulunan sık geçen öğe kümeleri aday kümeler adı verilen yeni potansiyel sık geçen öğe kümelerini üretmek için kullanılmaktadır. Aday kümelerin destek değerleri, tarama sırasında hesaplanmakta ve aday kümelerden minimum destek ölçütü sağlayan kümeler o geçiĢte üretilen sık geçen öğe kümeleri olmaktadır. Sık geçen öğe kümeleri bir sonraki geçiĢ için aday küme olmaktadırlar. Bu süreç yeni bir sık geçen öğe kümesi bulunamayana kadar devam etmektedir [Han ve Kamber, 2001].

Bu algoritmada temel yaklaĢım eğer k-öğe kümesi minimum destek ölçütünü sağlıyorsa, bu kümenin alt kümeleri de minimum destek ölçütünü sağlamaktadır. Bir öğeler kümesinin destek değeri, altkümesinin destek değerinden büyük olmamaktadır.

Yani Y kümesi X kümesinin alt kümesi ise:

) ( ) ( ) (X Y s X sY (3.5) Ģeklinde olmalıdır.

(45)

Bir sık geçen nesne kümesinin bütün boĢ olmayan altkümeleri de sık geçmektedir. Bu özellik Ģu gözleme dayanmaktadır. Eğer bir nesne küme I, minimum destek eĢik değeri olan min_destek değerini sağlayamıyor ise, o zaman I sık geçen değildir denir. Bu durum P(I) < min_destek seklinde ifade edilir. Eğer bir A nesnesi I nesne kümesine eklenir ise, kümenin son hali I A, I kümesinden daha fazla sık geçmez, yani I A da sık geçen değildir [Sever ve Oğuz, 2002]. ġekil 3.1‟ de Apriori algoritmasının akıĢ diyagramı görülmektedir.

ġekil 3.1. Apriori algoritması akıĢ diyagramı

Kullanılan pazar sepeti verisinde her harekette yer alan ürün kodları sayısaldır ve ürün kodları küçükten büyüğe doğru sıralıdır. Öğe kümeleri eleman sayıları ile birlikte anılır ve k adet ürüne sahip bir öğe kümesi, k-öğe kümesi diye isimlendirilir. k-öğe kümesi c ifadesi ile gösterilirse, öğeleri (ürünler) c[1], c[2], c[3],...,c[k] Ģeklinde gösterilir ve c[1] < c[2] < c[3] < ... < c[k] olacak Ģekilde küçükten büyüğe doğru sıralıdır [Sever ve Oğuz, 2002]. Her öğe kümesine destek metriğini tutmak üzere bir sayaç değiĢkeni iliĢtirilmiĢtir ve sayaç değiĢkeni öğe kümesi ilk kez oluĢturulduğunda sıfırlanır. Aday öğe kümeleri C karakteri ile gösterilir.

(46)

Tablo 3.2. Apriori Algoritmasında kullanılan değiĢkenler k-öğe kümesi K adet öğe içeren öğe kümesi

Lk

GeniĢ (sık geçen) k-öğe kümeleri setleri (bu kümeler minimum destek Ģartını sağlar).

Bu setlerin her bir elemanının iki alanı vardır: i) öğe kümesi ve ii) destek sayacı.

Ck

Aday k-öğe kümeler setleri (potansiyel olarak geniş öğe kümeleridir).

Bu setlerin her bir elemanının iki alanı vardır: i) öğe kümesi ve ii) destek sayacı.

Apriori algoritmasının klasik özet kodu ġekil 3.2‟ de görülmektedir. Bu Ģekilde yer alan apriori-gen iĢlevi, (k-1) adet öğeye sahip L(k 1) öğeler kümesini kullanarak k adet öğeye sahip aday kümeleri üretir. Bu iĢlev Ģu biçimde çalıĢır. Ġlk önce, L(k 1) ile

) 1 (k

L birleĢtirme iĢlemine tabi tutulur.

BirleĢtirme iĢleminde L(k 1) öğe kümesinin her satırında yer alan son öğe

haricinde diğer öğelerin çapraz olarak benzerliği aranır ve son öğe haricinde diğer öğelerle yakalanan benzerliklerden yeni aday öğe kümeleri oluĢturulur. OluĢan kümeler budama adımı ile budanarak iĢlevden dönülür. Budama iĢlemi Ģu Ģekilde yapılır; c aday kümesinin (k-1) öğeye sahip alt kümelerinden de yer almayan kümeler silinir. Apriori-gen iĢlevinin algoritma kesiti, ġekil 3.3‟ te verilmiĢtir [Agrawal vd., 1993].

(47)

ġekil 3.2. Apriori algoritması özet kodu [Agrawal vd., 1993]

Budama aĢamasında, tüm öğe kümeleri (c Ck Ģeklindeki öğe kümeler) baz

alınır ve bunlardan c kümesinin (k-1) öğeye sahip içinde L(k 1) barındırmayan tüm alt kümeleri silinir [Bellazi vd., 2005]. Farklı bir ifade ile budama, Ck aday öğe

kümesindeki öğelerin alt kümelerinin L(k 1) kümesindeki varlığı kontrol edilir, bir öğenin alt kümelerinden biri, L(k 1) kümesinde yer almıyorsa ilgili öğe değerlendirme dıĢı kalır ve Ck aday öğe kümesinden silinir.

(48)

ġekil 3.3. Apriori-gen iĢleminin özet kodu [Agrawal vd., 1993]

Apriori algoritması özet kodu incelendiğinde sık geçen öğe kümelerini bulmak için birçok kez veritabanının tarandığı görülmektedir. Ġlk aĢamadan önce, veri madenciliği uygulanacak veri topluluğunun taranarak öğelerin kaç adet hareket kaydı içinde yer aldığı tespit edildiği (her öğe için tespit edilen bu değere destek sayacı adı verilir) ve destek sayacı minimum destek değerine eĢit veya büyük olan öğelerin L sık 1

geçen 1-öğe kümesi olarak belirlendiği varsayılarak iĢleme baĢlanır.

Kod içinde kurulan döngü yapısı ile ilk aĢamada L sık geçen öğe kümesinin 1

öğelerinin ikili kombinasyonuna benzer bir Ģekilde (L 1 L ) yeni bir küme oluĢur, bu 1

iĢleme birleĢtirme adı verilir, bu tarz oluĢan kümelere de aday öğe kümeler adı verilir ve

C harfi ile simgelenir. OluĢan bu aday öğe kümesinin her elemanı iki adet öğeden

oluĢtuğu için C ifadesi ile isimlendirilir. Bu aday küme apriori-gen iĢlevi ile budama 2

iĢlemine tabi tutulur ve C kümesinin elemanlarına ait alt kümelerinin 2 L öğe 1

kümesinde olup olmadığına bakılır, alt kümelerden herhangi birisi L içinde yer 1

almayan küme elemanları C aday kümesinden silinir. Apriori algoritması uygulanan 2

veri topluluğu tekrar taranarak budama iĢleminden geçen C aday kümesi elemanlarının 2

(49)

bilgileri doğrultusunda C aday kümesi elemanlarının destek sayacı minimum destek 2

değerine eĢit veya büyük destek değerine sahip olan elemanları L sık geçen öğe 2

kümesini oluĢturur. Diğer elemanlar ise silinir. ġekil 3.4‟ de budama iĢleminin grafiksel gösterimi verilmiĢtir.

Döngü bir sonraki aĢamada L kümesi öğelerinin üçlü kombinasyonu ile 2

oluĢturulan yeni bir aday öğe kümesi oluĢturur ve bu küme C3 ifadesi ile simgelenir. Ġlk

aĢamada olduğu gibi bu kümede budama iĢleminden geçer ve budama iĢleminden sonra minimum destek seviyesinin üstünde kalan elemanları ile L3 sık geçen öğe kümesi oluĢturulur. Bu döngü her dönüĢünde öğe sayısını artırarak devam eder. Bu süreç yeni bir sık geçen öğe kümesi bulunamayana kadar devam eder.

ġekil 3.4. Apriori budama iĢleminin grafiksel gösterimi.

Örnek bir veri seti Tablo 3.3‟ te verilmiĢtir. Bu örnek tablo üzerinde Apriori algoritması çalıĢtırılarak en sık geçen ürünler bulunmaya çalıĢılacaktır.

(50)

Tablo 3.3. Hareketler ve ürünler tablosu MüĢteri Numarası Aldığı Ürünler

101 Elma, ġeker, Çay, Domates

102 Ekmek, Domates, Un, ġeker

103 Elma, Domates, Ekmek

104 ġeker, Çay, Domates, Peynir,

105 Elma, Domates, Un, Çay

106 Makarna, Domates, Çay

107 Elma, Zeytin, Domates

108 Un, Üzüm, Çay

109 Üzüm, ġeker, Çay

110 Çay, Makarna, Elma, Un, Domates

Birliktelik kuralları, öğe setleri arasındaki eğilimi ya da iliĢkiyi bulur. Öğe seti, öğelerin kümesini oluĢturur. Her bir hareket öğe seti olarak adlandırılır. Örneğin, Tablo 3.3‟ teki örnekte 108 numaralı müĢterinin yapmıĢ olduğu alıĢveriĢteki “Un-Üzüm-Çay” bir öğe setidir.

Adım 1:Minimum destek sayısı ve minimum güven değerinin belirlenmesi

Minimum Destek: 3

Minimum Güven: %70 olarak seçilmiĢtir.

Adım 2: Öğe setleri içerisindeki her bir öğenin destek değerinin bulunması (Her ürünün hareket listesindeki geçiĢ sayısı C tablosu). 1

(51)

Tablo 3.4. Tekli birlikteliklerin destek değerleri. Ürün Seti Destek Değeri

Elma 5 ġeker 4 Çay 7 Un 4 Ekmek 2 Domates 8 Peynir 1 Makarna 2 Üzüm 2 Zeytin 1

Adım 3: Minimum destek değerinden daha düĢük desteğe sahip olan öğelerin devre dıĢı bırakılması (Destek değeri 3 den küçük olan ürünlerin çıkarılması, L tablosu) 1

Tablo 3.5. Minimum destek değerini sağlayan ürünler Ürün Seti Destek Değeri

Elma 5

ġeker 4

Çay 7

Un 4

Domates 8

Adım 4: Elde edilen tekli birliktelikler dikkate alınarak ikili birlikteliklerin oluĢturulması (L1 L1 yani C tablosu) 2

(52)

Tablo 3.6. Ġkili birliktelikler ve destek değerleri

Ürün Seti Destek Değeri

Elma, Şeker 1 Elma, Çay 3 Elma, Un 2 Elma, Domates 5 Şeker, Elma 1 Şeker, Çay 3 Şeker, Un 2 Şeker, Domates 3 Çay, Elma 2 Çay, Şeker 3 Çay, Un 3 Çay, Domates 5 Un, Elma 2 Un, Şeker 2 Un, Çay 3 Un, domates 3 Domates, Elma 5 Domates, Çay 5 Domates, Un 3 Domates, Şeker 3

Bu aĢamaların her birinde, oluĢturulan birlikteliklerin destek değerleri göz önüne alınarak minimum destek değeri belirlenir. Burada A B ile B A ikililerinin biri dikkate alınmamaktadır.

Adım 5: Minimum destek 3 olarak seçilirse ve bu değerden düĢük olan ürün setleri çıkartılırsa liste Tablo 3.7 deki gibi olur. (L Tablosu) 2

(53)

Tablo 3.7. Ġkili birlikteliklerden destek değerini sağlayan setler

Ürün seti Destek Değeri

Elma, Çay 3 Elma, Domates 5 Şeker, Çay 3 Şeker, Domates 3 Çay, Un 3 Çay, Domates 5

Adım 6: Üçlü birlikteliklerin oluĢturulması (C3 tablosu). Genelde ikili birliktelikler göz

önüne alınsa da veritabanındaki öğelerin birbirleri ile olan iliĢkileri dikkate alınarak üçlü ve dörtlü veya daha fazla birliktelikler oluĢturulabilir. Burada ele alınan market-basket verisine göre üçlü birliktelikler oluĢturulabilir.

Tablo 3.8. Üçlü birliktelikler ve destek değerleri

Ürün Seti Destek Değeri

Elma, Çay, Şeker 1

Elma, Çay, Domates 3

Elma, Domates, Şeker 2

Elma, Domates, Çay 3

Elma, Domates, ekmek 1

Elma, Domates, Un 2

Elma, Domates, Makarna 1

Şeker, Çay, elma 1

Şeker, Çay, Domates 2

Şeker, Çay, Peynir 1

Şeker, Çay, üzüm 1

Şeker, Domates, Elma 1

Şeker, Domates, Çay 2

Referanslar

Benzer Belgeler

İlk aşamadan önce, veri madenciliği uygulanacak veri topluluğunun taranarak öğelerin kaç adet hareket kaydı içinde yer aldığı tespit edildiği (her öğe

Veri madenciliği, potansiyel olarak faydalı, yeni ve mantıklı bilgi elde etmek için büyük veri tabanları üzerinde birden fazla basamaktan oluşan bir analiz

Muayene ve diğer incelemeler başka bir hastalığı dışlamak için yapılır (23). Migren ataklar şeklinde gelen baş ağrılarıyla karakterize bir hastalık olmakla

Bu işleme veri madenciliği yerine önceleri veri taraması (data dredging), veri yakalanması (data fishing) gibi isimler verilmiştir.?. Veri Madenciliğinin Tarihçesi

5 Peynir, Makarna, Şeker,Bira.. Destek ve güven ölçütleri için eşik değerleri belirlenir.  b) Beş müşterinin alışveriş yaptığı ürünlerin kümesi {şeker, çay,

 Bilginin Dünya üzerinde dağıtık ve çok büyük boyutlarda bulunmasından dolayı bilgiyi bulmak ve erişmek daha önemli hale gelmeye başladı..  Çok büyük bir alanda

 Aynı veri madenciliği sonuçları elde edilecek şekilde veri miktarını azaltma.. Veriyi

 Büyük veri kümesini daha küçük bir alt küme ile temsil etme.  Alt küme