• Sonuç bulunamadı

Bulanık Mantık İle Veri Madenciliği

N/A
N/A
Protected

Academic year: 2021

Share "Bulanık Mantık İle Veri Madenciliği"

Copied!
85
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

ÖNS ÖZ

Bu çalış manı n her aşaması nda bana yar dı mcı ol an ve beni dest ekl eyip moti ve eden Sayı n Yar d. Doç. Dr. Al i ERCENGİ Z‟ e, veri madencili ği konusuyl a il gilen me me aracı ol an Sayı n Pr of. Dr. Gazanfer ÜNAL‟ a ve her za man yanı mda yer alan ail e me ve ar kadaşl arı ma t eşekkürl eri mi sunarı m.

(2)

Ġ ÇĠ NDEKĠ LER

KI SALT MALAR vi

TABLO LĠ STESĠ vii

ġEKĠ L LĠ STESĠ viii

SE MBOL LĠ STESĠ i x

ÖZET x

SUMMARY xi

1. GĠ RĠ ġ 1

2. VERĠ MADENCĠ LĠ ĞĠ VE Ġ LĠ ġKĠ LĠ KAVRAMLAR 3

2. 1. Veri Tabanı nda Bil gi Keşfi Süreci nde Veri Madencili ği 3

2. 2. Neden Veri Madenci li ği 4

2. 3. Veri Madencili ği ni n Geli şi mi 5

2. 4. Veri Madencili ği ve İst atisti k 7

2. 5. Veri Madencili ği ve Veri Ambarı 9

2. 6. Veri Madencili ği ve OLAP 11

2. 7. Veri Madencili ği ni n Kull anı m Al anl arı 13

2. 7. 1. Pazarl a ma Uygul amal arı 13

2. 7. 2. Bankacılı k Uygul amal arı 14

2. 7. 3. Si gort acılı k Uygul a mal arı 14

2. 7. 4. İnt er net Uygul a maları 14

2. 7. 5. Di ğer Uygul a mal ar 14

2. 8. Veri Madencili ği Si ste mleri ni n Sı nıfl andırıl ması 15

2. 9. Veri Madencili ği ni n İşl evl eri 16

2. 10. Veri Madencili ği Al gorit mal arı 16

2. 10. 1. Birli kt eli kl er ( Associ ati ons) 17

2. 10. 2. Sı nıfl andır ma ( Cl assifi cati on) 18

2. 10. 3. Ar dı şı k Ör ünt ül er ( Sequenti al Patt er ns) 19

2. 10. 4. Kü mel e me ( Cl usteri ng) 19

2. 10. 5. Nit el e me ( Char acteri zati on) 20

2. 10. 6. Veri Gör ünt ül e me 20

2. 10. 7. Ayrı m ( Discri mi nati on) 21

(3)

2. 10. 10. Evri m ve sap ma anali zi ( Evol uti on and Devi ati on Anal ysi s) 22

2. 11. Veri Madencili ği Tekni kl eri 22

2. 11. 1. İst atisti ksel Tekni kl er 22

2. 11. 1. 1 Doğr usal ve Loj isti k Regr esyon 22

2. 11. 1. 2 Za man Serisi Tah mi ni 23

2. 11. 2. Bell ek Tabanlı Yönt e ml er 23

2. 11. 3. Yapay Si nir Ağl arı 25

2. 11. 4. Karar Ağaçl arı 27

2. 11. 4. 1 CART 28

2. 11. 4. 2 CHAI D 29

2. 11. 5. Kur al Çı karı mı 30

2. 11. 6. Kur al Çı karı mı ve Kar ar Ağaçl arı Ar ası ndaki Far kl ar 30

2. 11. 7. Geneti k Al gorit mal ar 31

2. 11. 8. Bul anı k Mantı k 32

2. 11. 9. Ar aştır macı Veri Anali zi ( EDA – Expl orator y Dat a Anal ysi s) 33

2. 11. 10. Veri Madencili ği Tekni ği Seçi m Öneril eri 33

3. BULANI K MANTI K 34

3. 1. Klasi k ve Bul anı k Kü mel er 35

3. 1. 1. Üyeli k Fonksi yonl arı 37

3. 1. 2. Kü me İşl e ml eri 39

3. 1. 2. 1 Birl eşi m Kü me 39

3. 1. 2. 2 Kesi şi m Kü mesi 40

3. 1. 2. 3 Tü ml eyen Kü me 40

4. VERĠ MADENCĠ LĠ ĞĠ NDE BULANI K MANTI K 42

4. 1. Bul anı k Sor gul a ma 42

4. 2. Dilsel Eşi kl er 45

4. 3. Dilsel Özet 46

4. 4. Bul anı k Kur all ar 49

4. 5. Bul anı k ve Der eceli Fonksi yonel Bağlılı kl ar 49

4. 5. 1. Bul anı k Fonksi yonel Bağlılı kl ar 50

4. 5. 2. Dereceli Fonksi yonel Bağlılı k 54

5. GELĠ ġTĠ RĠ LEN UYGULAMANI N YAPI SI 60

5. 1. Veri tabanı 60

5. 2. Kull anı cı Ar a Yüzü 61

5. 2. 1. Bul anı k Sor gul a ma 62

5. 2. 2. Dilsel Özet 64

(4)

5. 2. 4. Dereceli Fonksi yonel Bağlılı k 68

6. SONUÇ 71

7. KAYNAKLAR 73

(5)

KI SALT MALAR

ASP : Acti ve Ser ver Pages

BFB : Bul anı k Fonksi yonel Bağlılı k

BVTYS : Bul anı k Veri tabanı Yöneti m Sist e mi CART : Cl assifi cati on and Regressi on Tr ees CHAI D : Chi Square Aut o mati c Iteracti on Det ect or DFB : Dereceli Fonksi yonel Bağlılı k

Di pnot : Di pl o ma Not u DVD : Di git al Vi deo Disc

EDA : Expl orat or y Dat a Anal ysis FB : Fonksi yonel Bağlılı kl ar GI GO : Gar bage i n Gar bage out I/ O : Input/ Out put

IIS : Int er net Inf or mati on Servi ces Ġ MKB : İstanbul Menkul Kı ymetler Borsası KDD : Kno wl edge Discover y in Dat abases k- NN : K- En Yakı n Ko mş ul uk

Mat agr : Mat e mati k Ağırlı klı Not u MS : Mi cr osoft

OLAP : Onli ne Anal yti cal Pr ocessi ng ÖSS : Öğrenci Seç me Sı navı S QL : Struct ured Quer y Language TC : Tür ki ye Cu mhuri yeti

VT : Veri tabanı

VTYS : Veri tabanı Yöneti m Siste mi www : Worl d Wi de Web

(6)

TABLO LĠ STESĠ

Sayf a No

Tabl o 2. 1. Veri Madenci li ği ni n Gelişi mi 6

Tabl o 2. 2. Veri Madenci li ği Tekni kl eri ni n Seçi mi 33

Tabl o 4. 1. Veri Tabanı nın Bi r Alt Kü mesi 43

Tabl o 4. 2. Di pl o ma Not u Yüksek Ol an İnsanl arın Üyeli k Derecesi 44 Tabl o 4. 3. Di pl o ma Not u Ve Mat e mati k Puanı Yüksek Ol anl arı n Üyeli k Der ecesi 45 Tabl o 4. 4. Bul anı k Fonksi yonel Bağlılı k Ar a Tabl osu 53

Tabl o 4. 5. Dereceli Fonksi yonel Bağlılı kl ar 58

(7)

ġEKĠ L LĠ STESĠ

Sayf a No

ġekil 2. 1 Veri Tabanl arı nda Bil gi Keşfi Süreci 3

ġekil 2. 2 Veri Ambarı ve Veri Madencili ği Süreci 10

ġekil 2. 3 Kredi riskl eri. Bi r k- NN‟i n Ör neği 24

ġekil 2. 4 Yapay Si nir Ağları 25

ġekil 2. 5 Karar ağacı Örneği 27

ġekil 3. 1 Üçgen ve Ya muk Üyeli k Fonksi yonl arı 37

ġekil 3. 2 S ve Z Yapı sı ndaki Üyeli k Fonksi yonl arı 38

ġekil 3. 3 Pi Üyeli k Fonksi yonu 39

ġekil 3. 4 Bul anı k Kü me İşle mleri ( Birleşi m, Kesişi m, Değil) 41

ġekil 4. 1 Çoğu Bul anı k Fonksi yonunun Yapı sı 47

ġekil 5. 2 Ana Sayfa 62

ġekil 5. 3 Üyeli k Fonksi yonu Seçi m Sayfası 63

ġekil 5. 4 Bul anı k Sor gula ma Te mel Sayfası 63

ġekil 5. 5 VT‟ deki Q Nesnel eri S‟ dir Şekli ndeki Di l sel Özet Sayfası 65 ġekil 5. 6 VT‟ deki QR Nesnel eri S‟ dir Şekli ndeki Dilsel Özet Sayfası 66

ġekil 5. 7 Dilsel Özeti n Doğr ul uk Değeri 66

ġekil 5. 8 Dilsel Özet Ayrı ntı Tabl osu 67

ġekil 5. 9 Bul anı k Fonksiyonel Bağlılı k Başl angı ç Sayfası 67 ġekil 5. 10 Bul anı k Fonksi yonel Bağlılı kt aki Max Fonksi yon Değeri ni n Atan ması 68

ġekil 5. 11 Dereceli Fonksi yonel Bağlılı k 69

(8)

SE MBOL LĠ STESĠ

τ : Bir kuralı n doğr ul uk değeri : Bul anı k benzerli k operat örü

α : Keli me

Aj : Veri tabanı ndaki al anl ar Gi : Dereceli ifade

Gi’ : Dereceli ifadeni n t ersi

Oi . Aj : Oi nesnesi ni n Aj al anı ndaki değeri Oi : Veri tabanı ndaki herhangi bir nesne

Q : Nit el eyi ci

S : Özetleyi ci

μ( A) : A bul anı k kü mesi ni n üyeli k derecesi

(9)

BULANI K MANTI K ĠLE VERĠ MADENCĠ LĠ ĞĠ ÖZET

Günü müzde, i nsanl arı n gerçekl eştirdi ği he men he men t ü m f aali yetler kayıt altı na alı nmakt adır. Ör neği n bir mar ketten alışveriş yapar ken, bir ar kadaşı nı za para haval e eder ken, üreti mde kull anılacak mal ze mel eri n depoya girişi ni kontrol ederken, i şl et mel er arası ndaki günl ük r utin ilişkileri gerçekl eştirirken faali yetler, veri t abanl arı nda kaydedil mekt edir. Bu t ür verileri n boyutl arı her geçen gün hı zl a art makt adır. Sakl an ması gereken verileri n bu kadar hı zlı çoğal ması, hedef bil gi ye ul aş mada kull anılan gel eneksel sor gul a ma ve r aporl a ma t ekni kl eri ni n yet ersi z kal ması na neden ol makt adır. İşt e veri ma dencili ği nden bu büyük veri yı ğı nl arı arası ndan bil gileri n el de edil mesi nde yararlanıl makt adır.

Veri madencili ği nde i stenilen bil gi ye ul aş mak içi n birçok farklı al gorit ma ve t ekni k kull anıl makt adır. İnsanın düşün me ve düşündükl eri ni ifade et me şekli ne uyan yönt e mlerden biri bul anık mantı ktır. İşt e bu özelli kl eri nden dol ayı bu t ez çalış ması nda birçok t ekni k arası ndan bul anı k mantı k terci h edilmi ştir.

Çalış mada veri madencili ği ve bul anı k mantı k hakkı nda bil gi veril di kten sonra veri ma dencili ği ve bul anı k ma ntı ğı n kesişi minden söz edil mekt e ve son ol arak Windo ws ort a mı nda ASP ve MS Access kull anılarak geliştirilen; bul anı k sor gul a ma, dilsel özetl e me yapıl abilen ve bul anı k f onksi yonel bağlılı k il e dereceli f onksiyonel bağlılı k hesapl a mal arı nı n da gerçekl eştiril di ği uygul a ma hakkı nda bil gi veril mekt edir.

(10)

DATA MI NI NG WI TH FUZZY LOGI C SUMMARY

In our ti me, nearl y all acti viti es perf or med by peopl e are r ecor ded. For i nst ance, shoppi ng i n a mar ket, transferri ng money t o a fri end, checki ng of mat eri al s i nt o war ehouse t hat will be used i n pr oducti on, routi ne dail y operati ons bet ween t he or gani zati ons are r ecor ded i n t he dat abases. The di mensi ons of t hese data are r api dl y i ncreasi ng day by day. Fast i ncrease i n dat a t hat must be st ored i s l eadi ng t o i nsuffi ci ent traditi onal queri es and r eporti ng t echni ques. Thus, dat a mi ni ng i s usef ul i n gat heri ng dat a fro m huge dat a mount ai ns.

Mi scell aneous al gorit hms and t echni ques ar e i n use i n dat a mi ni ng t o r etri eve t he dat a needed. One of t hese me t hods t hat suits t he hu man t hi nki ng and hi s way of expr essi ng t hought s i s f uzzy l ogi c. Theref ore, because of t hese f eat ures, a mong many ot her techni ques, fuzzy l ogi c has been chosen i n t hi s t hesis st udy.

Thi s st udy cont ai ns i nf ormati on about ho w dat a mi ni ng and f uzzy l ogi c i ntersect. Fi nall y it expl ai ns t he appli cati on, whi ch i s generat ed by i n Windo ws pl atfor m by usi ng ASP and MS Access. I n t hi s appli cati on a user can f uzzy questi oni ng, li ngui sti c su mmar y, and exa mi ne fuzzy functional dependency and gradual functi onal dependency.

(11)

1. GĠ RĠ ġ

Veri madencili ği, veri tabanl arı nda bil gi keşfi (Knowl edge Di scovery i n Dat abases –

KDD) konsepti i çi nde yer al an, bil gi çı karı mı, bil gi hasatı, veri arkeol ojisi gi bi

teri mlerden biri dir. Veri t abanl arı nda bil gi keşfi, aynı za manda veri madencili ği ni n ar kası nda yat an mantı k şu şekil de tanı mlanabilir:

Veri t abanl arı nda bil gi keşfi, veri i çerisi nden geçerli, yeni, pot ansi yel olarak kull anışlı

ve sonuçt a anl aşılabilir örünt ül er (pattern) tanı mlama süreci dir [10].

Bu i fadedeki veri, gerçekler kü mesi dir. Ör ünt ül er ise, veri ni n bir alt kü mesi ni n ya da bu alt kü meye uygul anabil ecek modell eri n t anı mı nı göst eren her hangi bir dildeki ifadedir. Ör ünt ül eri n çı karıl ması aynı za manda veri ye bir modeli n uydur ul ması nı, verilerden bir yapı bul un ması nı veya genel ol arak bir veri seti ni n yüksek sevi yeden t arifi ni de belirt mekt edir. Süreç keli mesi ise veri t abanı nda bil gi keşfedilirken bir çok adı mı n tekrarlanarak uygul andığı nı ifade et mekt edir. Bul unan ör ünt ü yeni bir veri üzeri nde belirli bir kesi nli kl e geçerli ol malı dır. Ör ünt ül eri n en azı ndan sist e m ya da kull anı cı i çi n yeni ol ması ve aynı za manda pot ansi yel yararlar i çer mel eri, ör neği n kull anıcı ya ya da bir işe fayda sağl a ması, isten mekt edir. Son ol arak ör ünt ül er anı nda ol masa da sonunda anl aşılır ol malı dır. Büt ün koşullar sağl anı nca örünt ül er bil gi ye dönüşecektir.

Veri t abanl arı nda bil gi keşfi, 1989 yılı nda veri den bil gi yi ara ma uğraşı nda sı nırsı z ve „yüksek sevi yede‟ ol ma genel konsepti ni ifade et mek i çi n geliştiril miştir. Veri ma dencili ği t eri mi i se yüksek sevi yedeki uygul a ma t ekni kl eri/araçları anl a mı na gel mekt edir ve karar vericilere veri sun makt a, verileri analiz et mekt e kullanıl makt adır. Veri madencili ği t eri mi daha çok i st atisti kçiler, veri analistleri ve yöneti m bilişi m siste mleri ( manage ment i nfor mati on syst e ms) t opl ul uğu t arafı ndan kull anılırken, yapay

(12)

zeka ve maki ne öğren mesi ni ( machi ne l earni ng) araştıran ki şiler veri t abanları nda bil gi keşfi tanı mını kullanmaktadır [6].

Başka bir deyi şl e, veri madencili ği, verileri n i çerisi ndeki ör ünt ül erin, ilişkileri n, deği şi mleri n, düzensi zli kleri n, kuralları n ve i st atisti ksel ol arak öne mli ol an yapıl arı n yarı ot omati k ol arak keşfedilmesi dir [16].

Veri madencili ği nde, istatisti k, yapay zeka, maki ne bil gisi, veri t abanı ve yüksek perfor manslı işle mler kullanıl dı ğı ndan aynı za manda disi pli nl er arası dır.

Gart ner Gr oup veri madencili ği ni “depol arda t ut ul an verileri n gözden geçiril mesi, ör ünt ü fark et me t eknol ojileri ni n ve i st atisti ki, mate mati ksel t ekni kl eri n kull anıl ması yl a yeni, anl a mlı kor el asyonl arı n, ör ünt ül eri n ve t rendl eri n bul un ma sür eci ” ol arak tanı mla makt adır.

Son ol arak di yebiliriz ki, veri madencili ği büyük mi kt arda veri i çi nden gel ecekl e il gili tahmi n yap ma mı zı sağl ayacak bağı ntı ve kuralları n bil gisayar pr ogra mları kull anarak aranması dır [2].

(13)

2. VERĠ MADENCĠ LĠ ĞĠ VE Ġ LĠ ġKĠ LĠ KAVRAML AR

Bu böl ümde veri madencili ği, ilişkili ol duğu kavra mlar, kull anılan t ekni kler, uygul a ma al anl arı gi bi çok farklı boyutl arda el e alı narak det aylı i ncel enecektir.

2. 1. Veri Tabanı nda Bil gi KeĢfi Süreci nde Veri Madencili ği

Veri t abanl arı nda bil gi keşfi süreci Şekil 2. 1‟de göst eril di ği gi bi şu adıml ar dan t ekrar tekrar yi nel enmesi yl e gerçekl eş mekt edir [9]:

ġekil 2. 1 Veri Tabanl arı nda Bil gi Keşfi Süreci

 Uygul a ma alanı, daha önceki bil giler ve son kullanı cı nı n hedefleri ni n anl aşıl ması.  Hedef veri gr ubunun oluşt urul ması: veri ni n seçil mesi veya keşfi n gerçekl eşeceği

deği şkenl eri n bir alt kümesi ne ya da veri örnekl eml eri ne odakl anıl ması.

 Verileri n t e mizl enmesi ve ön i şle me: gür ült ünün ( noise) ve i stisna, dışa düşenl eri n uzakl aştırıl ması, gür ült ünün r aporl anması veya modell enmesi i çi n gerekli bil gi ni n

Bi l gi Veri Ör ünt ül er ( Patt er n) Dönüşt ür ül müş veri Önceden işl en mi ş veri Hedef veri Veri Seçi m Ön İşl e me Dönüşt ür me Veri Ma dencili ği Yor u ml a ma/ Değerl endir me

(14)

t opl anması, kayı p veri al anl arı ile başa çı kma strat ejileri ni n geliştirilmesi, bili nen deği şi kli kl erle ve za man sırası na göre bil gi ni n raporl anması.

 Veri çı kar ma ve göst erme: görevi n hedefleri ne göre veri ni n sunul masında kullanışlı ol an yeni özelli kl er bul mak, boyut sal çı karma veya dönüşt ür me yönt e mleri ni kull anarak göz önünde bul undur ul an deği şken sayı sı nı azalt mak veya veri i çi n deği ş mez göst eri mler bulma k.

 Veri madencili ği görevini seç mek: veri t abanı nda bil gi keşfi süreci ni n hedefi ni n ne ol duğuna (sı nıflandır ma, regresyon, kümel e me vs) ol duğuna karar ver mek.

 Veri madencili ği al gorit ması na karar ver mek: veri i çerisi nde bul unan ör ünt ül eri araştır mada hangi yönte mleri n kull anıl acağı nı seç mek; hangi modell eri n veya para metrel eri n daha uygun ol duğuna karar ver mek; veri t abanı nda bil gi keşfi süreci ni n genel kriteri ne uygun belirli bir veri madencili ği yönt e mi bul mak.

 Veri madencili ği: belirli bir göst eri m f or munda veya bu göst eri mleri n bir kü mesi nde; sı nıflandır ma kuralları, ağaçl ar, regresyon, kümel e me vs il e i st enilen ör ünt ül eri n araştırıl ması.

 Ma dencili k yapılarak bulun muş örünt ül eri n yor umlanması.  Keşfedilen bil gi ni n birleştiril mesi [10].

Veri madencili ği bu s üreçt e, veril er den ör ünt ül erin ( veya modell eri n) belirli bir sırası nı yarat an sayısal t ekni kl eri n belirli bir et ki nli k sınırı i çi nde uygul anması ol arak ifade edilebilir. Veri madencili ği daha çok verilerden ör ünt ül eri n çı karıl dı ğı ve sır al andı ğı al gorit mal ar ol arak düşünül mekt edir.

2. 2. Ne den Veri Madencili ği

Bili msel veri t opl a madaki ( uzakt an al gılayı cılar/ uydul ar), bar kod i şl emesi ndeki ve hükü met i şl e mleri ndeki geliş mel er, verileri n hac mi ni büyüt müşt ür. Geliş miş veri

(15)

teknol ojileri ni n geni ş çapt a kull anıl ması, veri ni n büyükl üğünü ol dukça artır makt adır. Geneti k kod pr oj el eri ve astrono mi araştır mal arı terabayt düzeyi nde veri üret mekt edir. Uydul ar ve uzakt an al gılayı cılar saatte 50 gi gabayt veri üret mekt edirler. Yer yüzünde her 20 ayda bir bil gi kendi ni i ki ye katla makt adır.

Or gani zasyonl ar art an veri ile ne yapacakl arı probl e mi il e karşı karşı ya kal mışl ardır. Gel eneksel sor gul a ma ve raporl a ma araçl arı nı n büyük veri yı ğı nl arı karşısı nda et kisi z kal ması veri t abanı nda bil gi keşfi adı altı nda faali yetler yapıl ması na ve dol ayısı yl a veri ma dencili ği ni n ortaya çı kması na neden ol muşt ur.

Veri madencili ği ni n özelli kl e i şl et mel erde karar ver mede kull anıl ması nı n birçok nedeni var dır:

 büyük veri tabanl arı nda kullanıl mayan değerler,

 veri tabanı kayıtları nı n tek müşt eri görünt üsüne doğr u birleştiril mesi,  veri tabanl arı nı n birleştiril mesi nden doğan bil gi veya veri a mbarı kavra mı,

 veri depol a ma ve i şleme de kullanılan donanım si ste mleri ni n mali yet/perfor mans oranl arı ndaki i nanıl maz düşüş. Beş yıl önce t erabayt düzeyi nde veri ni n sakl an ması 10 mi l yon dol ar ci varı ndayken, bugün bu t ut ar 1mil yon dol arı n altı na düş müştür.

 doyu ma ul aşan pazarlardaki yoğun rekabet,

 i mal atı ve pazarı özelleştirebil me ve küçük pazar seg mentleri ne yöneli k rekl a m yapabil me,

 veri madencili ği ür ünl eri i çi n pazarı n 1994‟ ün başl arı nda 500 mil yon dol ar ol arak tah mi n edil mesi.

2. 3. Veri Madencili ği ni n GeliĢi mi

Et ki n kararları n mevcut doğr u verilere dayanan bil gilerle alı ndı ğı çok uzun za mandan beri bili nmekt edir. Karar ver mede doğr u verileri n bul un ması nda değerlendir me ve

(16)

geliştir me 30 yıl önceden başl a mıştır ve gelişimi çeşitli aşa mal arla deva m et miştir. Tabl o 2. 1‟de bu süreç göst eril mekt edir [13].

Tabl o 2. 1. Veri Madenci li ği ni n Gelişi mi

Aş a ma İşlet me Sor usu Ol anaklı Kılan Teknol ojiler Ür eticiler Ni t eli kl eri

Veri Topl a ma Geçti ği miz beş yıl içi nde kazancı m ne kadar ol du?

Bi l gi sayarl ar, kasetl er,

di skl er I BM, CDC

Geç mi şl e il gili stati k veri dağıtı mı

Veri Erişi mi

Geçen Mart Mar mar a‟ daki biri m satışlar ne kadar dı ?

İlişkisel veri tabanı yöneti m sist e mleri ( RDB MS), yapısal sorgul a ma dili ( SQL), Açı k veri tabanı bağl antısı ( ODBC)

Or acl e, Sybase, Inf or mi x,

I BM, Micr osoft

Geç mi şl e il gili, kayıt sevi yesi nde di na mi k veri dağıtı mı

Veri Sor gul a ma

Geçen Mart Mar mara‟ daki biri m satışlar ne kadar dı ? İstanbul‟u yakı ndan göst er (drill down).

On-li ne Anal yti cal Pr ocessi ng ( OLAP), çok boyutl u veri tabanl arı, veri a mbarl arı

Pil ot, I RI, Ar bor, Redbri ck, Evol uti onar y Technol ogi es

Geç mi şl e il gili, birçok sevi yede veri di na mi k veri dağıtı mı

Veri Madencili ği

İstanbul‟da biri m satışlar ne şekil de gelişecek? Ne den?

Geliş miş al gorit mal ar, çok işle mcili bil gisayarlar,

Lockl eed, I BM, SGI, sayısız yeni açılışlar

Umul an, pr oaktif bil gi dağıtı mı

Veri madencili ği ni n gelişi m aşa mal arı şu şekil dedi r:

 Veri Topl a ma: 1960‟l arda, önceden bi çi mlendirilmi ş bil gilerden ol uşan raporl ar, veri tabanl arı nda bul unan verilerden yararlanılarak ol uşt urul makt aydı. Bir başka ifadeyl e belirli karar ver me ger eksi ni mleri ni karşıl a mak i çi n yapı sal r aporl ar dan yararlanıl makt aydı. İşt e veri t abanl arı verileri sakl arken uygul a mal ar, bu r aporl arı hazırla mak içi n verileri düzelti p yöneti yorl ardı.

 Veri Erişi mi: 1980‟l erde i se, kullanı cılar bil gi ye daha sı k ul aş mayı ve aynı za manda bil gi ni n daha ki şisel ol ması nı ist e meye başladılar. Sonuçt a veri tabanl arı nda sorgul a mal ar yap maya, bil gi ye yöneli k t al epl erde bul un maya başl adılar. Bunl ar dan

(17)

bil gi ni n el de edil mesi nde yar arl anı yorl ar dı. Si st e m geliştiri cil er genelli kl e sorgul a mal arı tanı mlı yor ve siste m i çerisi nde i nşa edi yor du.

 Veri Sor gul a ma: Sonral arı 1990‟larda, kullanı cılar daha det aylı bil gilere anı nda eriş me gereksi ni mi duydul ar. Bi r başka deyi şl e, “uçan” sor ul arı n cevapl arı nı aradılar. Bil gi yi, ür ün ve karar ver me süreçl eri yl e ilişkilendirebil mek i çi n t a m za manı nda ol ması nı istediler. Bu, büt ün kul lanı cıları n bil gi gereksini mleri ni n sist e mde, daha önceden pr ogra mlan mış ol arak bul una mayacağı anl a mı na geli yor du. Bu aşa mada kull anı cıl ar kendi sor gul a mal arı nı yaz maya ve veri t abanı ndan i hti yaç duydukları bil gi yi çı kar maya başl adılar.

 Veri Madencili ği: Son yıllarda kullanı cılar el de etti kleri bil gi ni n, uygula mal arı i çi n daha anl a mlı ol ması nı sağl a mak a macı yl a, veriler arası ndakil eri ilişkileri belirle meye ve bul maya yarayan daha f azl a araca, t ekni ğe i hti yaçl arı ol duğunu fark ettiler. Bununl a birli kt e şirketlerde çok geni ş haci mlerde veri biri ktirdi kl eri ni n farkı na var dıl ar ve sonuç ol arak bu verileri düzenl eyi p bil gi gereksi ni mleri ni karşılayacak araçl ara i hti yaç duydul ar. Bu t ür araçl ar son kull anı cı nı n doğrudan müdahal esi ol madan siste mi n, veriler i çi ndeki saklı ilişkil eri n araştırıl ması na olanak sağl ar. Veri madencili ği araçl arı il k ol arak bili m ada ml arına gel eneksel yoll arla yapıl ması çok za man ve kaynak al an, büyük veriler arası ndaki ilişkileri n veya ör ünt ül eri n bul un ması nda yar dım et mek i çi n geliştiril miştir.

2. 4. Veri Madencili ği ve Ġstati sti k

Veri madencili ği gel eneksel i st atisti k t ekni kleri ni yeri ni al ma mı ştır. Daha çok istatisti kçiler t opl ul uğunda meydana gel en değişi kli ği n bir sonucu ol an i st atisti ksel yönt e mleri n bir geni şl emesi dir [ 3]. Veri madencili ği ve i st atisti ği n bir çok ort ak yönü ol ması na rağ men, bir o kadar da farklı yönl eri bul un makt adır. İ kisi ni n de veril eri n yapı sı nı i ncel e mesi gi bi ört üşen konul arı n varlı ğı nedeni yl e, i nsanl ar veri ma dencili ği ni istatisti ği n bir alt kol u olarak gör mekt edirler; ancak bu pek de doğr u değil dir. Çünkü veri madencili ği ist atistikt en farklı ol arak di ğer bili msel al anl arla beraber çalışarak yeni fi kirler, araçl ar ve yönt eml er geliştir mekt edir.

(18)

İstatisti k ve veri madencili ği arası ndaki farkl arı n belli başlıları nı şu şekil de gözl er önüne serebiliri z:

 İstatisti k belli t ut ucu t arafları ol an bir bili mdir. Te meli nde mat e mati k yattığı ndan bir yönt e mi n uygul anabil mesi i çi n önceli kl e i spatlanması gerekir. Oysa veri ma dencili ği bil gisayarlardan yararlandı ğı ndan i spat ön koşulu yokt ur ve daha çok deneysel bir yakl aşı m ol arak nitelendirilebilir.

 İstatisti kte beti mleyi ci yönt e mler bul un ması na r ağ men, istatisti ği n genel ol arak çı karı mlarla il gilendi ği ni belirtirsek çok daha yanlış yap mış sayıl mayı z. Genel ol arak istatisti k bili mi, bir ör nekl e mden yol a çı karak büt ün hakkı nda fi kir sahi bi ol maya çalışır. Veri madencili ğinde de çı karı m var dır ancak aral arı ndaki fark kull andı kl arı verileri n büyükl üğündedir.

 Verileri n bu kadar geniş haci mde ol ması, istatisti kçileri n “elle” gerçekleştirdi kl eri işle mleri n yet ersi z kal acağı nı ve veri madencili ğinde kull anılan bil gisayarları n gerekli ol duğunu işaret et mekt edir.

 İstatisti ği n veri madencili ği ile bir bakı ma ört üştüğü bir di ğer konu da modellerdir. İstatisti kt e modell eri, teori k ve t eori k ol mayan ol mak üzere i ki far klı gr upt a t opl ayabiliriz. Teori k modeller, genelli kl e gözl eml enen veri üzeri ndeki deği şkenl eri n anali zi t eorisi ne dayanırken, t eori k ol mayan modeller ol ası açı kl ayı cı deği şkenl eri tekrar t ekrar kull anılarak t ahmi n edi ci gücü yüksek modell er ol uşt ur ul maya çalış makt adır. Veri madencili ği nde i ki nci t ür model tanı mı kabul gör mekt edir.

 İstatisti kte model her şeyi n özünü t eşkil eder ken, hesapl a ma, model seçim kriteri gi bi fakt örler i ki nci pl andadır. Ancak i st atisti kt e de doğr usal ol mayan çok boyutl u anali z (nonli near multi variat e anal ysis) denil en bir yönt e mde i st enirse model den i st enirse tekni kt en başl anabil mekt edir. Veri madencili ği nde mer kezde al gorit mal ar bul un makt adır. Al gorit mal arı n t e meli ol uşt ur ması nı n bir nedeni, veri madencili ği ni n bil gisayar ve benzer al anlara ol an ilişkisi dir.

(19)

 İstatisti k daha çok doğrulayı cı analizle il gilenme kt edir. Doğr ul ayı cı analizde, bir modeli n uyu mu di kkat e alı nır. Di ğer bir ifadeyl e önerilen modeli n gözl e ml enen verilere i yi bir açı kl ama getiri p getir medi ğiyl e il gilenmekt edir. Aksi ne veri ma dencili ği daha çok beti mleyi ci bir süreçtir. Bekl enil meyen ancak değerli bil gil eri n keşfi dir. Beti mleyi ci veri anali zl eri istatisti kçiler içi n yeni değil dir. Bel ki de bu yüzden istatisti kçiler veri madencili ği ni başl attı kl arını düşün mekt edir. Ancak veri ma dencili ği nde kull anılan verileri n büyükl üğü burada da t e mel farklılı k ol arak göze çarpmakt adır.

 İstatisti kte sunul an bir probl e me uygun ol arak verileri n t opl anması da öne m t aşırken, ör neği n deneysel yönte ml e mi yoksa anket yönt e mi yl e mi t opl andı ğı, veri ma dencili ği nde i se veri ni n t opl anmış ol duğu kabul edil mekt e ve esas ol arak veril er arası ndaki sırları n ort aya çı karıl ması üzeri nde yoğunl aşıl makt adır.

 İstatisti kte veriler uzun bir aradan sonra kullanılma kt adır. Oysa veri madencili ği nde gerçek za manlı verilerden yararlanıl makt adır.

 İstatisti kte sayısal verilerle il gilenilirken, veri madencili ği nde veri resi m, yazı nı n bir parçası gi bi di ğer bi çi mlerde de ol abil mekt edir.

 Verileri istatisti k kullanarak el e al an kişileri n uzma n ol ması gerek mekt edir. Oysa veri ma dencili ği nde böyl e bir gereksi ni m yokt ur [8, 18].

2. 5. Veri Madencili ği ve Veri Ambarı

Günü müzde yaygı n ol arak kullanıl maya başl anan veri a mbarl arı günl ük kullanılan veri tabanl arı nı n birleştiril miş ve işle meye daha uygun bir özeti ni sakl a mayı a maçl ar

Veri madencili ği sürecini n en öne mli adı mı, çok geni ş haci mdeki veril eri n, son kull anı cılar t arafı ndan düzelt meni n, yor uml a manı n ve sı nıflandır manı n kol aylı kl a gerçekl eştiril di ği kat egori f or mları na dönüşt ürül mesi dir. Veri ni n „ madencili k‟ i çi n t opl anması bil e kendi başı na zor bir süreçtir. Veri, çı karı m i çi n çok da uygun ol mayan arşi v for munda sakl anmakt adır.

(20)

ġekil 2. 2 Veri Ambarı ve Veri Madencili ği Süreci

Veri a mbarı araçl arı i ki çeşittir: veri dönüşt ür me, t e mizl e me veya i pt al et me il e son kull anı cı veri erişi m araçl arı. Bu araçl ar veri a mbarı nı n veri büt ünlüğüne, za man

Oper asyonel Veri

Çı kar ma, Filtrele me, Te mi zl e me & Topl a ma

De mogr afi kl er ve di ğer tari hi, kült ürel veriler

Veri tabanı Yükl eyi cisi

Veri Ambarı

İlişkisel Veri Tabanı Yöneti mi Par al el Sor gul a ma

Veri Madencili ği içi n Veri Çı karı mı

(21)

çi zgil eri arası nda kararlılı ğa, yüksek et ki nli ğe ve düşük i şl et me mali yetleri ne sahi p ol ması nı garanti eder. Veri a mbarı nı n en öne mli el e manı, veri ni n hı zlı erişi me ol anak tanı yan farklı özet seviyel eri nde sakl anı yor olması dır. Bu nokt adan sonr a veri, veri ma dencili ği içi n çı karılabilir.

Hı zlı yükl e me ve paral elli k i çi n önceden gerekli ol an siste m alt yapısı yüksek I/ O bant geni şli ği dir. Şekil 2. 2, veri a mbarl arı na yön veren veri kaynakl arı nı ve süreçl eri ni göst er mekt edir.

Paral el akış mali yet et kin, öl çül ebilir bir paral elli ği n veri a mbarl arı nda kriti k t eknol oji ol duğunu göst er mekt edir. Veri çı karı mı süreci madencili k i çi n kull anı şlı veri alt kü mel eri ni çı karır. Belirleyi cileri ör nekl e mek ve seç mek çı karılan veri nin boyutl arı nı sı nırlandırabilirken, t opla ma ( bir araya getir me) il gili verileri özetle mekt edir. Veri te mizl e mesi veri ni n geçerlili ği ni garanti eder ve verileri n gereği nden fazla t ut ul ması nı (dat a redundancy) mi nimi ze eder. Nor mall eştir me gereksi z yere t ut ulan veril eri n mi kt arı nı azalt mak a maçlı kull anılabil mekt edir ama bazen veri erişi mini n hı zl andır mak içi n di ğer t ari hi veya kült ürel özelli kl eri kull anmak gerek mektedir, ör neği n de mogr afi kl er – özelli kl e pazar araştır mal arı nda.

Veri a mbarcılı ğı ndaki en büyük pr obl e m veri ni n kalitesi dir. GI GO ( gar bage i n gar bage out) prensi bi nden kaçı nma k i çi n, veri ni n çok az değer kaybet mesi gerekme kt edir; çünkü bu veri madencili ği ni n sonuçl arı nı et kileyecektir. Burada anaht ar nokt a, veri ni n veri a mbarı na ekl endi ği andan iti baren sürekli ol arak izlenmesi ve veri büt ünlüğünü garanti altı na al mak i çi n veri madencili ği ni n ön hazırlı k saf hal arı nda veri ni n bi çi msel ol arak sı nan ması dır.

2. 6. Veri Madencili ği ve OLAP

Veri a mbarı nda veri ol uşt urul dukt an sonra bu verini n ell e veya gözl e analizi yapılabilir. Bunun i çi n OLAP ( Online Anal ytical Processi ng) pr ogra mları kull anılır. Bu pr ogra ml ar veri ye her boyut u veri de bir al ana karşı gel en çok boyutl u bir küp ol arak bak mayı ve i ncel e meyi sağl ar. Böyl ece boyut bazı nda gr upl ama, boyutl ar arası ndaki korel asyonl arı

(22)

i ncel e me ve s onuçl arı grafi k veya r apor ol arak sun ma ol anağı sağl ar. Kull anı cıl arı na, belirli bir böl gedeki geç miş yıllara ait veriler üzeri nde, gerçekl eşen ve pl anl anan satışları n karşılaştır ması gi bi kar maşı k sorgul a ma yap ma ol anağı tanır.

Veri işl e me uz manl arı nın sor dukl arı en yaygı n sorul ardan biri de veri ma dencili ği ve OLAP arası ndaki farktır. Bunl ar birbirleri ni ta maml ayan farklı araçl ardır.

Kar ar dest ek araçl arı yelpazesi nde yer al an OLAP, gel eneksel sor gul a ma ve r aporl a ma araçl arı ndan farklı ol arak veri t abanl arı nda ne ol duğunu değil de daha il eri gi derek, neden bazı şeyl eri n doğru ol duğunu cevapl a makt adır. Kull anı cı bir ilişki hakkı nda bir hi pot ez ol uşt urur ve veriye uygul adı ğı bir sor gu serisi yl e hi pot ezi ni doğrul ar. Ör neği n, bir anali zci, kredi ver me f akt örl eri ni belirl e mek i st eyebilir. Önceli kl e düş ük gelirli i nsanl arı n köt ü kredi riskl eri ol duğunu varsayabilir ve veri t abanı nı OLAP il e bu varsayı mı doğr ul a mak veya yanlış ol duğunu kanıtla mak i çi n anali z edebilir. Eğer bu hi pot ez veri t arafı ndan çür üt ül medi yse analizci, o za man risk belirleyi cisi ol arak yüksek borca bakabilir. Veri bu t ah mi ni dest ekl e medi yse, köt ü kredi ni n riskleri ni n en i yi tahmi ncileri ol an borç ve geliri aynı anda deneyebilir.

Di ğer bir deyi şl e, OLAP anali zcisi hi pot ezsel ör ünt ül er ve ilişkiler serisi yaratır ve veri tabanı na karşı sor gul arı, onl arı doğr ul a mak veya yanlış ol dukl arı nı kanıtla mak i çi n kull anır. OLAP anali zi aslı nda t ümdengeli mli bir süreçtir. Peki ya anali z edil en deği şkenl eri n sayısı düzinel er hatta yüzl erce i se ne ol acak? İ yi bir hi pot ez bul mak ve veri t abanı nı OLAP il e doğr ul a mak veya yanlış oldukl arı nı kanıtla mak i çi n anali z et mek daha zor ve za man alıcı olacaktır [3].

Bununl a beraber, OLAP kull anılarak ul aşılan sonuçl ar ve değerl er mevcut verileri n bir çı karı mı veya büt ünüdür. Oysa veri madencili ği, belirli al gorit mal arı ve ara ma mot orl arı nı kull anarak, veri i çerisi ndeki gör ülmesi zor ol an ör ünt ül eri ve trendl eri keşfeder ve bu ör ünt ül erden kurallar çı karır. Bu kurallar veya f onksi yonl arla, kull anı cı i ş ya da bili msel al anda al dı ğı kararl arı dest ekl e me, gözden geçir me ve sı na ma i mkanı bul ur.

(23)

Veri madencili ği nde a maç, kull anı cı nı n bil gi çı kar ma süreci nde kat kısı nın ol abil di ği nce az t ut ul ması, işi n ol abil diği nce ot omati k ol arak yapıl abil mesi dir. Bununl a beraber OLAP pr ogra ml arı nı n i nsanl ar t arafı ndan yönl endi ril mesi gerekir. Ar aştır ma, boyut hi yerarşisi nde bir sevi yeyi belirleyen kull anı cı t arafı ndan gerçekl eştirilen sor gul a mal arl a sür mekt edir. Çı karı m ya da modell e me t a mame n analiste bırakıl mıştır. Analistten veril eri n az boyutl u i zdüşü ml eri nden ya da özetl eri nden gör ünt ül e me yol uyl a il gi çekecek ör ünt ül er bul ması bekl enmekt edir. OLAP pr ogra mları nı kull anırken bul unabilecek sonuçl ar kull anı cı nı n sor mayı düşündüğü sor gul arla sı nırlıdır. Ama veri içi nde kull anı cı nı n hi ç aklı na gel meyecek bil giler de ol abilir. Zat en veri ma dencili ği nde esas a maç bu ti p bil gileri bul abil mektir[2].

2. 7. Veri Madencili ği ni n Kull anı m Al anl arı

Raki pl eri yl e et ki n bir şekil de rekabet edebil mek i çi n i şl et mel er, veri kaynakları nı çok i yi anl a mak zor undadır. Örünt ül eri anl a mak ve za manı nda karar ver mek i şl et mel ere rekabette il erle me sağl ar. Veri madencili ği işl et mel eri n, başt a operasyonel veril er ol mak üzere t üm verileri ni kendi çı karları i çi n kull anması nda çok öne mli bir araç hali ne gel miştir. Veri madencili ği bugün, üreti m mal i yetleri ni n nasıl en aza i ndirileceği sorusuna cevap al makt a, envant er yöneti minde ve perakendecili k, pazarla ma, bankacılı k, fi nans, üreti m, sağlı k, sigort acılı k, t el eko müni kasyon gi bi sekt örlerde yeni i ş fi kirleri üretil mesi nde kull anıl makt adır. Petrol endüstrisi nde, bili mde, or man yangı nl arı nı n önl enmesi nde, ki myasal yapıl arı n t anı mlanması nda, suçun ort aya çı karıl ması nda ve tı bbi tanılarda da veri madencili ği nden yararlanıl makt adır.

2. 7. 1. Pazarl a ma Uygul a mal arı

Veri madencili ği en çok müşt erileri n satı n al ma ör ünt ül eri ni n belirlenmesi nde kull anıl makt adır. Ayrı ca, müşt erileri n de mografi k özelli kl eri arasında ilişkil er bul un ması nda, post a ka mpanyal arı na cevap ver me oranı nı n arttırıl ması nda, mevcut müşt erileri n el de t ut ul ması ve yeni müşt eril eri n kazanıl ması nda, pazar sepeti anali zi nde ( mar ket basket anal ysis), müşt eri ilişkileri yöneti minde (cust omer r el ati onshi p

(24)

ma nage ment), müşt eri değerl e mede (cust omer val ue anal ysis) ve satış tah mi nl eri nde (sal es forcasti ng) yi ne veri madencili ği nden yararlanıl makt adır.

2. 7. 2. Bankacılı k Uygul a mal arı

Veri madencili ği bankacılı k sekt öründe, farklı fi nans göst ergel eri arası nda gi zli korel asyonl arı n bul un ması nda, kredi kartı dol andırıcılı kl arı nı n bul un ması nda, kredi kartı harca mal arı na göre müşt eri gr upl arı nı n bul un ması nda ve kredi t al epl eri ni n değerl endiril mesi nde kullanıl makt adır.

2. 7. 3. Si gort acılı k Uygul a mal arı

Yeni poli çe t al ep edecek müşt erileri n t ahmi n edil mesi, si gort a dol andırıcılı kl arı nı n tespiti ve riskli müşt eri ör ünt ül eri ni n belirlenmesi, veri madencili ği ni n si gort acılı k al anı ndaki uygul a mal arı na örnek ol arak göst erilebilir [1, 10].

2. 7. 4. Ġ nternet Uygul a mal arı

Veri madencili ği ni n bir di ğer uygul a ma al anı da web i çeri kl eri veya web bağl antı yapıl arı dır. Aynı za manda kull anı cıları n i nt erneti kull anı m verileri üzeri nde de veri ma dencili ği çalış mal arı gerçekl eştirilebil mekt edir. Böyl eli kl e, kull anıcıları n web l ogl arı ndan ol ası ör üntül er t anı mlan maya çalışılır. Çalış mal arı n genel a macı i se el ektroni k ti caret i çi n ol ası müşt erileri n belirlen mesi ve son kull anı cılara sunul an hi z metl eri n kalitesi ni n arttırıl ması dır [14].

2. 7. 5. Di ğer Uygul a mal ar

Veri madencili ği aynı za manda çeşitli hast alı kl ar i çi n en i yi t edavi yönt e mi ni n bul un ması nda, geneti k sıral arla il gili verileri n analizi nde kull anıl makt adır. Kalite kontrol ünde, hat alı malları n önceden t espiti nde, fi yat si mul asyonl arı nda ve hil el eri keşfet mede de veri madencili ği kullanıl makt adır.

(25)

2. 8. Veri Madencili ği Si steml eri ni n Sı nıfl andı rıl ması

Bugün birçok veri madencili ği siste mi mevcutt ur ve yeni siste mler de geliştiril mekt edir. Bazıl arı, verilen bir veri kaynağı na adan mış veya sı nırlı veri madencili ği f onksi yonl arı na sahi p özel ol arak geliştiril miş sist e mlerdir. Bazıları ysa çok yönl ü ve ayrı ntılı dır. Veri ma dencili ği siste mleri çok çeşitli kriterlere göre sınıflandırılabilir:

 Ma dencili ği n yapıl dı ğı veri kaynağı na göre sınıflandır ma: bu sı nıflandır ma veri ma dencili ği siste mleri ni mekansal (spatial), mul ti medya, za man serisi, meti n, www verisi gi bi, il gilenilen verileri n t ürüne göre sı nıflandır makt adır.

 Kull anılan veri modeli ne göre sı nıflandır ma: bu dur umda veri madenciliği siste mleri, dayandı kl arı veri modelleri ne göre sı nıflandırıl makt adır. Veri modell eri ilişkisel veri tabanı, nesneye dayalı veri tabanı, veri a mbarı, işle m vs. ol abilir.

 Keşfedilen bil gi ye göre sı nıflandır ma: bu sı nıflandır ma veri madencili ği si ste mleri ni keşfedilen bil gi ye veya kull anılan veri madencili ği işl evl eri ne göre kat egori ze eder. Ör neği n, nit el endir me, ayrı m, birli kt eli k, sı nıflandır ma, kü mel e me gi bi. Bazı siste ml er bu işlevl eri beraber sunacak kadar kapsa mlı dır.

 Kull anılan veri madenciliği t ekni kl eri ne göre sı nıflandır ma: veri madenciliği siste mleri birçok farklı t ekni ği kullanmakt adır. Bu sı nıflandır ma veri madencili ği siste mleri ni; kull anılan veri anali zi yakl aşı mları na göre, maki ne öğrenmesi, yapay si nir ağl arı, geneti k al gorit mal ar, ist atisti k, gör ünt ül e me, veri tabanı na dayalı veya veri a mbarı na dayalı gi bi, kat egori ze etme kt edir. Sı nıflandır ma ayrı ca veri madencili ği süreci ne dahil ol an kull anı cılarla et kileşi mi de di kkat e al maktadır. Ör neği n, sor gu yönl endir meli siste mler, et kileşi mli keşif siste mleri, özer k siste ml er. Kapsa mlı bir sist e m f ar klı dur uml ara ve seçenekl ere uyu m sağl ayacak, farklı derecel erde kull anıcı et kil eşi mi sağl ayan çeşitli veri madencili ği tekni kl eri sunmal ı dır.

(26)

2. 9. Veri Madencili ği ni n ĠĢlevl eri

Veri madencili ği ni n görevl eri, t ahmi n edi ci ( predi cti ve) ve t anı mlayı cı ( descri pti ve) ol mak üzere i ki ana başlık altı nda t opl anabilir.

Tah mi n edi ci modell erde, sonuçl arı bili nen veriler den hareket ederek bili nmeyen veya ileri de ol uşabil ecek sonuç değerl eri n t ahmi n edil mesi a maçl anmakt adır. Ör neği n bir banka önceki döne ml er de ver miş ol duğu kredil ere ilişki n t üm verilere sahi p ol abilir. Bu verilerde bağı msı z değişkenl er kredi al an müşteri ni n özelli kl eri, bağımsı z deği şken değeri ise kredi ni n geri dönüp dön medi ği dir. Bu verilere uygun ol arak kur ul an model, daha sonraki kredi t al epleri nde müşt eri özelli kl erine göre verilecek kredi nin geri ödeni p öden meyeceği ni n tahmi ni nde kullanılır.

Tanı mlayı cı modell erde ise kull anı cıları n yor uml arı nda kull anılacak veri ve sonradan veri ni n sunu munu t anı mlayan ör ünt ül eri n bul unması a maçl anmakt adır. Ör neği n, X/ Y aralı ğı nda geliri ve i ki veya daha fazl a arabası ol an çocukl u ail el erle, geliri X/ Y aralı ğı ndan düşük, arabası ve çocuğu ol mayan ail el eri n satı n al ma ör ünt ül eri ni n benzerli k göst er di ği ni n bul un ması t anı mlayı cı modell erl e gerçekl eştirilebilir.

2. 10. Veri Madencili ği Al gori t mal arı

Çok f arklı pr obl e mleri çöz meye veya hedefl ere ulaş maya yaran birçok veri madencili ği al gorit ması bul un makt adır; ancak en çok kullanılanl arı birli kt eli kl er (associ ati ons), sı nıflandır ma (cl assificati on), ar dışı k za manlı ör ünt ül er (sequenti al patt erns) dir. Bi rli kt eli kl eri n t e mel dayanak nokt ası, bir maddel er kü mesi ni n bul unması nı n di ğer ma ddel eri de i çer mesi ör neği nde ol duğu gi bi büt ün birli kt eli kl eri bul maktır. Sı nıflandır ma ya da profil üret me, farklı gr uplar i çi n pr ofil üretir. Ar dı şı k za manlı ör ünt ül er, kull anı cı t arafından belirlenen mi ni mum mali yette ar dışı k ör ünt ül eri belirler. Kü mel e me, bir veri tabanı nı alt grupl ara ve kümel ere böl mekt edir.

(27)

2. 10. 1. Bi rli kteli kl er ( Associ ations)

Al ı şveriş sırası nda bir müşt eri ni n hangi mal ve hi z metl eri satı n alma ya eğili mli ol duğunun bili nmesi, müşt eri ye daha fazl a ür ün satılabil mesi ni n yoll arı ndan biri dir. Bi rli kt eli k al gorit ması nın süper mar ketler, envant er pl anl a ma, raf pl anla ma, doğr udan pazarl a mada kull anılan post a iliştir me (attached mailli ng), pr omosyon satışları nı pl anl a ma ör nekl eri nde ol duğu gi bi başt a pazarl ama ol mak üzere fi nans, tı p gi bi çok çeşitli uygul a ma al anl arı var dır. Ör neği n birli kt eli k kuralları, ür ünl erde bul unan bar kod okuyucul arı sayesi nde, i şl e mleri n t ut ul duğu bir veri t abanı ndan veri madencili ği aracılı ğı yl a „alışveriş sepeti‟ni veya bir müşt erini n dükkanı t ek bir zi yareti nde satı n al dı ğı ürünl eri n listesi ni çı karabilir.

Bi rli kt eli k kuralı eş za manlı ol arak gerçekl eşen ilişkileri n tanı mlan ması nda kullanılır: “ Kol a al an müşt erileri n %75‟i aynı za manda ci ps de satı n al makt adır. ”

“ Düşük yağlı peynir alan müşt erileri n %80‟i aynı za manda yağsı z yoğurt satı n al makt adır. ”

%75, kuralı n t ahmi n etme gücü öl çüsü ol an güven fakt örüdür. Sol el de kol a, sağ el de ci ps bul un makt adır. Al gorit ma bu kurallardan ol dukça fazl a üretir. Kur all arı n daha yüksek güven sevi yesi ne sahi p ol an bir alt gr ubunu, listel eri n yüzdel eri ni veya bu kuralı taki p eden „alışveriş sepeti‟ni seç mek kull anı cı ya bağlı dır.

Aynı za manda çokl u birlikt eli kl er de yer al abilir:

“ Kol a ve ci ps al an müşt erileri n %65‟i aynı za manda sos da al makt adır. ”

“ Düşük yağlı peynir ve yağsı z yoğurt al an müşteriler, %85 i hti mall e di yet süt de satı n alırlar. ”

Şansa bağlı bir korel asyon mu ( kol a ve ci ps satıştaydı) yoksa bili nmeyen ama öne mli bir korel asyon mu ( aynı za manda sos da alı ndı) ol duğunu bil mek kullanı cı i çi n çok öne mli dir.

(28)

Benzerli k al gorit ması çok satılan ür ünl eri n, raflara ya da kat al ogl ara yerl eştiril mesi nde, çok satılacak ür ünl eri n birli kt e gözükecek şekil de uygun ol arak düzenl en mesi nde kull anıl makt adır. İlişkili ür ünl eri n envant eri birbiri ni yakı ndan t aki p et meli dir. Çapraz satış fırsatları nı n belirlen mesi, hi z metl erde ve ür ünl erde satış arttırıcı paketleri n, gr upl andır mal arı n ve pr omos yonl arı n yapıl ması nda da kull anıl makt adır. Örneği n, süper mar keti n sos satışları nasıl patl atılabilir, Pepsi pr omosyonu ol sa ne ol ur, sor ul arı nı n cevapl arı birli kt eli k al gorit ması sayesi nde bul unabilir [1].

2. 10. 2. Sı nıfl andı r ma ( Cl assifi cati on)

En çok kull anılan veri ma dencili ği al gorit mal arından biri sı nıflandır madı r; çünkü i nsan düşünce yapı sı na çok yakı ndır. İ nsanoğl u dünya üzeri ndeki maddel eri daha i yi anl a mak, başkal arı na anl at mak i çin he men he men her şeyi sürekli sı nıflandır makt a, kat egoril ere ayır makt a ve derecel endir mekt edir. Maddel eri ele mentl ere, köpekl eri t ürlere, ül kel eri şehirlere, şehirleri se mtl ere vb. kat egori ze et mekt edir.

Veri madencili ği nde geçerli ol an sı nıflandır ma al gorit ması nda a maç, yeni karşılaşılan bir gir di ni n özelli kl eri ni n i ncel eni p, bu gi r di ni n daha önceden t anı ml an mı ş ol an sı nıflardan hangisi ne at anacağı na karar ver mektir. Al gorit ma şu şekil de i şle mekt edir: Öz nit eli kl eri yl e (attri but e) verilen kayıt kü mesi, yani kayıtları n sı nıfları nı belirten eti ketl er ve belirli bir kayıt a hangi eti keti n at andı ğı verildi ği nde, sı nıflandır ma fonksi yonu bu eti ketleri araştırır ve her sı nıf i çi n kayıtları n niteli k t anı mları nı üretir. Ör neği n kredi anali zi nde kredi kartı dağıt an bir fir ma, t anı mlayıcılar i çeren çok sayı da müşt eri kaydı t ut makt adır. Kr edi geç mişi bili nen bir müşt eri i çin müşt eri kayıt eti keti „çok i yi‟, „i yi‟, „ort a‟ veya „zayıf‟ ol abilir. Sı nıfla ma kuralı da şu şekil de ol abilir:

“ Çok i yi kredi geç mişi ne sahi p ol an müşt erilerin, %10‟ dan daha az borç/ varlı k oranı var dır. ”

(29)

2. 10. 3. Ar dı Ģı k Örünt ül er ( Sequenti al Patterns)

Bu t ekni k, za man i çerisinde ar dışı k ol arak meydana gel en satı n al mal ara veya ol ayl ara bakar. Ör neği n, bir perakendeci t el evi zyon satı n al an müşt erileri ni n %60‟ı nı n il eri de 8 mm ka mera al acağı nı keşfedebilir. Benzer bir kural şu şekil de ol abilir:

“ X a meli yatı yapıl dı ğı nda, 15 gün i çi nde %45 Y enfeksi yonu ol uşacaktır. ”

“İ MKB endeksi düşerken A hi ssesi ni n değeri %15‟ den daha fazl a art acak ol ursa, üç i ş günü içerisi nde B hisse senedi ni n değeri %60 i htimall e artacaktır. ”

“ Çeki ç satı n al an bir müşt eri, il k üç ay i çerisi nde %15, bu döne mi i zl eyen üç ay içerisi nde %10 çi vi satı n al acaktır[1]. ”

Bu al gorit ma en çok dükkanl arı n düzeni nde ve satış pr omosyon çabaları i çi n hedef müşt erileri n belirlenmesi nde yararlı ol makt adır. Aynı za manda, kat al og fir mal arı ve fi nansal araçl arı n fi yatları nı et kileyen ar dışı k ol ayl arı analiz edebil en finansal yatırı m fir mal arı içi n faydalı dır.

2. 10. 4. Kü mel e me ( Cl usteri ng)

Kü mel e me, veri t abanı nı birkaç alt gr uba veya kü meye böl ecektir. Bu i statisti ksel veya yapay ya da se mboli k deneti msi z çı karı m met otları yl a gerçekl eştirilebilir. Veril er içerisi nde kü me ol uşt urul urken di kkat edil en unsur, seçilen her nokt anı n kü me i çi nde çok yakı n ( benzer) ol ması dır. Bu benzerli k kull anı cı veya uz man t arafı ndan belirlenen uzaklı k fonksi yonu ile tanı mlanabilir.

Kü mel e me il e sı nıflandır mayı birbiri nden ayıran en öne mli fark, kü mel e mede sı nıflandır mada ol duğu gi bi önceden belirl enmiş bir t akı m sı nıflara göre böl ü ml e me yapıl ma ması dır. Kü mel e mede, önceden t anı mlan mış sı nıflar ya da ör nek sı nıfl ar bul un ma makt adır. Kayıtları n kü mel enmesi işl e mi, kayıtları n birbirleri ne ol an benzerli kl eri ne göre yapıl makt adır. Ol uşan sı nıfları n hangi anl a mları t aşı dı ğı nı n belirlenmesi t a ma men analizi yapana kal mıştır. Örneği n hast al arı n kayıtları ndan ol uşan

(30)

verileri n kü mel en mesi sonucunda se mpt oml ar dan ol uşan kü mel er, değişi k hast alı kl ara işaret edebilir.

Kü mel e me i şl e mi çoğunlukl a bir başka veri madencili ği işl e mi i çi n bir il k i şl e m ol arak kull anılır. Ör neği n, kü mel e me i şl e mi bir pazar payı araştır ması i çi n bir ilk i şl e m ol arak uygul anabilir. “ Ne ti p pr omosyonl ar müşt eriler t arafı ndan rağbet gör ür?” sor usunun cevabı nı bul mayı kol aylaştır mak i çi n her kese t ek bir model uygul a makt an vazgeçi p, müşt eriler alışveriş alışkanlı kl arı na göre kü mel endirilirse, her kü me i çi n “Bu kü medeki müşt eriler hangi ti p pr omos yonl ara rağbet eder?” sor usunun cevabı çok daha kol ay verilir [14].

Çok boyut ol duğu zama n bazı kü mel e me al gorit mal arı kull anışsı z ol ur. Bunu engell e mek i çi n kü mel eme al gorit mal arı nda önceli kl e mantı klı boyutl ar seçil meli dir. Amaç, verileri n birbirleriyl e ilişkileri ni n değişebilir ol duğu özel boyutl arı bul maktır. Bu süreç veri gür ült üsünü azaltır ancak aynı za manda öne mli bil gileri n kaybedil mesi ne neden ol abilir.

2. 10. 5. Ni t el e me ( Characteri zati on)

Veri nit el e me hedef sı nıftaki nesnel eri n genel özelli kl eri ni n özetl enmesidir ve özelli k kuralları nı üretir. Kull anıcı t arafı ndan belirlenmi ş sı nıfla il gili ol an veri, nor mal de bir veri t abanı sor gusu ve çeşitli soyutl a ma düzeyl eri ndeki veri ni n özünü seçi p çı kart mak içi n bir özetle me biri mini gözden geçir meyl e elde edilir. Ör neği n DVD kiral ayan bir dükkan müşt erileri arasından yıl da 30 fil m kiralayanl arı belirle mek i st eyebilir. Hedef sı nıfı nı t anı mlayan öz nit eli kl erdeki kavra m hi yerarşileri yl e, mesel a veri özetl e meyi gerçekl eştir mek i çi n öz niteli ğe dayalı çı karı m yönt e mi kull anılabilir.

2. 10. 6. Veri Görünt ül e me

Veri gör ünt ül e mede kullanı cılara resi mler sunul arak analistleri n verileri daha deri n bir şekil de anl a mal arı sağlan makt adır; çünkü di kkatleri ni di ğer yönt e mler t arafı ndan bul un muş bir t akı m örünt ül ere odakl a makt adır. Ör neği n dört deği şkeni n bul unduğu grafi k şekil özl ü bir şekilde çok geni ş bil gi sun makt adır. Çeşitli renkl eri n, boyutl arı n ve

(31)

deri nli kl eri n kull anıl ması il e yeni birli kt eli kl eri n bul un ması ve aral arı ndaki f ar klılı kl arı n geliştiril mesi mü mkündür.

Verileri n gör ünt ül enmesi ör ünt ül eri n, ilişkileri n, kayı p ve i stisna değerleri n t eşhi si nde çok faydalı bir t ekni ktir. Ancak en büyük kı sıt görünt ül e meni n bir çok farklı boyut u i ki - üç boyutl u ekrana akt arıl ması dır. Ayrı ca veri gör ünt ül e me i çi n geliştirilen araçl arı n kull anı mı genelli kl e i yi bir eğiti m gerektir mekt edir ve renk körl üğü ol an ya da uzaysal anali zl er de zorl uk yaşayan ki şil er i çi n uygun değildir[14].

2. 10. 7. Ayrı m ( Di scri mi nati on)

Veri ayrı mı, fark kuralları üretir ve t e mel ol arak hedef sı nıf ve çelişen sı nıf ol arak bahsedil en i ki sı nıf arası ndaki nesnel eri n genel özelli kl eri ni n karşılaştırıl ması dır. Ör neği n, bir dükkandan geçen yıl 30 fil m kiral ayan müşt erileri n özelli kl eri yl e, 5 yıl dan kı sa süredir fil m kiral ayanl arı n özelli kl eri karşılaştır mak i st enebilir. Veri ayrı mı nda kull anılan t ekni kl er veri nit el e mede kull anılan tekni kl ere çok benzer dir, ancak veri ayrı mı sonuçl arı karşılaştır malı öl çüml er içerir.

2. 10. 8. Tah mi n Et me ( Predi ction)

Tah mi n et me, özellikl e i şl et mel erde kullanılan kestiri m araçları nı n yaygı n kull anıl ması nda öne m kazan makt adır. Başlıca i ki çeşit t ahmi n et me t ür ü var dır: ya var ol mayan veri değerl eri veya kararlaştırıl mayan trendl er t ahmi n edil meye çalışılır ya da bazı verileri n sı nıf eti ketleri t ahmi n edilir. İkinci kısı m sı nıflandır mayl a ilişkili dir. Eğiti m kü mesi ne bağlı olarak bir sı nıflandır ma modeli kur ul duğunda, bir nesneni n sı nıf eti keti, nesneni n öz nit eli k değerl eri ne ve sı nıfları n öz nit eli k değerl eri ne bağlı ol arak öngör ül ebilir. Tah mi n et me, daha çok eksi k sayı sal değerl eri n veya zama nl a ilişkili verilerde art an/ azal an trendl eri n kestiril mesi nde kull anıl makt adır. Ana fi kir, çok büyük sayı da geç miş döne m verileri kullanarak gel ecekt eki ol ası değerl eri hesaba kat maktır.

2. 10. 9. Aykı rı Değer Anali zi (Outli er Anal ysi s)

Aykırı değerl er, verilen bir gr up veya kü me i çi nde gr upl ana mayan el e manl ardır. İstisnal ar ( dışa düşenl er) veya sür pri zl er ol arak da bili nirler; t anı mlanmal arı sı klı kl a

(32)

öne m t aşır. Aykırı değerler bazı uygul a mal arda gür ült ü ve atıl mış ( discarded) ol arak di kkat e alı nırken, di ğer et ki al anl arı ndan öne mli bil gileri açı ğa çı karabilirler. Bu yüzden kendil eri çok öne mli, analizleri de çok değerli ol abilir.

2. 10. 10. Evri m ve Sap ma Analizi ( Evol uti on and Devi ati on Anal ysi s)

Evri m ve sap ma analizi; za manl a deği şen, za manl a il gili verileri n i ncel en mesi ne ma hs ust ur. Evri m anali zi, veri deki evri msel trendleri modell er. Bu t rendl er nit el e meye, karşılaştır maya, sı nıflandır maya ya da za manl a il gili verileri n kü mel en mesine i zi n verir. Di ğer yandan sap ma analizi ise, öl çül müş değerler ile bekl enen değerler arası ndaki sapmayı di kkat e alır ve sap mal arı n nedeni ni bekl enen değerl erden bul maya çalışır [18].

2. 11. Veri Madencili ği Tekni kl eri

Veri madencili ği nde çok çeşitli t ekni kl er kull anılma kt adır. İst atisti ksel t ekni kl er, yapay si nir ağl arı, karar ağaçl arı, geneti k al gorit mal ar bunl ardan birkaçı dır.

2. 11. 1. Ġst atisti ksel Tekni kl er

Veri madencili ği ist atisti kt en farklı bir ol gu ol sa da i st atisti ksel t ekni kl erden yararlanmakt adır. Bu t ekni kl er i st atisti k literat üründe çok boyutl u anali z ( multi vari at e anal ysis) başlı ğı altı nda t opl anır ve genel de veri nin para metri k bir model den (çoğunl ukl a çok boyutl u bir Gauss dağılı mından) gel di ği ni varsayar. Bu varsayı m altı nda sı nıflandır ma, regresyon, kü mel e me, boyut azaltma ( di mensi onalit y reducti on), hi pot ez testi, var yans analizi, bağı ntı (associ ati ons; dependency) kur ma i çi n t eknikl er i st atisti kt e uzun yıllardır kullanıl makt adır [4].

Gel eneksel t ekni kl er ol arak nit el endirebil eceği mi z bu t ekni kl eri n bazıl arı nı şunl ar dır:

2. 11. 1. 1 Doğrus al ve Loji sti k Regresyon

Tah mi n edil en al an nümeri k bir deği şken ol duğunda t ahmi n modeli regresyon ol arak isi mlendiril mekt edir. İstatisti kt e çok çeşitli regresyon t ürl eri bul un makt adır. Ancak

(33)

tahmi n sırası nda en az hat aya neden ol acak bir model t asarla maktır. Regresyonun en basit şekli doğr usal regresyondur. Doğr usal regresyon bir t ahmi n edi ci ve bir t ah mi n içerir. Bu i kisi arası ndaki ilişki i ki boyutl u bir uzayda haritalandırılabilir ve kayıtl ar tahmi nl er i çi n Y ekseninde, t ahmi n edi ciler i çi n de X ekseni nde çi zilir. Bundan sonra basit bir doğr usal regresyon modeli, gerçek t ahmi n değeri ile kendi üzeri nde bul unan nokt al ar arası nda hat a değeri ni en aza i ndirgeyen doğr u ol arak ifade edilebilir [19]. Lojisti k regresyon i se doğr usal regresyonun genell eştiril miş hali dir. Genelli kl e i kili deği şkenl eri n ve daha seyrek ol arak çok sı nıflı değişkenl eri n t ahmi n edil mesi nde kull anılır. Lojisti k regresyon modell eri, ayrık deği şkenl erden ol uşan ol ayl arı n ol asılı kl arı nı n l ogarit maları nı t ahmi n eder. Lojisti k regresyonun t e mel kabull en mesi ayrı k deği şkenl eri n katsayıları nı n l ogarit mal arı nın doğr usal ol asılı kl arı olacağı dır. Bu tekni ği kull anan analistler, doğr u deği şkenl eri, sonuç değerl eri ile f onksi yonel ilişkileri ni ve ol ası et kileşi mleri seçebil mek içi n yet erli deneyi me ve beceri ye sahi p olmalı dır [14].

2. 11. 1. 2 Za man Seri si Tah mi ni

Za man serisi t ahmi nl eri, “za manl a deği şen t ah mi n edi ci serileri n bili nmeyen gel ecek değerl eri ni öngör mekt e” kull anılır. Za man serisi veri t abanl arı, sıralı değer seril eri ni ve za man i çi nde deği şen olayl arı i çer mekt edir. Bu değerl eri n trendl eri Y=f(t) şekli nde fonksi yonl arı n kur ul masında kull anılabilir. Böyl eli kl e nit eli kl er za man veya di ğer süreç değerl eri baz alı narak t ah mi n edil ebilir. Çalış mama za manı kur ul umun bir f onksi yonu ol arak t ahmi n edil ebilir. Bu bil gi ile önl eyici bakı m pr ogra mları uyarl anabilir, çi zel gel enebilir ve gerçek za mana ayarl anabilir. Bu t ekni kt e döne ml eri n, me vsi mselli kl eri n, t akvim et kileri ni n ve t ari h arit meti kl eri ni n hi yerarşisi gi bi öne mli fakt örler sonuçl arı et kileyebilir. Bu nedenl e zama n serisi t ahmi nl eri nde bu fakt örl er hesapl anmalı dır [14].

2. 11. 2. Bell ek Tabanlı Yönt e ml er

Bell ek t abanlı veya ör nek t abanlı bu yönt e mler (me mor y- based, i nst ance-based met hods; case- based r easoni ng) i statisti kt e 1950‟li yıll ar da öneril miş ol ması na r ağ men o yıll ar da gerektirdi ği hesapl a ma ve bell ek yüzünden kull anıla ma mı ş; ancak günü müzde

(34)

bil gi sayarl arı n ucuzl a ması ve kapasit el eri ni n art ması yl a, özelli kl e de çok i şl e mcili siste mleri n yaygı nl aş ması yl a, kull anılabilir ol muşt ur. Bu yönt e me en i yi örnek en yakı n

k ko mş u al gorit ması dır (k- nearest nei ghbor, k- NN) [ 2].

k- NN veril er raka msal ol duğunda ilişkil eri ve di zileri t espit et mek i çi m kullanıl an kl asi k bir t ekni ktir. Bu t eknik, bir obj eyi nit eli kl erini i ncel eyerek bir sı nıf veya gr uba yerl eştirdi kt en sonra ona en yakı n nit eli kl ere sahi p ol an obj el eri de yi ne aynı gr uba dahil et mekt edir. Raka ms al ol ma yan nit eli kl er de veya deği şkenl er de bu t ekni ği uygul a mak zor dur. Çünkü r aka msal ol mayan değerl eri n arasındaki mesafeyi öl ç mek i çi n kull anıl an bir metri ği t anı mla mak zor dur. Ör neği n mavi ve yeşili n uzaklı ğı nedir? Obj el er arası ndaki mesafe öl çül dükt en sonra ko mş ul uğun ne kadar geni ş ol acağı na, ko mş ul arı n ne şekil de ağırlı kl andırılacağı na ve sonuçt a yeni obj eni n hani sı nıfa dahil edil eceği ne karar verilir.

k- NN bil gi sayar da çok geni ş hesapl a ma gerektirir; çünkü hesapl a ma zama nı, mevcut nokt al arı n fakt ori yeli ol arak art makt adır. k- NN‟ de her yeni vaka i çi n yeni bir hesapl a ma gerekir. k- NN‟i hı zl andı r mak i çi n büt ün veri bel lekt e t ut ul ur. k- NN modell eri, çok az tahmi n edi ci deği şken ol duğunda ol dukça anl aşılırdır. Uygun metri k bul unduğunda, meti n gi bi st andart ol mayan veri ti pl eri ni i çeren modell er kur mak mü mkündür [3].

(35)

Şekil 2. 3‟de i nsanl ar kredi riskl eri ne göre gr upl andırıl makt adır. Default ol arak nit el endirilenl er, kredi riski yüksek ol anl arı göst er mekt edir. Gör ül düğü gi bi C ör neği ni n en yakı nı bir default değer dir ve C‟ ni n çevresi neredeyse kredi kayıtları i yi ol an ki şilerle dol udur. Bu dur umda C‟ ni n en yakı n ko mş usu büyük bir ol asılı kl a bir istisna ol acaktır. Bunun sonucunda da veri hat alı ol acaktır.

Bu gi bi dur u ml ar da t ek bir en yakı n ko mş ul uğun di kkat e alı n ması ndansa 9 veya 15 en yakı n ko mş ul uğun önerilmesi siste m i çi n daha doğr u bir t ahmi n ol anağı sağl ayacaktır. Genelli kl e bu, tahmi nl erin çoğunun k en yakı n komş ul ukt an alı nması ile başarılır [19].

2. 11. 3. Yapay Si ni r Ağl arı

1980‟l erden sonra yaygınl aşan yapay si nir ağl arında (artificial neural networ ks) a maç fonksi yon birbiri ne bağlı basit işl e mci ünit el eri nden ol uşan bir ağ üzeri ne dağıtıl mıştır. Yapay si nir ağl arı nda kull anılan öğrenme al gorit mal arı veri den ünit eler arası ndaki bağl antı ağırlı kl arı nı hesapl ar. Yapay si nir ağları ist atisti ksel yönt e mler gi bi veri hakkı nda para metri k bir model varsaymaz yani uygul a ma al anı daha geniştir ve bell ek tabanlı yönt e mler kadar yüksek işle m ve bellek gerektir mez [2].

Doğr usal ol mayan t ah mi n edil ebilir modell er arası nda yer al an yapay sinir ağl arı nda, belirli bir pr ofille uyuşma nı n sağl anması i çi n kalı p düzenl er kontrol edil mekt edir. Bu süreçt e belirli bir öğrenme faali yeti gerçekl eştirilerek siste m geliş mekt edir.

(36)

Yapay si nir ağl arı nda başlıca üç çeşit kat man bul un makt adır: girdi, gi zli ve çı ktı kat manl arı. Bu kat manlar, bir çok düğü mden ol uş makt adır. Girdi düğü ml eri nde, ör neği n bir kredi riski süreci nde, gelir, borç, yaş gi bi fakt örler ol acak; çıktı düğü ml eri ise i yi veya köt ü kredi riski sonuçl arı ol acaktır. Her düğü m arası ndaki bağl antı ağırlandırıl makt a ve girdi değerl eri bu ağırlı kl a çar pılı p t opl anmakt a ve bir sonraki kat mana iletil mekt edir. Bu yol da ilerleyerek çı ktı kat manı ndaki değerl er hesapl anır [19]. Yapay sı nır ağl arı, eğitim verileri il e ağı eğitir ve sonra t ah mi nl erde kull anır. Yapay si nir ağl arı, genelli kl e geni ş veri t abanl arı nda eğitile mez a ma uygun ör nekl e me yönt e ml eri yl e ağ, küçük ve ort a boy veri t abanl arı nda anl aml ı doğr ul uk göst erebilme kt edir. Si nir ağl arı ndaki t e mel pr oble m sonuçl arla il gili herhangi bir açı kl a manı n sunul mayı şı dır (kara kut u i şl e mleri). Bu dur u m sonuçl ara duyul an güveni, sonuçl arı n kabul edil mesi ni ve uygul anması nı engelle mekt edir. Bununl a beraber yapay ağı, anl aşılabilir kurall ar kü mesi ne dönüşt üren bazı yapay ağ ür ünl eri bulun makt adır. Bu uygul a ma daha çok el yazıl arı nda ör ünt ü fark et mede ( patt ern recogniti on) ve el ektrokar di yogra ml arı n yor uml an ması nda kull anıl makt adır [14].

Yapay si nir ağl arı nı n bir avant ajı, birçok paral el bil gisayarda aynı anda çalışacak şekil de kull anıl ması dır. Bu duru mda her düğü m kendi hesapl a ması nı eş zama nlı ol arak gerçekl eştir mekt edir. Yapay si nir ağl arı çok geniş çeşitlili kt eki sor unl arı n çözül mesi nde kull anılabilir ve kar maşık dur uml ar da i yi sonuçl ar üretir.

Bununl a beraber, yapay si nir ağl arı kol aylı kl a yor uml an maz. Si nir ağl arı nı n kararl ara veya t ah mi nl ere yöneli k açı k bir mantı k sun mazl ar. İ ki nci ol arak, yapay si nir ağl arı pr obl e m küçük değilse, ol ukça uzun eğiti m süreleri gerektir mekt edir. Ancak bir kere eğitil di mi, t ahmi nl eri ol dukça hı zlı gerçekleştir mekt edir. Üçüncü ol arak, di ğer yönt e mler gi bi ol dukça fazl a veri hazırlı ğı gerektir mekt edir. Ör neği n, büt ün deği şkenl eri n sayısal olması gerekir. Bu nedenle kat egori k verileri n sayı sal değerl ere dönüşt ürül mesi gerek mekt edir. Son ol arak, yapay si nir ağl arı, veri set çok büyük ol duğunda ve gür ült ü sinyali oranı (si gnal t o noi se rati o) yüksek ol duğunda çok i yi sonuçl ar ver mekt edir. Çok esnek ol dukl arı ndan düşük gür ült ü si nyali oranı nda birçok

(37)

2. 11. 4. Karar Ağaçl arı

En çok kull anılan veri madencili ği t ekni kl eri nden biri dir. Ağacı n her dalı bir sı nıflandır ma sor usudur ve yaprakl arı ise sı nıflandır mal arı ile birli kt e veri seti ni n bir parçası dır.

ġekil 2. 5 Karar ağacı Örneği

Kar ar ağacı, ağaca benzer bi çi me sahi p bir yapıdır. Görsel ol arak bir t akı m kurallar, şartlar t anı mlayarak kararı n veril mesi ne i mkan sağl a makt adır. Karar ağaçl arı ile bir veri ni n sı nıflandırıl ması i çi n ot omati k kurallar üretilebilir. Bu met odol oji verileri sı nıflandır mak içi n if-t hen ifadel eri nden ol uşan hiyerarşi yi kullanmakt adır.

Kar ar ağaçl arı, ol ayl arı, kök düğü mden yaprak düğü ml ere doğr u sıral ayarak sı nıflandıran bir model dir. Ağaçt aki her düğü m ol aya ilişki n bir özelli ğin bir değeri ni göst er mekt edir. Ayrı ca bu düğü mden sonra gelen her dal bu özelli ği n mü mkün ol an değerl erleri nden biri ne uy makt adır. Her ol ay, karar ağacı nı n kök düğü münden başl anı p bu düğü mden ifade edilen özelli k t est edilerek sı nıflandırılır. Daha sonra özelli ği n değerl eri ne uygun ol arak ağacı n dalları ndan aşağı doğr u gi dilir. Bu i şl e ml er bul unduğu muz dal daki düğü mde t ekrar edilir ve bir yaprak düğü me ul aşana kadar deva m edilir. Mü mkün olan t üm ağaçl arı yap maktansa her biri ni n büyükl üğü öl çül ür ve bunl ardan en küçük ol an seçilir.

Referanslar

Benzer Belgeler

Verilerdeki gürültüyü temizlemek için; eksik değer içeren kayıtlar atılabilir, kayıp değerlerin yerine sabit bir değer atanabilir, diğer verilerin ortalaması

Bu da mevcut teknolojilerin büyük ölçekli ve karmaşık veri kümelerinde kullanımı için geliştirilmesi ve büyük verinin özelliklerine uygun yenilikçi

Veri madenciliği, kavramsal olarak 1960lı yıllarda, bilgisayarların veri analiz problemlerini çözmek için kullanılmaya başlamasıyla ortaya çıkmıştır.. O dönemlerde,

 Büyük veri kümesini daha küçük bir alt küme ile temsil etme.  Alt küme

 Modelin doğruluğu, doğru sınıflandırılmış sınama kümesi örneklerinin toplam sınama kümesi örneklerine oranı olarak belirlenir.  Sınama kümesi

Balıkesir Üniversitesi MMF Endüstri Mühendisliği Bölümü Veri Madenciliği Dersi... Karar Ağaçlarında

Gözlem değerlerini (0,1) aralığına çekmek için min-max normalleştirmesi kullanılacaktır..  Min-max normalleştirmesi sonucu dönüştürülen değerler aşağıdadır..

 Veri içinde aykırılıklar varsa..  Aşağıdaki gözlem değerleri k-ortalamalar yöntemi ile kümelenmek isteniyor.  Kümelerin sayısı başlangıçta k=2 kabul