Veri madenciliği ve bir uygulaması

(1)

T.C.

DOKUZ EYLÜL ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ EKONOMETRİ ANABİLİM DALI

EKONOMETRİ PROGRAMI YÜKSEK LİSANS TEZİ

VERİ MADENCİLİĞİ VE BİR UYGULAMASI

Burhan GEMİCİ

Danışman

Prof. Dr. Kaan YARALIOĞLU

(2)

(3)

YEMİN METNİ

Yüksek Lisans Tezi olarak sunduğum Veri Madenciliği Ve Bir Uygulaması” adlı çalışmanın, tarafımdan, bilimsel ahlak ve geleneklere aykırı düşecek bir yardıma başvurmaksızın yazıldığını ve yararlandığım eserlerin kaynakçada gösterilenlerden oluştuğunu, bunlara atıf yapılarak yararlanılmış olduğunu belirtir ve bunu onurumla doğrularım.

Tarih .../..../... Burhan GEMİCİ İmza

(4)

ÖZET Yüksek Lisans Tezi

Veri Madenciliği Ve Bir Uygulaması Burhan Gemici

Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Ekonometri Ana Bilim Dalı

Ekonometri Programı

Gelişen ve değişen teknolojiler sayesinde şirketler arasındaki rekabet hızlı bir artış göstermiştir. Bu rekabet ile birlikte şirketlerin bilgiye ulaşmaları büyük önem taşımaktadır. Bilgisayar teknolojilerinin gelişmesi ile veri tabanlarında çok büyük boyutlarda veri saklamak mümkün hale gelmiştir. Şirketler bu veriler ile kullanışlı bilgiye ulaşmayı hedeflemektedir. Bunun gereksinimi olarak veritabanlarında bilgi keşfi ve veri madenciliği kavramları ortaya atılmıştır. Bu kavramlarla amaçlanan, veritabanlarında saklanan veriler arasındaki gizli kalmış örüntüleri ortaya çıkarmaktır.

Bu tez kapsamında, veritabanlarında bilgi keşfi ve veri madenciliği tanımları üzerinde durulmuş, bu tanımlar doğrultusunda veri madenciliği süreci adımları incelenmiş ve veri madenciliği teknikleri ve algoritmaları anlatılmıştır. Veri madenciliği bileşenlerinden makine öğrenimi kavramına yer verilmiş ve makine öğrenimi için gerekli bilgisayar yazılımları önerilmiştir. Bu kavramlar ile İMKB (İstanbul Menkul Kıymetler Borsası)’ de işlem gören 10 şirkete ait hisse senedi değerlerindeki değişmeler arasındaki birlikteliklerin ortaya çıkarılmasını amaçlayan bir uygulama gerçekleştirilmiştir. Bu uygulamada, veri madenciliği algoritmalarından biri olan apriori algoritması kullanılmış ve birliktelik kuralları ortaya çıkarılmıştır.

Anahtar Kelimeler: Veritabanlarında Bilgi Keşfi, Veri Madenciliği, Apriori Algoritması, Birliktelik Kuralları.

(5)

ABSTRACT Master’s Thesis

Data Mining And Its Application Burhan Gemici

Dokuz Eylül University Graduate School of Social Sciences

Department of Econometrics Econometrics Program

Developing and changing technologies have shown a rapid increase in competition between companies. Companies to compete with this information is of great importance to reach. Databases with the development of computer technology has become possible to store very large volumes of data. Useful information with companies aiming to achieve these data. The concepts of data mining and knowledge discovery in databases as a requirement has been introduced. These concepts aim to reveal patterns hidden in data stored in databases.

This thesis focuses on the definitions of data mining and knowledge discovery in databases, data mining process steps in accordance with the definitions and data mining techniques and algorithms described were examined. Given to the concept of machine learning in data mining and machine learning components required for the proposed computer software. These concepts and the ISE (Istanbul Stock Exchange), belonging to 10 companies traded in the associations between changes in stock values was an application aimed at revealing. In this embodiment, one of an algorithm of data mining algorithms is apriori algorithm used, and association rules were uncovered.

Keywords: Knowledge discovery in databases, Data Mining, Apriori Algorithm, Association Rules.

(6)

VERİ MADENCİLİĞİ VE BİR UYGULAMASI İÇİNDEKİLER

TEZ ONAY SAYFASI ii

YEMİN METNİ iii

ÖZET iv ABSTRACT v İÇİNDEKİLER vi KISALTMALAR ix TABLOLAR LİSTESİ x ŞEKİLLER LİSTESİ xi EK LİSTESİ xii GİRİŞ 1 BİRİNCİ BÖLÜM

VERİTABANLARINDA BİLGİ KEŞFİ ve VERİ MADENCİLİĞİ

1.1.VERİ MADENCİLİĞİ TANIMLARI 3

1.2. VERİ TABANLARINDA BİLGİ KEŞFİ ADIMLARI 5

1.3. CRISP-DM 7

1.4. VERİ MADENCİLİĞİ NE DEĞİLDİR? 10 1.5. VERİ MADENCİLİĞİNİN KULLANIM ALANLARI 11

1.6. VERİ MADENCİLİĞİ UYGULAMALARI 12

1.6.1. Birliktelik Kuralları 12 1.6.2. Kaçakçılık Tespiti 13 1.6.3. Astronomik Veriler 13 1.6.4. Genomik Veriler 13 1.6.5. Doküman Verileri 14 1.6.5. Üretim Verileri 14 1.6.7. Yatırım Kararları 14 1.6.8. Spor Verileri 14 1.6.9. Müzik Çalışmaları 15

(7)

1.6.10.Eğitim Sektörü Verileri 15

1.7. MAKİNE ÖĞRENİMİ 15

1.7.1. Öğrenme Nedir? 15

1.7.2. Kendi Kendine Öğrenen Bilgisayar Sistemleri 16

1.7.3. Bilim Metodolojisi 16

1.7.4. Makine Öğrenimi Tanımları 18 1.7.4. Makine Öğreniminde Kullanılan Programlar 19

1.8.VERİ ÖNİŞLEME 20

1.8.1. Veri Seçimi 21

1.8.2. Kayıp Verilerin Düzenlenmesi 21 1.8.3. Sapan (Outliers) Veriler 22

1.8.4. Verilerin Yeniden Yapılandırılması 24 1.8.4.1. Min-Max Normalleştirmesi 24 1.8.4.2. Sıfır Ortalamalar Normalleştirmesi 25

1.8.4.3. Ondalık Derecesi İle Normalleştirme 25

1.8.5. Veri İndirgeme 26 İKİNCİ BÖLÜM

VERİ MADENCİLİĞİ TEKNİKLERİ ve MODELLERİVE MESLEKİ YARGI

2.1. SINIFLANDIRMA TEKNİKLERİ 29 2.1.1. Karar Ağaçları İle Sınıflandırma 29

2.1.1.1. ID3 Algoritması 33 2.1.1.2. C4.5 Algoritması 34 2.1.1.3. CART Algoritması 36 2.1.1.4. SPRINT Algoritması 39 2.1.1.5. SLIQ Algoritması 40 2.1.2. Bellek Tabanlı Sınıflandırma: En yakın K-Komşu Algoritması 41

2.1.3. Bayesyen Sınıflandırma 42 2.1.3. Yapay Sinir Ağları 44

(8)

2.2. KÜMELEME TEKNİKLERİ 47

2.2.1. Hiyerarşik Kümeleme Yöntemleri 49

2.2.1.1. En Yakın Komşu Algoritması 49 2.2.1.2. En Uzak Komşu Algoritması 51

2.2.1.3. BIRCH Algoritması 52 2.2.2. Bölümlemeli Kümeleme Yöntemleri 53

2.2.3. Yoğunluğa Dayalı Kümeleme Yöntemleri 54

2.3. BİRLİKTELİK KURALLARI 56

ÜÇÜNCÜ BÖLÜM UYGULAMA

3.1. YAPILACAK İŞİ ve ya ARAŞTIRMAYI ANLAMA 66

3.2. KULLANILACAK VERİYİ ANLAMA 67

3.3. VERİYİ HAZIRLAMA 67 3.4. MODELLEME ve SONUÇ 72 SONUÇ 79 KAYNAKÇA 83 EK 87

(9)

KISALTMALAR

A.B.D Amerika Birleşik Devletleri

BIRCH Balance Iterative Reducing and Clustering Using Hierarcihies CART Classification And Regression Trees

CRISP-DM Cross - Industry Standard Process CRM Costumer Relationship Management

DBSCAN Density-Based Spatial Clustering Method Based on Connected Regions with Sufficiently High Density

İMKB İstanbul Menkul Kıymetler Borsası SLIQ Supervised Learning in Quest

SPRINT Scalable Parallel Classifier for Data Mining

(10)

TABLOLAR LİSTESİ

Tablo 1: Veri Madenciliği Ne Değildir ? s. 10

Tablo 2: Veri Madenciliği Kullanım Alanları s. 12

Tablo 3: Makine Öğreniminde Kullanılan Lisanslı Yazılımlar s. 20

Tablo 4: Özgür Yazılımlar s. 20

Tablo 5: Karar Ağacı Algoritmalarının Akış Şeması s. 32 Tablo 6: SPRINT İçin Veri Listesi s. 40

Tablo 7: Apriori Algoritması İçin Örnek Veri Kümesi s. 59

Tablo 8: Örnek Veri Kümesinin Kodlanması s. 60

Tablo 9: Apriori Örneğine Bağlı C₁ Aday Kümesi s. 60 Tablo 10: Apriori Örneğine Bağlı L₁ Kümesi s. 61 Tablo 11: Apriori Örneğine Bağlı C₂Aday Kümesi s. 61 Tablo 12: Apriori Örneğine Bağlı L₂ Kümesi s. 62

Tablo 13: Uygulamaya Katılan Şirketler Ve Hisse Senedi Kısaltmaları s. 67

Tablo 14: Uygulama Verileri s. 68

Tablo 15: Değişkenler Arasındaki Korelasyon Değerleri s. 69 Tablo 16: Değişkenlere Ait Tanımlayıcı İstatistikler s. 70

Tablo 17: Değişkenlerin Çubuk Grafiği s. 70

Tablo 18: Hisse Değişim Grafiği s. 71

Tablo 19: Güçlü Bağlantıya Sahip Değişkenler s. 74

Tablo 20: Zayıf Bağlantıya Sahip Değişkenler s. 75

(11)

ŞEKİLLER LİSTESİ

Şekil 1: Veritabanlarında Bilgi Keşfi Süreci Adımları s. 5

Şekil 2: CRISP-DM Döngüsü s. 8

Şekil 3: Bilimsel Araştırmaların Yaşam Döngüsü s. 17 Şekil 4: Histogram İle Sapan Değer Tespiti s. 23 Şekil 5: Serpilme Diyagramıyla Sapan Değer Tespiti s. 23

Şekil 6: Örnek Karar Ağacı s. 30

Şekil 7: Karar Ağaçlarında Eğer (if then) Örneği s. 31 Şekil 8: Karar Ağacı Boyuna Göre Doğruluk Performansı s. 35

Şekil 9: Bazı k Değerleri İçin Örnekler s. 41

Şekil 10: Yapay Sinir Ağı Örneği s. 45

Şekil 11: Yapay Sinir Ağı Katmanları s. 46

Şekil 12: En Yakın Uzaklık Algoritması Örneği s. 50

Şekil 13: En Yakın Ve En Uzak Komşu Algoritmaları s. 51 Şekil 14: DBSCAN Algoritmasında Çekirdek, Sınır ve Gürültü Noktaları s. 55

Şekil 15: SPSS Clementine 12.0 Yazılımında Örnek Arayüz s. 66

Şekil 16: Yazılımda Kullanılan Akış Şeması s. 72

(12)

EK LİSTESİ

(13)

GøRøù

Veritabanı sistemlerinin geliúmesi ile çok sayıda veriyi bilgisayar ortamında uzun yıllar saklamak mümkün hale gelmiútir. Tera byte ile ölçülebilen bu veritabanları, kullanıúlı bilgiler barındırmaktadır. Bu bilgilerin ortaya çıkarılması úirketler için büyük önem taúımaktadır. Bu bilginin ortaya çıkarılması için veri madencili÷i teknikleri ve algoritmaları geliútirilmiútir. Veri madencili÷i, istatistik, matematik ve bilgisayar bilimlerinin bir kesiúimidir. Bundan dolayı ‘disiplinlerarası’ bir disiplin olarak nitelendirilir. Veri madencili÷i, veritabanlarında bilgi keúfi olarak da adlandırılır.

Türkiye’ de birliktelik kuralları ile pazar sepeti analizi uygulamaları mevcuttur. Bunlar süpermarketlerde hangi müúteri tipinin hangi ürünü ne kadar aldı÷ını, ne sıklıkta aldı÷ını tespit etmeyi amaçlamaktadır. Bunun yanında bir araútırmada birliktelik kuralları ortaya çıkarılarak bir süpermarkette reyon düzenlemesi yapılmıútır.

Türkiye’ de sermaye piyasaları ile birçok veri madencili÷i çalıúması yapılmıútır. Bunlardan en önemlileri Dr. Ali Serhan Koyuncugil’ in çalıúmalarıdır. Bu çalıúmalarda risk yönetimi amaçlanarak kümeleme ve sınıflandırma teknikleri ile tanımlama ve tahminleme yapılmıútır. Bunun yanında Dr. Engin Küçüksille, doktora çalıúması olarak genetik algoritmaları kullanarak øMKB hisse senetleri piyasasında portföy performansı de÷erlendirmesini amaçlayan bir program geliútirmiútir. Bu konuda hisse senetlerinde birliktelik kurallarının tespiti için ASP.NET programlama diliyle geliútirilen basit programlar mevcuttur. Shu- Hsien ve di÷erleri, Tayvan borsası için iki adımlı veri madencili÷i çalıúması yapmıútır. Bu adımlardan birincisi, apriori algoritması kullanarak hisse senetleri arasındaki birliktelikleri ortaya çıkarmıú ve ikinci olarak kümeleme tekniklerinden k- ortalamalar algoritması ile hisse senetlerini kategorilere ayırmıúlardır.

(14)

Bu çalıúmanın birinci bölümünde, veri madencili÷i tanımlarına yer verilmiú, veri madencili÷inin kullanım alanları ve uygulamaları aktarılmıútır. Veritabanlarında saklanan çok sayıda verinin kullanılabilir hale gelebilmesi için düzenlenmesi gerekmektedir. Bu konuya, veri öniúleme kısmında geniú olarak yer verilmiútir. Makine ö÷reniminin ne oldu÷u tanımlanmıú, makine ö÷renimi için gerekli yazılımlar gösterilmiútir.

Çalıúmanın ikinci bölümünde, veri madencili÷i teknikleri anlatılmıútır. Her tekni÷e ait algoritmaların iúleyiúine yer verilmiútir. Bu teknikler denetimli ve denetimsiz ö÷renme olarak gruplandırılmıútır. Sınıflandırma teknikleri denetimli, birliktelik kuralları ve kümeleme teknikleri ise denetimsiz ö÷renme ile uygulanır.

Çalıúmanın üçüncü ve son bölümünde, birinci ve ikinci bölümde aktarılanlar ıúı÷ında bir uygulama çalıúması sunulmuútur. Bu uygulama çalıúması için øMKB’ de iúlem gören 10 úirket seçilmiútir. Uygulamada, bu úirketlere ait hisse senetlerindeki altmıú iki günlük de÷iúmeler arasındaki birliktelik kurallarını ortaya çıkarmak amaçlanmıútır. Birliktelik kurallarından apriori algoritması kullanılmıútır. Uygulamanın sonucunda bir model oluúturulmuú ve sonuçlar yorumlanmıútır.

(15)

BøRøNCø BÖLÜM

VERøTABANLARINDA BøLGø KEùFø VE VERø MADENCøLøöø

1.1 Veri Madencili÷i Tanımları

Her geçen gün, kullanıúlı veya kullanıúsız verilerin sayısı büyük artıúlar göstermektedir. Her yerde var olan kiúisel bilgisayarlar sayesinde, önceden iúe yaramaz bulup sildi÷imiz verileri saklamak çok kolay hale gelmiútir. Her yerde bulunabilen elektronik gereçler sayesinde, kararlarımız, süpermarketlerdeki seçimlerimiz, finansal alıúkanlıklarımız kaydedilebilmektedir. Bu verilerin artması, insanların bu verilerden anlamlı çıkarımlarını azaltmıútır. Bu verilerin içinde gizlenen bilgi, kullanılabilir potansiyel bilgidir ve açık olarak bulunmamaktadır. Kullanılabilir potansiyel bilgiyi ortaya çıkarmak, verilerdeki örüntüleri keúfetmek veri madencili÷i yöntemleriyle elde edilmektedir. Bu yeni bir anlayıú de÷ildir. ønsanlar, insanlı÷ın baúlangıcından beri verilerdeki örüntüleri araútırmaktadırlar. Avcılar, hayvanların göç davranıúlarındaki, çiftçiler, ekinlerinin geliúmesindeki, politikacılar seçmenlerinin düúüncelerindeki örüntüleri araútırmıúlardır. Günümüzde de giriúimciler, fırsat yaratabilmek için kendilerine fayda sa÷layacak iú örüntülerini araútırmaktadırlar (Witten ve Frank, 2005:4).

Bu veriler arasındaki anlamlı yeni korelasyonları ve örüntüleri keúfetme süreci veri madencili÷i olarak tanımlanır. Di÷er bir tanımla veri madencili÷i, geniú gözlemli veri setlerindeki úüphe edilmeyen iliúkileri analiz etme ve yeni yollarla veri sahiplerine anlamlı ve kullanıúlı bir úekilde özetleme yöntemidir (Hand ve di÷erleri, 2001:14). Veri madencili÷i, geniú veritabanlarından bilgiyi çıkarmak için; makine ö÷renimi, örüntü tanıma, istatistik, veritabanı ve görüntüleme tekniklerini bir araya getiren disiplinler arası alan (Cabena ve di÷erleri, 1998:13 ) olarak da tanımlanabilir.

(16)

Sumathi ve Sivanandam, veri madencili÷i ve bilgi keúfi tanımlamalarını aúa÷ıdaki gibi sıralamıútır;

x Veri madencili÷i, Büyük veri setlerinden açık olmayan de÷erli bilgiye ulaúmak için etkili araútırmadır.

x Veri tabanlarında bilgi keúfi: Verilerdeki, kullanıúlı ve anlaúılabilir geçerli potansiyel örüntüleri tanımlamak için kullanılan önemli bir süreçtir.

x Veri madencili÷i: De÷erli iú verilerindeki iliúkileri ve yeni durumları otomatik araútırmasıdır.

x Veri madencili÷i, kullanılacak iú de, rekabet ortamında avantaj sa÷layan bilginin keúfidir.

x Veri madencili÷i: Veri tabanlarından anlaúılır model ve örüntüleri ortaya çıkaran tümevarımdır.

x Veri madencili÷i: Geniú veri tabanlarından önceden bilinemeyen de÷erli ve kullanıúlı bilginin ortaya çıkarılması ve kritik iú kararlarında kullanılması sürecidir.

Bunun yanında geleneksel veri analizi tekniklerini oluúturan regresyon analizi, kümeleme analizi, çok boyutlu analiz, di÷er çok de÷iúkenli istatistiksel yöntemleri, stokastik modelleme ve zaman serisi analizi birçok problemin çözümünde yaygın olarak kullanılır. Bu yöntemlerin öncelikli amacı sayısal çıkarımlar yapma ve istatistiksel veri özelliklerini ortaya çıkarmaktır (Larose, 2005:3).

Örne÷in istatistiksel analiz, veri setindeki de÷iúkenler arasındaki korelasyona ve kovaryansına karar verebilir. De÷iúkenler arasındaki ba÷ımlılıkları niteleyemeyebilir; ba÷ımlılıkların neden oluútu÷una sıradan açıklamalar getirir. Merkezi e÷ilime ve belli faktörün varyansına, regresyon analizi ile de veri noktalar kümesine e÷ri uydurmaya karar verebilir ancak de÷iúkenler arasındaki gizli kalmıú örüntüleri ortaya çıkaramazlar. Bu durum da, geliúen bilgisayar teknolojisiyle kayıt altına alınan kullanıúlı ve kullanıúsız veriden bilgiyi elde etmeyi zorlaútırmıú ve piyasa oyuncularının karar sürecini yavaúlatmıútır. Rekabet ortamının geliúmesi, karar sürecinde bilgiyi elde edememe ve ya yavaú elde etmeden dolayı piyasa oyuncularına önemli kayıplar yaúatmıútır (Sumathi ve Sivanandam, 2006:9).

(17)

Bundan dolayıdır ki uzun çalıúmalardan sonra bilim adamları, yeni araútırma alanı olan veri madencili÷i ve bilgi keúfi tanımlamalarını ortaya atmıúlardır. Veri

madencili÷i bilgi keúfinin bir basama÷ı olarak da tanımlanmıútır.

1.2 Veritabanlarında Bilgi Keúfi Adımları

Veritabanlarında bilgi keúif süreci adımları ùekil 1‘ de gösterilmiútir.

ùekil 1: Veritabanlarında Bilgi Keúif Süreci Adımları

(18)

ùekil 1’ de gösterilen bilgi keúif adımları ve bu adımların iúlevleri aúa÷ıda açıklanmıútır (Maimon ve Rokach, 2005:3).

x Veri seçimi ve araútırmaya uygun veri seti yaratma: Bilgi keúfi için amaca yönelik verilere karar verilmelidir. Bu, kullanıúlı veriyi ortaya çıkarmayı, gerekli ek verileri elde etmeyi ve bilgi keúfi için kullanılacak bu verileri tek bir veri setine bütünleútirmeyi içerir. Bu süreç çok önemlidir çünkü veri madencili÷i uygun verilerden ö÷renir ve keúfeder. Bu model oluúturmanın temelidir. E÷er kullanılması gere bazı de÷iúkenler eksik ise oluúturaca÷ımız model hatalı olur

x Veri öniúleme ve temizleme: Bilgi keúfinin bu basama÷ı verinin güvenilirli÷ini artırır. Veriler farlı kaynaklardan edinildi÷i için kodlama farklılıklarından, tarih farklılıklarından do÷abilecek sonuçları engellemek için öncelikle veri de÷erlendirilir (Akpınar, 2000:5). Daha sonra veri temizleme aúamasına geçilir. Veri temizleme, kayıp verileri düzenleme ve gürültülü ve ya sapan verileri uzaklaútırma iúlemleridir. Böylelikle veri, amaca uygun ve zaman kaybına neden olmadan iúlenmiú olur.

x Veri dönüútürme veya indirgeme: Bu adım, hazır ve geliúmiú veri madencili÷i için daha iyi veri üretmek için uygulanır. Bu iki adımla uygulanabilir; veri dönüútürme ve boyut indirgeme. Örne÷in, yapay sinir a÷ı algoritması kullanılması halinde kategorik de÷iúken de÷erlerinin evet/hayır olması, bir karar a÷acı algoritmasının kullanılması durumunda ise örne÷in gelir de÷iúken de÷erlerinin yüksek/orta/düúük olarak gruplanması modelin etkinli÷ini arttırır. Bu adım bütün veri keúfi süreci için çok kritiktir (Akpınar, 2000:5).

x Veri madencili÷i: Bu adım üç basamakta gerçekleúir.

a. Uygun veri madencili÷i tekni÷ini seçmek: Bu adımda, kullanılacak veri

madencili÷i tekni÷ine karar verilir. Bu tekniklere örnek olarak sınıflandırma, regresyon ve kümeleme verilir. Bu, veri tabanlarından veri keúfinin amacına ba÷lıdır. Veri madencili÷inde iki amaç vardır. Bunlar tahminleme ve tanımlamadır.

(19)

Tahminleme için kullanılan veri madencili÷i, denetimli veri madencili÷i olarak adlandırılır. Tanımlama için kullanılan veri madencili÷i ise denetimsiz veri madencili÷i ve veri görüntüleme olarak adlandırılır.

b. Veri madencili÷i algoritmasını seçmek: Kullanılacak olan teknik

belirlendikten sonra bu teknikteki hangi algoritmanın kullanılaca÷ına karar vermek gerekir.

c. Veri madencili÷i algoritmasını uygulamak: Algoritmaya karar verildikten

sonra algoritma, kararlaútırılmıú parametrelere ulaúana kadar de÷iúkenler üzerinde denenmelidir. Tek yapraklı karar a÷açlarında, örneklerdeki en küçük sayıya ulaúana kadar denenmesi buna örnek gösterilebilir.

x De÷erlendirme: Bu adımda, çıkarılmıú örüntüler ilk adımda belirlenen amaca uygun olarak de÷erlendirilir ve yorumlanır. Elde edilen modelin anlaúılabilirli÷i ve kullanıúlılı÷ı araútırılır. Keúfedilen bilginin daha sonraki kullanımları için belgelendirilir. Özetle, veri madencili÷i ile elde edilen örüntülerin ve keúiflerin kullanımı ve etraflı bir geri beslemesidir.

1.3 CRISP-DM

Veri tabanlarında bilgi keúfi süreci adımlarına benzer olarak bazı kurumsal úirketler, departmanları arasındaki bölünmüúlük ve birbirleriyle etkileúimlerinin olmaması nedeniyle veri madencili÷ine yeni bir standart getirmiútir. CRøSP-DM, 1996 yılında DaimlerChrysler, SPSS ve NCR.CRISP úirketlerinden analistler tarafından kiúiye özel olmayan ve özgürce kullanılabilir standart süreç olarak geliútirilmiútir. CRISP-DM ‘e göre, verilen veri madencili÷i projesi ùekil 2‘ de gösterilen altı basamaklı bir yaúam döngüsüne sahiptir (Larose, 2005:5).

(20)

ùekil 2: CRøSP-DM Döngüsü

Araútırmayı

Anlama Veriyi Anlama

Veriyi Hazırlama

Modelleme De÷erlendirme

Sonuçları Yayma

Kaynak: Larose, 2005, s.6

CRISP-DM yaklaúımı büyük veri madencili÷i projelerinin daha hızlı, etkili, güvenilir, yönetilebilir ve az maliyetle sonuçlandırılmasını sa÷lar.

CRISP-DM basamakları ve bu basmakların tanımları aúa÷ıda gösterilmiútir (Larose, 2005:6).

1.Yapılacak iúi veya araútırmayı anlama

a. Projenin amaçları ve gereksinimleri açıkça ifade edilmelidir.

b. Bu amaç ve kısıtlamalar veri madencili÷inin problem tanımına uygun

olarak formüle edilmelidir.

(21)

2. Veriyi anlama

a. Veri toplanır.

b. Verileri hakkında ön bilgiye sahip olmak için keúfedici veri analizi

kullanılır.

c. Verinin yapısı de÷erlendirilir.

3. Veriyi hazırlama

a. Amaç, ilk iúlenmemiú veriyi kullanılacak olan veri setine hazırlamaktır.

b. Analiz için uygun de÷iúkenleri seçilmelidir.

c. Kullanılacak olan de÷iúkenlerde ihtiyaca göre dönüúümler yapılmalıdır.

d. Kayıp veriler düzenlenmelidir.

4. Modelleme

a. Neyi amaçladı÷ımıza ba÷lı olarak uygun veri madencili÷i tekni÷i seçilir.

b. E÷er elde edilen modelle bulunan sonuçların yanlıú ve tutarsız oldu÷u düúünülürse, ilk basama÷a dönülür ve mevcut olan baúka de÷iúkenler modele eklenir (Berthold ve di÷erleri, 2010:10).

5. De÷erlendirme

a. Ortaya çıkan sonuçlar, problemin veya iúin sahiplerinin bakıú açılarından

tartıúılır ve uygun olup olmadı÷ı analiz edilir.

b. Model uygun ise bir sonraki adıma geçilir.

c. Bu adımda, yeterli olmayan sonuçlar nedeniyle proje durdurulabilir ve

(22)

6.Sonuçları yayma

a. E÷er proje sonuçları sürekli olarak kullanılacak ise buldu÷umuz model raporlanır (Berthold ve di÷erleri, 2010:10).

b. Modeli kullanacak olan úirketin, kurumun vb. departmanları modelden

haberdar edilir.

1.4 Veri Madencili÷i Ne De÷ildir ?

Toplanan verilerden yapılacak sorgulamalar ve detaylı analizler ile elde edilen sonuçlar veri madencili÷i olarak de÷erlendirilmemelidir. Örne÷in; bir süper market zincirinde, úubelerin cirolarını ve hangi ürünlerin hangi úubede daha fazla satıldı÷ını sorgulamak, bir satıú úirketinde hangi müúterilerin süreklilik gösterdi÷ini belirlemek tam bir veri madencili÷i olarak de÷erlendirilemez. Aynı úekilde yalnızca regresyon analizi yaparak gelir ile cinsiyet arasındaki iliúkiyi modellemek de veri madencili÷i de÷ildir (Argüden ve Erúahin, 2008:17).

Veri madencili÷inin ne olmadı÷ı ve ne olması gerekti÷i Tablo 1‘ de birkaç örnekle gösterilmiútir.

Tablo 1: Veri Madencili÷i Ne De÷ildir ?

NE DEöøLDøR NE OLMALIDIR

ønternetten ayrıntılı bilgi araútırmak ønternette aynı içerikteki benzer bilgileri gruplamak

Aynı hastalı÷a sahip hasta kayıtlarını sorgulamak

Benzer semptomlar görülen aynı hastalı÷a sahip hastaları gruplamak

Yer listesinden termal otellerin yerini sorgulamak

Termal otelleri, hangi hastalı÷ın tedavisi ile ilgili oldu÷una göre gruplamak

ùirketlerin finansal raporlarından tabloları analiz etmek

ùirketlerin satıú ile ilgili veri tabanlarından müúteri profillerini ortaya çıkarmak

(23)

1.5 Veri Madencili÷inin Kullanım Alanları

Veri madencili÷i teknikleri, bilgisayar teknolojilerinin geliúmesiyle iú, bilim ve spor alanlarında sıklıkla kullanılmaktadır. Bir araútırma úirketi tarafından yapılan bir araútırmanın sonuçları A.B.D ‘de veri madencili÷i pazar hacminin 3 milyar dolar oldu÷unu göstermektedir (Akpınar, 2000:2).

x Pazarlama yönetimi: Hedef pazarlama, müúteri iliúkileri yönetimi, Pazar sepeti analizi, çapraz satıú analizi, müúteri de÷erlendirme, mevcut müúterilerin elde tutulması için yapılacak pazarlama strateji analizleri (Sumathi ve Sivanandam, 2006:27).

x Bankacılık ve finans: Risk yönetimi, rekabet analizleri, karlılık analizleri, müúteri kaybını engelleme, kredi onayı de÷erlendirmeleri, kredi kartı harcamalarına göre müúteri gruplarının belirlenmesi, dolandırıcılık tespiti, genel piyasa analizleri, hisse senedi fiyat analizleri, farklı finansal göstergeler arasındaki örüntülerin bulunması (Kalikov, 2006:10).

x Telekominikasyon ve medya: Pazarlama kampanyaları yönetimi, müúteri bölünmeleri, karlılık analizleri, telekominikasyon hatlarında yo÷unluk tahminleri (Sumathi ve Sivanandam, 2006:27).

x Sa÷lık: Ürün geliútirme, tedavi sürecinin belirlenmesi, önceki verilerden faydalanarak hastalık tahmini (Kalikov, 2006:10).

x Endüstri: Kalite kontrol çalıúmaları, lojistik, üretim süreçleri optimizasyonu (Kalikov, 2006:10).

Tablo 2’ de veri madencili÷inin kullanım alanlarının sektörel oranları verilmiútir. Bu tabloya göre veri madencili÷i, en çok CRM/Müúteri analiti÷i alanında kullanılmaktadır. Bunu %24.4 oranıyla bankacılık sektörü takip etmektedir. Tablo 2’ de görülü÷ü gibi hemen hemen her sektörde veri madencili÷i kullanılmaktadır.

(24)

Tablo 2: Veri Madencili÷i Kullanım Alanları

Kullanım Alanı Kullanım

Oranı (%) CRM/Müúteri Analiti÷i 32.8 Bankacılık 24.4 Direk Pazarlama 16.1 Kredi Puanlama 15.6 Telekominikasyon 14.4 Dolandırıcılık Tespiti 13.9 Satıú 11.7 Sa÷lık 11.7 Finans 11.1 Bilim 10.6 Reklamcılık 10.6 E-Ticaret 10.0 Sigortacılık 10.0 Web Madencili÷i 8.3 Sosyal A÷lar 7.8 ølaç 7.8 Bioteknoloji 7.8 Kaynak: Gorunescu, 2011, s.41

1.6 Veri Madencili÷i Uygulamaları

Veri madencili÷i süreci, verilerin kaydedilip saklanabildi÷i birçok yerde uygulanmaktadır. Bu uygulamalar, birliktelik kuralları, kaçakçılık tespiti, astronomik veriler, genomik veriler, doküman verileri, üretim verileri, e÷itim verileri, spor verileri, müzik çalıúmaları, yatırım kararları olarak sıralanır.

1.6.1 Birliktelik Kuralları

Süpermarketlerden alıúveriú yapan müúteriler, belirli zamanlarda farklı ürünler satın alırlar. Satın alınan ürünlerin kim tarafından ne zaman alındı÷ı barkod okuyucular sayesinde veritabanına aktarılmakta ve geniú veri tabanlarında saklanmaktadır. Temel problem, hangi ürünün birlikte satın alınma e÷ilimi oldu÷udur. Bu üstü kapalı bir birliktelik problemidir. Bu birliktelikleri ortaya çıkarmak için birçok birliktelik algoritması geliútirilmiútir (Sumathi ve Sivanandam, 2006:29). Bunun yanında, piyasaya yeni çıkmıú bir ilacın yan etkilerinin hangi durumlarda

(25)

ortaya çıktı÷ının araútırılmasında, telekominikasyon a÷larındaki sorunları tahminlemede birliktelik kuralları kullanılır (Larose, 2005:17).

1.6.2 Kaçakçılık tespiti

Di÷er sahtekârlıklara nazaran kredi kartı iúlemlerinde yapılan sahtekârlıklar az olsa da, bu yolla her yıl 500 milyon dolar kayıp yaúanmaktadır. Bunun için kullanılan veri madencili÷i teknikleri geliútirilmiútir (Sumathi ve Sivanandam, 2006:29). Müúteriler hakkında her türlü veriyi veritabanında saklayan bankalar, yapılan kredi kartı iúlemlerinin müúteriler için kurulan modele uygun olup olmadı÷ını bu tekniklerle tahmin edebilirler.

1.6.3 Astronomik Veriler

Astronotlar tarafından yeni galaksi, yıldız ve gökcisimleri foto÷raflanarak incelenmektedir. Son zamanlarda ise yeni astronomik keúif sürecini makineleútirmek için sınıflandırma algoritmaları kullanılmaktadır. Sınıflandırma algoritmaları, gökyüzü nesnelerinin, parlaklı÷ı, alanı ve úekli gibi görüntü iúleme kanalı ile üretilen de÷iúkenleri türetmek için uygulanır. Bu yaklaúım, geleneksel hesaplama teknikleri ve elle yapılan analizlerle tespit edilen zayıf gözlemlerin aksine daha kullanıúlıdır. Bu yaklaúım, Palomar Gözlemevi’ nin gökyüzü haritasındaki gökcisimlerini 3’ e katlamıútır (Sumathi ve Sivanandam, 2006:30).

1.6.4 Genomik Veriler

Genomik veriler bütün dünyada, farklı formatlarda ve farklı uygulama yönetimleriyle kaydedilmektedir. Yeni sistemler, gen karúılaútırmalarına, gen tanımlamalarında ve bütün gen iúlevinin yorumlanmasına ve analizine olana sa÷lamaktadır (Sumathi ve Sivanandam, 2006:30).

(26)

1.6.5 Doküman verileri

Doküman veri madencili÷inde (text mining) ana amaç dokümanlar arasında ayrıca elle bir tasnif gerektirmeden benzerlikleri ortaya çıkarabilmektir. Bu genelde, otomatik olarak çıkarılan anahtar sözcüklerin tekrar sayısı sayesinde yapılır. Polis kayıtlarında mevcut rapora benzer kaç adet ve hangi raporlar var, ürün tasarım dokümanları ve internet dokümanları arasında mevcut tasarım için kullanılabilecek ne tür dosyalar var gibi sorulara bu yöntemle yanıt bulunabilir (Akgöbek ve Çakır, 2009:803). Günümüzde Google arama motorunun iúleyiúi bu úekildedir. Kullanıcı aramak istedi÷i úeyin sadece bir kelimesini yazsa bile, yazdı÷ı kelimeye uygun sonuçları ekranında görebilir.

1.6.6 Üretim Verileri

General Electric ve SNECMA ortaklı÷ı ile geliútirilen CASSIOPEE hata bulma sistemi üç önemli Avrupa havayolu úirketine ait Boeing 737 tipi uçaklardaki problemleri tespit ve tahmin etmek için kullanılmıútır. Hataların ortaya çıkarılması için kümeleme yöntemleri uygulanmıútır. CASSIOPEE, Avrupa’nın ilk yenilik uygulaması ödülü alan sistemidir (Fayyad ve di÷erleri, 1996:38).

1.6.7 Yatırım Kararları

Çok sayıda úirket yatırım kararları için veri madencili÷inden faydalanır ama ço÷u kullandıkları sistemi açıklamaz. LBS úirketi sistemini açıklayanlardan biridir. Onun sistemi, 600 milyon dolarlık portföyü yönetmek için, uzman sistemleri, yapay a÷ları ve genetik algoritmaları kullanır (Fayyad ve di÷erleri, 1996:38).

1.6.8 Spor Verileri

Spor dünyasında, her takımdan, oyuncudan, oyundan ve sezondan çok fazla sayıda veri biriktirilebilmektedir. Örne÷in, basketbolda her oyuncunun rebound, asist, top çalma, blok ve turnike istatistikleri her oyunda kaydedilir. Bu durum da birçok

(27)

üstü kapalı bilgi demektir. Bu yüzden veri madencili÷inin sporda kullanımı idealdir. Son zamanlarda, birçok takım sporu organizasyonu, birçok yetene÷i keúfetmek ve var olan oyuncularının eksikliklerini tespit etmek ve rakip takımı analiz edip karúılaúmalarda yeni takım stratejileri ortaya koymak amacıyla istatistikçi ve analist çalıútırmaktadır (Solieman, 2006:4). Amerikan Basketbol Ligi’ nde takım stratejileri veri madencili÷i yöntemleriyle hazırlanmaktadır.

1.6.9 Müzik Çalıúmaları

Müzik veritabanı fonksiyonlarında ‘k’ en yakın komúuluk yöntemi kolayca kullanılır. Burada amaç, müzik araútırmalarını geliútirmek ve çözümlemektir. ( Jensen, 2006:3) Belli bir müzik parçası verildi÷inde buna benzeyen di÷er müzik parçalarını binlerce parça arasından veri madencili÷i yöntemleri ile tespit edilebilir. Buradaki de÷iúkenler, tempo, tarz, artikülasyon olarak tanımlanabilir (Sevinç, 2005).

1.6.10 E÷itim Sektörü Verileri

Ö÷renci iúlerinde veriler analiz edilerek ö÷rencilerin baúarı ve baúarısızlık nedenleri, baúarının arttırılması için hangi konulara a÷ırlık verilmesi gerekti÷i, üniversiteye giriú puanları ile okul baúarısı arasında bir iliúkinin var olup olmadı÷ı gibi sorulara yanıt arayarak e÷itim kalitesini arttırmak ve e÷itim politikalarını belirlemek amacıyla veri madencili÷i kullanılır (Akgöbek ve Çakır, 2009:802).

1.7 Makine Ö÷renimi

1.7.1 Ö÷renme Nedir ?

ønsanlar, yaúayabilmeleri ve çevreye adapte olabilmeleri için ö÷renmeye ihtiyaç duyarlar. ønsanların ne ö÷rendikleri tanımlanamaz ancak ö÷rendikleri úeylere nasıl karar verdikleri tanımlanabilir. Ö÷renmeyi tanımlayabilmek için iki ana kavram vardır. Bunlar, iyi ya da kötü gerçekleútirilmesi gereken görev ve bu görevi gerçekleútirmek için kullanılacak bir tema ya da konudur. Kısaca ö÷renme, insanların,

(28)

belirli bir görevin gerçekleúmedi÷i bir durumdan aynı görevin aynı úartlar altında nasıl gerçekleúti÷ini kavrama durumudur (Adriaans ve Zantinge, 1996:12).

1.7.2 Kendi Kendine Ö÷renen Bilgisayar Sistemleri

Bilgisayarlar, tanıma göre ö÷renmeye yeteneklidirler. Bir bilgisayar kendi baúına bir görevi veya iúi gerçekleútiremeyebilir ancak insan e÷er do÷ru komutları verirse ö÷renmeyi gerçekleútirebilir. Örne÷in kullanıcı bilgisayarın diferansiyel denklemi çözmesini istiyorsa do÷ru bir program geliútirerek bilgisayara bunu çözdürebilir. Bu örnek, kendi kendine ö÷renen bilgisayarlar için eksik kalmaktadır. Kendi kendine ö÷renen bilgisayarlar, kendi programlarını üretip yeni görevleri gerçekleútirmeye olanak sa÷larlar. Kullanıcının program geliútirmesi ile bilgisayarın probleme çözüm üretmesi, onun tek baúına ö÷rendi÷i anlamına gelmemektedir. Bilgisayarlar, insanlara göre problemleri çok hızlı ve çok do÷ru çözseler de, yaratıcılık kullanamazlar. Örne÷in, bilgisayarlar bir bulmacayı çözebilirler ya da milyonlarca kayıt içeren pazarlama veritabanından örüntüleri kolayca bulabilirler ancak bir cinayeti çözemezler, bir pazarlama planı ortaya koyamazlar (Adriaans ve Zantinge, 1996:13). Bu yüzden günümüzde robot teknolojileri ve yapay zeka çalıúmaları bilgisayarlara yaratıcılık kazandırmayı ve karar verme kapasitelerini artırmayı hedeflemektedir.

1.7.3 Bilim Metodolojisi

Modern bilim adamlarının temel görevi var olan bir úeyi açıklama ve olmayan bir úeyi tahminlemektir. Bilimsel araútırmaların ideal döngüsü ùekil 3’ de gösterilmiútir.

(29)

ùekil 3: Bilimsel Araútırmaların Yaúam Döngüsü

Kaynak: Adriaans, Zantinge, 1996, s.14

Bu döngüde yer alan dü÷ümlerin açıklamaları aúa÷ıda verilmiútir.

x Gözlem: Araútırmaya gözlemlerle baúlanır.

x Analiz: Bu gözlemlerdeki örüntüler bulunmaya çalıúılır.

x Teori: E÷er belirli düzenlilik elde edilirse, analiz formüle edilir ve teorileútirilir. Teori bir hipotezdir.

x Tahmin: Kurulmuú olan teori, yeni gözlemler tarafından do÷rulanabilen yeni olguları tahminler.

Bu yüzyılda deneysel gözlemleri açıklamak için teoriler formüle edilebilir ancak bunların kesinli÷i hiçbir zaman kanıtlanamaz. Bilimin keúfetti÷i her úey geçici de÷erlere sahiptir. Örne÷in, ku÷uların renkleri formüle edilmek istensin. Gözlemlenen bir kaç ku÷unun beyaz renkte oldu÷u kaydedildi. Buna ba÷lı olarak “ bütün ku÷ular

ANALøZ

TEORø

TAHMøN GÖZLEM

(30)

beyazdır” hipotezi ortaya atıldı. Bu teorinin do÷rulanması için sonsuz sayıda gözleme ihtiyaç vardır. Bütün gözlemlere kaydetmek neredeyse imkânsızdır. Di÷er taraftan e÷er bir tane bile siyah ku÷u gözlemlenirse teorinin do÷rulu÷u kalmayacaktır. Filozof Karl Popper’ e göre genel kanunlar, sınırlı sayıda gözlemle do÷rulanamazlar ancak, bir tek gözlemle reddedilebilirler. Popper bu kuralı, do÷rulama ve reddetme arasındaki asimetri olarak adlandırmaktadır. Bu nedenle eldeki verilere uygun teoriler geliútirirken, teorinin reddedildi÷i durumlar da formüle edilmelidir. Hipotezleri do÷rulamak her zaman kolay de÷ildir. Örne÷in, bir ilacın etkinli÷i üzerinde çalıúan bir araútırmacı yüz hastadan oluúan bir örneklem seçsin. ølk elli hastaya ilaç, di÷er elli hastaya plasebo versin. E÷er ilk gruptaki hastaların hepsi iyileúir ve di÷er gruptaki hastaların hiç biri iyileúmez ise ilacın etkin oldu÷u söylenebilir. Yine ilk gruptaki kırk kiúi iyileúir ve di÷er gruptaki sadece 10 iúi iyileúme e÷ilimi gösterirse ilacın yine etkin oldu÷u söylenebilir. Bunun yanında ilk gruptan otuz hasta iyileúir ve di÷er taraftan on hasta iyileúirse ilacın az etkili veya etkisiz oldu÷u söylenemez. Bu durum istatistiksel olarak anlamsız diye adlandırılır (Adriaans ve Zantinge, 1996:17).

1.7.4 Makine Ö÷renimi Tanımları

Bilgisayar yardımıyla bir problem çözümlenmek istenirse, probleme uygun algoritmalar geliútirmek gereklidir. Günümüzdeki teknolojik geliúmeler sayesinde, veritabanlarında milyarlarca veri kaydedilmekte ve bu verilerden çıkarsamalar yapılmaktadır. Bu verilerdeki örüntüleri ve düzenlilikleri araútırmak için birçok algoritma geliútirilmiútir. Bu algoritmalar programlanarak makine ö÷reniminin bir parçasını oluútururlar. Makine ö÷renimi, bilgisayarların, algılayıcı verisi ya da veritabanı gibi veri türlerine dayalı ö÷renimini olanaklı kılan algoritmaların tasarım ve geliútirme süreçlerini konu edinen bir bilim dalıdır. Ancak makine ö÷renimi sadece veritabanı problemi de÷il aynı zamanda yapay zekânın bir parçasıdır. Aynı zamanda makine ö÷renimi, robot teknolojilerinde ve görüntü ve ses tanıma sistemlerinde birçok probleme çözüm üretirler (Alpaydın, 2010:3).

(31)

Makine ö÷renimi, örnek verileri ve geçmiú tecrübeleri kullanırken, performans ölçütlerini en uygun úekilde kullanmak için bilgisayar programları geliútirmektir. Örne÷in, birkaç parametreli model tanımlansın, “Ö÷renme”, bilgisayar programını uygulamaya geçirecek ve program e÷itim verilerini ya da geçmiú tecrübeleri kullanarak model parametrelerini en uygun hale getirecektir. Makine ö÷renimi, matematiksel model kurabilmek için istatistik teorilerinden faydalanır çünkü ana görev örneklemden tahminlemeler yapmaktır. Makine ö÷renimi aynı zamanda bilgisayar bilimlerinden, hem e÷itim için hem de ö÷renilmiú modelin gösterimi ve tahminlemelere algoritmik çözümler sunabilmek için faydalanır (Alpaydın, 2010:4).

Makine ö÷renimi, tecrübelerden elde edilen bilgileri makineleútirerek hesaplama yöntemlerinde performansı artırmak için kullanılan bir çalıúmadır. Makine ö÷renimi, bilgi mühendisli÷i sürecinde otomasyon düzeyini artırmayı, e÷itim verilerindeki örüntülerin keúfedilmesi sürecinde etkinli÷i arttıran otomatik tekniklerin, çok fazla zaman kaybına neden olan insan gücünün yerine geçmesini amaçlamaktadır (Jackson, 2002:272).

Makine ö÷renimin baúlıca uygulamaları, makine algılaması, bilgisayarlı görme, do÷al dil iúleme, sözdizimsel örüntü tanıma, arama motorları, tıbbi tanı, beyin-makine arayüzleri, kredi kartı dolandırıcılı÷ı denetimi, borsa çözümlemeleri vb. olarak sıralanabilir.

1.7.5 Makine Ö÷reniminde Kullanılan Programlar

Makine ö÷renimi uygulamalarında kullanılan programlar, her hangi bir lisans ücreti ödemeden edinebildi÷imiz özgür yazılımlar ve lisans ücreti ödeyerek elde edebildi÷imiz yazılımlar olarak ikiye ayrılır. Lisans ücreti ödeyerek elde edilen programlar Tablo 3’ de gösterilmiútir.

(32)

Tablo 3: Makine Ö÷reniminde Kullanılan Lisanslı Yazılımlar

IBM-SPSS (Clementine) Angoos software (Knowledge seker) IBM (Data Warehouse) Knowledge Builder Rules Authoring Std. MICROSOFT (SQL Server) SAP- Business intelligence solution

STATISTICA CART 6.0 ProEx

MATLAB (ARMADA Data mining too) Cloud1305

SAS Data mining-Enterprise Miner Data Applied (Data Mining tools)

ORACLE Data Mining Excel (XLMiner)

Kaynak: Gorunescu, 2011, s.39

Herhangi bir lisans ücreti ödemeden elde edilebilen özgür yazılımlar Tablo 4’ de gösterilmiútir.

Tablo 4: Özgür Yazılımlar

ADaM KEEL RapidMiner

AlphaMiner KNIME Rattle

CRAN Task View Machine Learning in Java (MLJ) StarProbe

Databionic ESOM Tools MiningMart TANAGRA

ELKI MLC++ Weka

Gnome Data Mining Tools Orange YALE

Bütün bu yazılımlar kendi resmi sitelerinden ücretsiz olarak elde edilebilir.

1.8 Veri Öniúleme

Veri madencili÷i çalıúmalarında karúılaúılan en önemli sorunlar verilerdeki eksiklikler, araútırmaya uygun verilerin seçilmemesi, seçilen verilerin arasında yüksek korelasyon bulunması, sapan de÷erler gibi sorunlardır. Bu sorunlar, yanlıú bulgular elde edilmesine ve çalıúmaların uzamasına neden olmaktadır. Bunun için veri madencili÷i adımlarından olan veri öniúleme baúka bir deyiúle veri hazırlama bütün veri madencili÷i sürecinin en önemli adımıdır.

(33)

1.8.1 Veri seçimi

Bir veri ambarı, birbirinden çok farklı veriler içerir ve bu verilerin hepsi, her veri madencili÷i çalıúmasının amacını gerçekleútirmek için kullanılamaz. Bu durumda amaca uygun verileri seçmek gerekir. Örne÷in, market veritabanları, müúterilerin satın aldıkları malların, demografik özelliklerinin, tercihlerinin verilerini içerir. Market yönetimleri, hangi müúterilerin ne tür mallar satın aldıklarını tanımlamak isterse, demografik ve satın alınan mal verilerini kullanmaları gerekir. Oysa veri ambarında yukarıda belirtildi÷i gibi farklı birçok veri bulunmaktadır (Sumathi ve Sivanandam, 2006:197).

Veri seçimi aúamasında yapılması gerekenler;

a. Farklı ortamlardaki verilerin mevcut yapılarının incelenmesi ve tablo

yapılarının incelenmesi,

b. Hedeflenen sonuca ulaúmak için gerekli verilerin, veri madencili÷i

uygulamak için belirlenen veri depolama ortamına transfer edilmesidir (Özçakır, 2006:12).

1.8.2 Kayıp Verilerin Düzenlenmesi

Verilerdeki bazı de÷erler çeúitli nedenlerle kaybolmuú, silinmiú, girilmemiú olabilir. Bu veriler kayıp veri olarak adlandırılır. Veri madencili÷i çalıúmalarında en sıkıntı veren ve zaman kaybına neden olan sorun veritabanında kayıp de÷erlerin bulunmasıdır. Kayıp veriler ya veritabanından çıkarılmalı ya da bunların yerine kullanıcı tarafından uygun teknikler kullanılarak yeni veriler girilmelidir. Yeni veri giriúinde kullanılabilecek uygun teknikler aúa÷ıda açıklanmıútır (Silahtaro÷lu, 2008:21).

a. Tüm kayıp verilere aynı bilgiyi girmek: Örne÷in, medeni hal verilerinde

boú olan yerlere boú anlamına gelen “B” harfini girmek. Ancak bu durumda medenin halin “B” olması anlamlı bir sonuçmuú gibi çıkabilir. Kullanımı çok yaygın de÷ildir.

(34)

b. Kayıp verilerin yerine tüm verilerin ortalama de÷erinin verilmesi: Örne÷in kayıp a÷ırlık verilerinin yerine bütün a÷ırlık verilerinin ortalamasının verilmesi

c. Regresyon yöntemi kullanılarak di÷er de÷iúkenlerin yardımı ile kayıp

verilerin tahminlenmesi: Eksik olmayan veriler kullanılarak regresyon denklemi elde edilebilir ve böylelikle kayıp veriler tahminlenebilir. Aynı úekilde Bayesyen sınıflandırma, karar a÷açları gibi teknikler kullanılarak da tahminlemeler yapılabilir.

1.8.3 Sapan Veriler

Sapan de÷erler, veri geniúli÷inin sınırlarını aúırı derecede aúan de÷erlerdir. Bu de÷erler de÷iúkendeki di÷er verilerin e÷ilimlerini de etkilerler. Bu de÷erler yanlıú girilmiú olabilir. Yanlıú girilmemiú olsa dahi veri madencili÷i sonuçlarını etkileyece÷inden tespit edilmelidir (Larose, 2005:34).

Sapan de÷erlerden kurtulmak için;

a. E÷er gözlem yanlıú girilmiúse do÷ru bilgiye ulaúılmalı,

b. Herhangi bir yanlıúlık yoksa sapan de÷er gözlemlerden çıkarılmalı,

c. Uygun dönüúümler yapılmalıdır.

Bu iúlemlerden, sonuçları aúırı etkilemeyecek olan herhangi birisi seçilerek sürece devam edilebilir.

Sapan de÷erleri tespit etmek için bilgisayar programlarından yararlanılır. Bu programlar ile histogram, serpilme diyagramı ve kümeleme analizleri elde edilerek sapan de÷erlerin görselleútirilmesi sa÷lanır. Bu görselleútirmelere örnek, ùekil 4 ve ùekil 5 verilebilir.

(35)

ùekil 4: Histogram øle Sapan De÷er Tespiti

Kaynak: Larose, 2005, s.34

Bu úekil, arabaların gözlem de÷erlerine göre a÷ırlıklarının histogramıdır. Burada daire içine alınmıú gözlemler di÷er gözlemlerden aúırı sapma göstermiútir. Bu veriler incelenmeli ve önlemleri alınmalıdır. Veri madencili÷i sürecinin ileri aúamalarında yanıltıcı sonuçlar do÷urabilir.

ùekil 5: Serpilme Diyagramıyla Sapan De÷er Tespiti

0 100 200 300 400 500 600 0 500 1000 1500 2000 2500 AGøRLøK Seri 1 Kaynak: Larose, 2005, s.35

(36)

Bu serpilme diyagramı da, gözlenen arabaların a÷ırlıklarıyla, bir depo benzinle gidebildikleri yol (mil cinsinden) arasındaki iliúkiyi göstermiútir. Ok iúareti ile gösterilen de÷erler verilerden oldukça saptı÷ı açıkça görülmektedir.

1.8.4 Verilerin Yeniden Yapılandırılması

Veri madencili÷i uygulamalarında, veriler her algoritma için aynı de÷ildir. Bazı algoritmalar sadece sayısal de÷erlerle çalıúırken bazıları kategorik de÷erlerle çalıúır. Bazı algoritmalar ise 1 veya 0 ile kodlanmıú de÷erlerle çalıúır. Örne÷in, bir süper market veri tabanından bir ay içinde satıúı yapılan mallar veri setini oluútursun. Uygulamanın amacı ise bu mallar arasındaki birlikteliklerin var olup olmadı÷ını araútırmak olsun. Bu durumda uygulama için, verilerin satılmaları durumu 1, satılmama durumu ise 0 olarak kodlanması gerekecektir. Bundan dolayı veri seti amaca uygun olarak yeniden yapılandırılacaktır. Di÷er bir örnek olarak karar a÷açları verilebilir. Karar a÷açları, sürekli de÷erler yerine aralıklı de÷erler kullanırlar. Örne÷in, a÷ırlık de÷iúkeni 500 ile 10000 arasında de÷erler alıyorsa, bu de÷erler, 500-1000, 1000-1500 vb. gibi aralıklara bölünerek karar a÷açları uygulanacaktır (Silahtaro÷lu, 2008:25).

Uygulamada karúılaúılan di÷er bir durum ise de÷iúken noktalarının birbirlerinden çok uzak geniúli÷e yayılmıú olmasıdır. Bu durum bazı veri madencili÷i algoritmalarında gereksiz ve yanıltıcı sonuçlara neden olabilir. Bu durumdan kurtulmak ve her de÷iúkenin sonuca etkisini artırmak için normalleútirme uygulamaları kullanılır (Larose, 2005:35).

1.8.4.1 Min-max Normalleútirmesi

Bu normalleútirme, esas veriler üzerinde do÷rusal dönüúüm yapmayı ifade eder (Han ve Kamber, 2006:96). Bu dönüúüm, aúa÷ıdaki formülün bütün de÷iúkenlere uygulanması ile elde edilir.

s min s '

maks min

(1.1) Buradamin, verinin alabilece÷i en küçük de÷er,maks ise alabilece÷i en yüksek de÷eri gösterir. s’ ile verinin dönüútürülmüú hali simgelenirken, s ile esas veri

(37)

simgelenmektedir (Silahtaro÷lu, 2008:25). Bu dönüúüm bütün verilere uygulanarak dönüúüm gerçekleútirilir. Dönüútürülmüú veriler uygulamada kullanılır.

1.8.4.2 Sıfır-ortalama Normalleútirmesi (z-score normalization)

Bu normalleútirme, herhangi bir “A” de÷iúkeninin ortalaması ve standart sapması kullanılarak yapılır. Normalleútirmeyle birlikte, de÷iúkenlerin ortalama etrafında yayılması sa÷lanarak de÷iúkenliklerden dolayı karúılaúılacak sorunlar en aza indirgenmiú olur (Han ve Kamber, 2006:96).

s ort s '

V (1.2) Burada s’ ile gösterilen de÷er, de÷iúkenin normalleútirildikten sonra alaca÷ı de÷eri, s ise esas de÷eri göstermektedir. Bunun yanında ort, verinin ortalamasını veı

ise verinin standart sapmasını gösterir. Yukarıdaki formül bütün de÷iúkenlere uygulanarak normalleútirme yapılmıú olur.

1.8.4.3 Ondalık Derecesi ile Normalleútirme

“A” herhangi bir de÷iúkeni simgelesin. Bu de÷iúkenin mutlak de÷erce en büyük de÷erine ba÷lı olarak de÷iúkenlerin ondalık sayılarının de÷iúmesi ile elde edilen normalleútirmedir.

j

s s '

10 (1.3) Bu formülde s’ normalleútirilmiú de÷erleri, s esas de÷erleri gösterir. Aynı zamanda j ise dönüútürülmüú de÷erlerin mutlak de÷erce en büyü÷ünü 1 den küçük yapan en küçük tam sayıdır (Han ve Kamber, 2006:96).

Örne÷in “A” de÷iúkeni -954 ile 934 arasında de÷iúen de÷erlere sahip olsun. Burada mutlak de÷erce en büyük de÷er 954’ dür. Bu de÷eri 1 den küçük yapan en küçük de÷er ise 1000 de÷eridir. Buna ba÷lı olarak j=3 olarak belirlenmiú olur. -954 de÷eri formül uygulandıktan sonra -0.954’ e dönüúmüú olur. Aynı úekilde di÷er de÷erler için de formül kullanılarak normalleútirme yapılmıú olur.

(38)

1.8.5 Veriøndirgeme

Veri indirgeme yöntemleri, esas verilerden, daha küçük veri kümeleri elde etmek için kullanılır. Bu indirgenmiú veri ile elde edilen sonuçlar, daha etkili olur. Böylelikle veri madencili÷i çalıúmasının güvenilirli÷i artarken zamandan da kazanılmıú olur. Veri indirgeme yöntemleri aúa÷ıda gösterilmiútir (Han ve Kamber, 2006:97).

a. Veri küpü birleútirme;

Veri küpü yapılarında birleútirme iúlemlerinin uygulanmasını içeren tekniktir. Böylece çözümlemeler sadece belirlenen boyutlara göre yapılır (Özkan, 2008:41).

b. Boyut indirgeme;

Veri madencili÷i amacıyla ilgili olmayan, az ilgili olan ya da gereksiz de÷iúkenleri ve boyutları tespit edip uygulamadan çıkarmayı amaçlar. øndirgeme iúlemi aynı zamanda, korelasyonu yüksek birden çok de÷iúkeni birleútirerek tek bir de÷iúkene dönüútürmeyi de amaçlamaktadır. Boyut indirgeme istatisti÷e dayalı yöntemlerle yapılabilir. Temel bileúenler analizi, faktör analizi örnek olarak gösterilebilir.

c. Veri sıkıútırma;

Kodlama teknikleri ile veri setinin indirgendi÷i tekniklerdir. E÷er esas veri tekrar yapılandırıldı÷ında bilgi kaybı olmuyorsa bu veri sıkıútırma tekni÷i kayıpsız ‘dır denir. Sıkıútırma iúlemi için iki önemli teknikten söz edilir. Bunlar, temel bileúenler analizi ve dalga dönüúümüdür.

d. Çokluk azaltımı;

Verilerin, küçük veri kümeleriyle tahminlemesini içeren yöntemdir. Bu tahminlemede parametrik modeller, parametrik olmayan modeller, kümeleme, örnekleme yöntemleri kullanılır. Böylelikle günlük verileri biriktirmek yerine model parametrelerini kaydetmek yeterli olur.

e. Ayrıklaútırma ve kavram hiyerarúisi üretme;

Ayırma teknikleri, sürekli özelli÷e sahip de÷iúken sayılarının indirgenmesi için kullanılır. Aralık etiketleri, günlük veri de÷erlerinin yerini alır. Bu ayırma özellikle karar a÷açları uygulamalarında kullanılır. Örne÷in ücret de÷iúkeninin 500 ile 10000

(39)

arasında de÷iúti÷ini varsayalım. Bu geniúli÷i 500-1000, 1000-1500 gibi aralıklara ayırarak indirgemiú oluruz.

Kavram hiyerarúisi üreterek de veri indirgenir. Bu yöntem verileri derecelendirme iúlemidir. Örne÷in yaú de÷iúkenini küçük-orta-büyük olarak derecelendirerek indirgemiú olur.

(40)

øKøNCø BÖLÜM

VERø MADENCøLøöø TEKNøKLERø VE MODELLERø

Veri madencili÷inde kullanılan modeller tahminleyici ve tanımlayıcı olmak üzere iki ana baúlık altında toplanır. Tahminleyici modeller ileriye dönük tahminler geliútirmeyi hedeflerken tanımlayıcı modeller mevcut durumu de÷erlendirmeyi ve bundan sonuçlar çıkarmayı hedeflemektedir. Veri madencili÷i modelleri gördükleri iúleve göre üç ana baúlık altında toplanır. Bunlar;

a. Sınıflama ve Regresyon b. Kümeleme

c. Birliktelik kuralları (Akpınar, 2000:3)

Bu modeller arasında sınıflama ve regresyon tahminleyici, kümeleme ve birliktelik kuralları tanımlayıcı modellerdir.

Model kuruluú aúaması ö÷renimin denetimli ve denetimsiz olmasına göre farklılık gösterir. Örnekten ö÷renme olarak da bilinen denetimli ö÷renme, bir kullanıcı tarafından hedef sınıflar önceden belirlenen bir ölçüte göre ayrılarak her sınıf için çeúitli örnekler verilir. Sistemin amacı verilen örneklerden hareket ederek her bir sınıfa iliúkin özelliklerin bulunması ve bu özelliklerin kural cümleleri ile ifade edilmesidir (Akpınar, 2000:6). Denetimsiz ö÷renmede ise tanımlanmıú herhangi bir hedef sınıf yoktur (Larose, 2005:91).

Denetimli ö÷renmede öncelikle verilerin bir kısmı modelin ö÷renimi için di÷er bir kısmı ise modelin geçerlili÷ini test etmek için kullanılır. Basit geçerlilik yöntemi verinin bölünmesi için kullanılan basit bir yöntemdir. Bu yöntemde verilerin %5 ile %33 arasındaki bir kısmı test verisi olarak ayrılır. Geri kalan kısmı ise ö÷renme verileridir. Bir di÷er yöntem ise çapraz geçerlilik yöntemidir Bu yöntemde ise veri kümesi rastgele iki eúit parçaya bölünür. ølk baúta ilk parça test di÷er parça ö÷renim sonra ikinci parça test ilk parça ö÷renim verileri olarak kullanılır. Elde edilen hata oranlarının ortalaması modelin tahmini hata oranı olur.(Akpınar, 2000:6).

(41)

2.1 Sınıflandırma Teknikleri

Sınıflandırma teknikleri, veri madencili÷inin en çok kullanılan teknikleridir. Kullanıldı÷ı yerlere örnek olarak;

a. Bankacılık: Kredi uygulamalarında müúterinin kötü ya da iyi kredi risk puanına sahip olup olmadı÷ına karar vermede,

b. E÷itim: Yeni ö÷rencileri özelliklerine göre sınıflara yerleútirmede ve buna göre e÷itim programları hazırlamada,

c. Sa÷lık: Özel bir hastalı÷ın olup olmadı÷ını teúhis etmede,

d. Hukuk: Bir vasiyetin kimin tarafından yazılmıú olabilece÷ine karar vermede kullanıldı÷ı verilir (Larose, 2005:95).

Sınıflandırmada, önceden sınıflara ayrılmıú bir hedef kategorik de÷iúken bulunur. Gelir düzeyi ele alınırsa, orta, düúük, yüksek gelir olarak sınıflandırılması örnek olarak gösterilebilir. Veri madencili÷i modeli geniú veri kümelerini sorgular ve veri setindeki her kayıt hedef de÷iúken üzerinde bilgi içerir (Larose, 2005:95).

Di÷er bir tanım olarak sınıflandırma, çeúitli içeriklere sahip de÷iúkenleri sınıflara ayırma iúlemidir. Bu sınıflar, iú kuralları, sınıf sınırları ve bazı matematiksel fonksiyonlar tarafından tanımlanır. Sınıflandırma iúlemi, bilinen bir sınıf ataması ve sınıflanacak de÷iúkenin özelli÷i arasındaki iliúkiye dayanır. Bu tip sınıflandırmaya denetimli sınıflandırma denir (Nisbet ve di÷erleri, 2009:235).

Sınıflandırma teknikleri genel olarak beú bölüme ayrılır. x Karar a÷açları ile sınıflandırma

x Sınıflandırma ve regresyon a÷açları (CART)

x Bellek tabanlı sınıflandırma: En yakın k-komúu algoritması x østatisti÷e dayalı sınıflandırma

x Yapay sinir a÷ları

2.1.1 Karar A÷açları ile Sınıflandırma

Karar a÷açları, sınıflandırmada en yaygın kullanılan yöntemlerden biridir. Bu yöntem, tahmin edici de÷iúkenleri kullanarak model kurulması ve bu model sayesinde yeni de÷iúkenlerin üyelik derecelerine göre farklı sınıflara ayrılması iúlemidir.

(42)

Sınıflandırma görselli÷i açısından kullanıúı caziptir. Karar a÷açları, istatistiksel bakıú ile örüntü tanıma alanında çok yaygın olmamasına ra÷men, hastalık tanısında, bilgisayar bilimlerinde (veri yapıları), psikolojide (davranıúsal karar teorisi), yaygın olarak kullanılır. Kalp damarlarında tıkanma tanısında karar a÷acı oluúturulması örnek olarak gösterilebilir. Kalp krizi geçiren hastalara birçok test uygulanır. Bunlar, kalp atıú oranı, kan basıncı, EKG (Electrocardiogram). Bütün bu testler hasta hakkında bilgi veren verilerdir. Bunlardan yola çıkarak oluúturulacak karar a÷acı ile baúka hangi hastanın risk grubunda olabilece÷i tahminlenebilmektedir (Gorunescu, 2011:160).

ùekil 6’ da örnek bir karar a÷acı gösterilmektedir.

ùekil 6: Örnek Karar A÷acı

Kaynak: Gorunescu, 2011, s.160

ùekil 6’ da araba tiplerine ve yaúlarına göre kaza riskleri karar a÷acı ile sınıflandırılmıútır. Sonuç olarak 32 yaúından küçük arabaların kaza risklerinin yüksek, 32 yaúından büyük veya eúit olan arabalardan spor tipi arabaların kaza riski yüksek di÷erlerinin düúük oldu÷u görülmektedir.

Karar a÷açları, üç kısımdan oluúmaktadır. Bunlar; kök, dallar ve yapraklardır. ùekil 6 ‘da gösterilen karar a÷acında, yaú ve araba tipi ile gösterilen dü÷ümler birer kök dü÷üm, 32 yaúından büyük veya küçük oldu÷unu gösteren ve kök ile yaprakları

(43)

ba÷layan yapı dal, kaza riskinin yüksek veya düúük oldu÷unu gösteren dü÷ümler ise yaprak olarak adlandırılır.

Karar a÷açlarını oluúturmadan önce;

a. Karar a÷acı algoritmaları, denetimli ö÷renme ile uygulanır. E÷itim kümesi, hedef de÷iúkeni destekler nitelikte olmalı,

b. E÷itim kümesi, hedef de÷iúkene uygun zengin ve çeúitli de÷iúkenler barındırmalı,

c. Hedef de÷iúken sınıfı kesikli de÷iúkenlerden oluúmalıdır (Larose, 2005:109).

E÷itim verileri ile oluúturulan karar a÷acına, test kümesinin her bir kaydı uygulanarak modelin geçerlili÷i test edilir. Oluúturulan a÷aç aslında birçok “e÷er (if

then)” den oluúur (Silahtaro÷lu, 2008:48). Bu e÷er ‘lere verilen evet/hayır cevaplarıyla sınıflandırma yapılmıú olur. ùekil 7’ de örnek bir karar a÷acı ile gösterilmiútir.

ùekil 7: Karar A÷açlarında E÷er (if then) Örne÷i

(44)

ùekil 7 ‘ de gösterilen karar a÷acında sınıflandırma;

x if x=1 ve y=0 then sınıf=a, (E÷er x=1 ve y=0 iken a sınıfında) x if x= 0 ve y=1 then sınıf=a, (E÷er x=0 ve y=1 iken a sınıfında) x if x=0 ve y=0 then sınıf=b, (E÷er x=0 ve y=0 iken b sınıfında) x if x=1 ve y=1 then sınıf=b (E÷er x=1 ve y=1 iken b sınıfında) sorgularına dayanarak elde edilir. (Witten ve Frank, 2005:67)

Karar a÷açlarına dayalı olarak birçok algoritma geliútirilmiútir. Bunlar arasında en yaygın olarak kullanılanları ID3 ve C4.5, CART, SPRINT ve SLIQ algoritmalarıdır. Bu algoritmalar Tablo 5’ de gösterilen kaba kod çerçevesinde çalıúır.

Tablo 5: Karar A÷acı Algoritmalarının Akıú ùeması

Kaynak: Silahtaro÷lu, 2008, s.50

D: Ö÷renme kümesi

T: Kurulacak a÷aç

T=0 // Baúlangıçta a÷aç boú küme

Dallara ayırma ölçütlerini belirle T= Kök dü÷ümü belirle

T= Dallara ayırma kurallarına göre kök dü÷ümü dallara ayır; Her bir dal için

do

Bu dü÷üme gelecek de÷iúkeni belirle

if (durma koúuluna ulaúıldı) yaprak ekle ve dur

else loop

(45)

2.1.1.1 ID3 Algoritması

ID3 algoritması 1986 yılında Quinlan tarafından geliútirilen basit bir karar a÷acı algoritmasıdır. Bölünme ölçütü olarak bilgi kazanımını kullanır. ID3 algoritması, bütün durumlar hedef de÷iúkenin tek bir de÷erine ait oldu÷unda ya da en iyi bilgi kazanç ölçütü sıfırdan büyük olmadı÷ı durumda karar a÷acı geliúimini durdurur (Rokach ve Maimon, 2008:71). ID3 algoritması kategorik de÷iúkenler için kullanılır.

ID3 algoritması entropiye dayalı bir algoritmadır. Karar a÷acında dallanmanın hangi niteli÷e göre yapılaca÷ı kazanç ölçütüne göre belirlenir. Kazanç ölçütünün tespitinde entropi kavramı kullanılır.

Entropi, bilgi kazanımını en çoklamaya dayalı bölümleme için en uygun de÷erin seçimidir. Bundan dolayı bu yönteme dayanarak seçilen bölümleme noktası, sınıflandırma için gerekli bilginin maksimum oldu÷u noktadır. Bu yüzden e÷er bütün de÷erler aynı sınıfa ait olursa entropi de÷eri sıfıra eúit olur (Gorunescu, 2011:169).

Baúka bir tanım olarak entropi, belirsizli÷in ölçüsüdür. Örnek olarak S’ nin bir kaynak oldu÷u varsayılısın. Bu kayna÷ın {m , m ..m } gibi n mesaj üretti÷i1 2 n

düúünülsün. Tüm mesajlar birbirinden ba÷ımsızdır ve m mesajlarının üretilme i

olasılıkları p ‘dır._i P {p , p p ...p }₁ _2, ₃ _n olasılık da÷ılımına sahip mesajlar üreten S kayna÷ının entropisi H(S);

n

i 2 i

i 1

H(S)

¦

p log (p ) (2.1)

formülüyle bulunur (Özkan, 2008:55).

Entropi formülü yardımı ile kazanç ölçütü hesaplanarak dallanma için nitelikler seçilir. Nitelik seçimi için P sınıfına ait p de÷erden ve N kümesine ait n de÷erden oluúan bir C veri seti ele alınsın. E÷er karar a÷acının kökü için {A , A ..A } 1 2 V

de÷erlerine sahip A de÷iúkeni kullanılacak ise bu, C veri setini {C , C ...C } úeklinde1 2 V

parçalara bölecektir. Bu C de÷erleri P sınıfına ait _ø p de÷erden ve N sınıfına ait i ni

de÷erden oluúur. C alt a÷acı için beklenen bilgi ihtiyacı H(_ø p ,i n ) ‘ ye eúittir. Kök i

(46)

v i i i i i 1 p n E(A) H(p , n ) p n

¦

(2.2)

formülüyle hesaplanır (Quinlan, 1986:90). Bunun yardımı ile kazanç ölçütü;

kazanç(A) H(p, n) E(A) (2.3) formülü ile hesaplanır (Quinlan, 1986:90).

Kazanç ölçütleri her bir de÷iúken için tespit edildikten sonra en yüksek kazanç ölçütüne sahip de÷iúken karar a÷acının ilk kökünü oluúturur. Belirlenen kök de÷iúkene ait sınıf de÷erlerde bu kök de÷iúkenin dallarını oluúturur. Bu iúlemler her bir sınıf, hedef de÷iúkene ait olana kadar sürdürülür. Bu úekilde karar a÷acı sonlandırılmıú olur.

2.1.1.2 C4.5 Algoritması

C4.5 algoritması, karar a÷acı oluúturmak için yaygın kullanılan bir algoritmadır. Bu algoritmanın iúleyiúi temel olarak ID3 algoritması gibidir. ID3 algoritmasından farklı olarak kesikli de÷iúkenlerin yanında sürekli de÷iúkenleri de kullanır. Yani C4.5 algoritması yardımıyla sayısal de÷iúenlerde algoritmada kullanılabilir. Sayısal de÷iúkenler gruplandırılarak iúleme sokulur (Berry ve Browne, 2006:82).

C4.5 algoritması, di÷er verilerden öngörerek kayıp de÷erleri de kullanır. Böylelikle daha anlamlı ve daha duyarlı kurallar elde edilebilen bir a÷aç üretilir (Silahtaro÷lu, 2008:56). Bu de÷erleri kullanabilmek için düzeltilmiú bir kazanç ölçütüne ihtiyaç vardır. Düzeltilmiú kazanç ölçütü;

kazanç(A) F(H(p, n) E(A)) (2.4) formülüyle hesaplanır. Burada “F”, düzeltme faktörüdür (Özkan, 2008:81).

Veri tabanında de÷eri bilinen örneklerin sayısı F

Veri tabanındaki tüm örneklerin sayısı (2.5)

Bir veya birden çok alt a÷acı ortadan kaldırarak onların yerine uygun yapraklar koyma iúlemiyle karar a÷açlarının basitleútirilmesine karar a÷acını budama denir. C4.5 algoritması budama iúlemine olanak sa÷lamaktadır. Bir alt a÷acın yerine yaprak koyma iúleminde algoritma, tahmini hata oranını azaltmak ve sınıflandırma modelinin kalitesini arttırmayı hedefler. Ancak hata oranını hesaplamak kolay

(47)

de÷ildir. Yalnızca e÷itim verilerine dayanan hata oranı uygun bir tahmin sa÷lamaz. Tahmini hata oranını öngörmek için, ilave test örneklerinden yeni bir küme oluúturulur. Bu teknik, ilk olarak önceden var olan örnekleri eúit aralıklı bloklara ayırır. Her blok için bu bloklardan beklenen bütün örneklemlerle karar a÷acı oluúturulur ve verilen örneklem blokları ile test edilir. Uygun test ve e÷itim örneklemleri ile karar a÷acı budama iúleminin temel fikri ortaya çıkar. Bu temel fikir, gizli test örneklemlerinin sınıflandırma do÷rulu÷unda katkısı olmayanları a÷acın parçalarından (alt a÷açlardan) çıkarmaktır. Böylelikle daha az karmaúık ve daha anlaúılır bir a÷aç elde edilmiú olur (Kantardzic, 2011:184).

Basit bir veri yı÷ınından oluúturulan karar a÷acının çok büyük çıkmasına úiúme (overfitting) denir. A÷aç oluúturma algoritmaları her zaman úiúme oluútururlar. Oluúan a÷acın çok büyük olması bu etkiyi artırır. A÷acın dengeli olabilmesi için belli bir büyüklü÷ün üstünde olmalıdır. Bu büyüklü arttıkça test verisinin hata oranı yükselmekte ve a÷acın do÷rulu÷u azalmaktadır. Bu durumda a÷aç budama iúlemi kullanılır. E÷itim kümesi ile test kümesinin a÷aç boyuna göre do÷ruluk performansı ùekil 8’ de gösterilmiútir (Yıldırım, 2003:31).

ùekil 8: Karar A÷acı Boyuna Göre Do÷ruluk Performansı

(48)

øki çeúit budama yöntemi vardır bunlar; x Ön budama

x Sonradan budama

Bazı durumlarda örneklem kümesini daha fazla bölmemek kararı alınır. Bölme iúlemine son verme ölçütü olarak ki-kare gibi istatistiksel testler uygulanır. Bölünme öncesine ve sonrasında önemli bir fark yoksa o zaman söz konusu dü÷üm bir yaprak olarak gösterilir. Bu ön budama çeúididir (Özkan, 2008:83).

Seçilen bir do÷ruluk ölçütü kullanarak bazı a÷açlar budanabilir. Bu yöntem a÷aç oluúturulduktan sonra uygulanır. Bundan dolayı bu yönteme sonradan budama denir. C4.5 algoritmasında bu budama yöntemi kullanılır (Özkan, 2008:83). Bu yöntem, kötümser budama olarak da adlandırılır. Örne÷in, “T” , “S” e÷itim kümesinden üretilmiú yapraksız bir karar a÷acı olsun. *

ø

T ise karar a÷acının budanmıúlı÷ını simgelesin. Ek olarak , *

f

T “B” dü÷ümünün en sık gözlenen alt a÷acını ve “L” ise “S” kümesinin en sık gözlenenleri ile sınıflanmıú bir yapra÷ını ifade etsin. Sırasıyla E , _T *

f T

E ve E ise “S” sınıfı içinde, T, _L T ve L tarafından_f* sınıflandırılmamıú durumların sayılarını göstersin. Bunlara göre üç çeúit hata oranı tahminlenebilir (Kohavi ve Quinlan, 1999:8). Bunlar;

x UCF(E , S )T x UCF(E , S )L x UCF( * f T E , S )

Burada “U_CF” ile istatistiksel tablolar kullanılarak hesaplanan binomial da÷ılımı göstermektedir. ”CF” ise güven düzeyini gösterir. C4.5 algoritması genelde % 25‘ lik güven düzeyini kullanır (Kantardzic, 2011:184 ). Bu hata oranlarına göre alt a÷aç, kök dü÷üm haline getirilerek budama iúlemi tamamlanmıú olur.

2.1.1.3 CART Algoritması

CART, sınıflama ve regresyon a÷açları 1984 yılında Breiman tarafından ortaya atılmıútır (Larose, 2005:109). Bu algoritma C4.5 algoritması ile aynı temelde karar a÷acı kurarak karar üretir. CART algoritması da C4.5 gibi en uygun de÷eri

(49)

seçme prosedürünü kullanır. C4.5 ‘in tersine CART algoritması, sadece ikili a÷aç yapımına olanak sa÷lar (Berry ve Browne, 2006:85). økili a÷aç, her dü÷ümün iki dala ayrıldı÷ı a÷aç çeúididir. Bölünme iúlemi, twoing ve gini algoritmalarıyla yapılır. CART algoritmasının en önemli özelli÷i, regresyon a÷acı oluúturmasıdır. Regresyon a÷acında, a÷acın yaprakları bir sınıfı tahminlemez, gerçek sayıları tahminler (Maimon, Rokach, 2005:181). CART algoritmasında her dü÷üm, mümkün bütün bölünmelerle karúılaútırılır ve homojenlik derecesi en yüksek olan özellik seçilir. Budama iúleminde, C4.5 algoritması binomial güven sınırlarını kullanırken CART, en az maliyetli karmaúıklık budama yöntemini kullanır. Bu yaklaúım, tekrar yerine koyma hatası (re-substitution error) yanlılı÷ının, karar a÷acı yaprak sayısını do÷rusal olarak arttırdı÷ını varsayar. Bir alt a÷aca yüklenen maliyet iki terimden oluúur; yerine koyma hatası (re-substitution error) ve karmaúıklı÷ın ölçüsünü gösteren D parametresinin yapraklardaki sayısı. (Kantardzic, 2011:190).

CART algoritmasında iki tip bölünme algoritması vardır; Twoing ve gini. Bölünme için twoing algoritması seçilirse algoritma úu úekilde çalıúır (Özkan, 2008:89);

Adım 1

a. Niteliklerin içerdi÷i de÷erler göz önüne alınarak e÷itim kümesi iki dala ayrılır. Bunlara aday bölünme denir. Bir “t” dü÷ümünde “sa÷” ve “sol” olmak üzere iki ayrı dal bulunur. Bu bölümlenen kümeler t_sa÷ ve t biçimindedir._sol

b. Aday bölünmelerin her biri için P ve _sol P( j / t ) olasılıkları hesaplanır. _sol Burada P( j / t ) ifadesi bir j sınıf de÷erinin sol tarafta olma olasılı÷ını verir. Söz _sol konusu olasılıklarúu úekildedir;

sol sol

t 'daki herbir niteli÷in i lg ili nitelik sütunundaki tekrar sayısı P

E÷itim kümesin deki kayıtların sayısı (2.6)

sol sol

sol

t 'daki kayıtların jsınıfları sayısı P( j / t )