• Sonuç bulunamadı

2.8. Veri Madenciliğinin Algoritmaları (Metotları/Teknikleri)

2.8.1. Karar ağaçları

Đstatistiksel yöntemlerde veya yapay sinir ağlarında veriden bir fonksiyon öğrenildikten sonra bu fonksiyonun insanlar tarafından anlaşılabilecek bir kural olarak yorumlanması zordur. Karar ağaçları ise veriden oluşturulduktan sonra ağaç kökten yaprağa doğru inilerek kurallar (IF-THEN rules) yazılabilir [26]. Bu şekilde kural çıkarma (rule extraction), veri madenciliği çalışmasının sonucunun doğrulanmasını sağlar. Bu kurallar uygulama konusunda uzman bir kişiye gösterilerek sonucun anlamlı olup olmadığı denetlenebilir. Sonradan başka bir teknik kullanılacak bile olsa karar ağacı ile önce bir kısa çalışma yapmak, önemli değişkenler ve yaklaşık kurallar konusunda analiste bilgi verir ve daha sonraki analizler için yol gösterici olabilir [19].

Karar ağaçları genellikle sınıflama amacıyla kullanılan bir veri madenciliği tekniğidir. Karar ağacı, akış diyagramına benzer bir ağaç yapısında olup, her bir dal bir testin sonucunu, yaprak düğümleri ise sınıfları temsil eder. Bilinmeyen bir örneklemi sınıflamak için örneklemin nitelik değerleri karar ağacı karşısında test edilir. Kökten, o örneklem için sınıf tahminini içeren yaprak düğümüne kadar bir yol izlenir. Karar ağaçları kolaylıkla sınıflama kurallarına dönüştürülebilir [37]. Diğer tekniklerle karşılaştırıldığında karar ağaçlarının yorumlanması, anlaşılması ve yapılandırılması daha kolaydır [1]. Bu teknikte sınıflama yapılırken ilk önce veri setinden bir ağaç meydana getirilir. Bu ağaç meydana getirildikten sonra veri setindeki her bir kayıt bu ağaca uygulanarak bu kayıt sınıflandırılır.

Veri madenciliğinde karar ağacı modelleri veriyi incelemek ve tahmin yapmak için sıklıkla kullanılmaktadır [9]. Karar ağaçları, yinelenen bölünmelerle verileri farklı gruplara ayırarak büyür ve bu ayırmanın amacı her bölünmede veri grupları arasındaki uzaklığı arttırmaktır [38]. Kategorisel değişkenleri tahmin etmekte kullanılan karar ağaçları, olayları kategori ya da sınıflara ayırdığı için aynı zamanda sınıflama ağaçları (classification trees) olarak da adlandırılır. Sürekli değişkenleri tahmin etmekte kullanılan karar ağaçları ise regresyon ağaçları olarak adlandırılırlar [5].

Tahmin edici ve tanımlayıcı özelliklere sahip olan karar ağaçları, veri madenciliğinde

- Kuruluşlarının ucuz olması, - Yorumlanmalarının kolay olması,

- Veri tabanı sistemleri ile kolayca entegre edilebilmeleri, - Güvenilirliklerinin daha iyi olması

nedenleri ile sınıflama modelleri içerisinde en yaygın kullanıma sahiptir.

Karar ağacı temelli analizlerin yaygın olarak kullanıldığı sahalar, [3]

- Belirli bir sınıfın muhtemel üyesi olacak elemanların belirlenmesi (Segmentation),

- Çeşitli vakaların yüksek, orta, düşük risk grupları gibi çeşitli kategorilere ayrılması (Stratification),

- Gelecekteki olayların tahmin edilebilmesi için kurallar oluşturulması,

- Parametrik modellerin kurulmasında kullanılmak üzere çok miktardaki değişken ve veri kümesinden faydalı olacakların seçilmesi,

- Sadece belirli alt gruplara özgü olan ilişkilerin tanımlanması,

- Kategorilerin birleştirilmesi ve sürekli değişkenlerin kesikliye dönüştürülmesidir.

Karar ağacı temelli tipik uygulamalar ise, [3]

- Hangi demografik grupların mektupla yapılan pazarlama uygulamalarında yüksek cevaplama oranına sahip olduğunun belirlenmesi (Direct Mail),

- Bireylerin kredi geçmişlerini kullanarak kredi kararlarının verilmesi (Credit Scoring),

- Geçmişte işletmeye en faydalı olan bireylerin özelliklerini kullanarak işe alma süreçlerinin belirlenmesi,

- Tıbbi gözlem verilerinden yararlanarak en etkin kararların verilmesi, - Hangi değişkenlerin satışları etkilediğinin belirlenmesi,

- Üretim verilerini inceleyerek ürün hatalarına yol açan değişkenlerin belirlenmesidir.

Gerçek dünyanın sosyal ve ekonomik olaylarını daha güvenilir bir şekilde gösterebilmek için standart istatistik tekniklerin dışında yeni analiz tekniklerinin geliştirilmesi ile ilgilenen Morgan ve Sonquist tarafından University of Michigan’da 1970’li yılların başlarında kullanıma alınan Automatic Interaction Detector – AID karar ağacı temelli ilk algoritma ve yazılımdır. AID tekniği en kuvvetli ve en iyi tahmini gerçekleştirebilmek için bağımlı ve bağımsız değişkenler arasındaki mümkün bütün ilişkilerin incelenmesine dayanmaktadır. Karar ağacı tekniğinin sağladığı kuruluş ve yorumlama kolaylıkları, AID yazılımının başlangıçta istatistikçi ve veri analistleri tarafından büyük çoşku ile karşılanmasına neden olmuştur. Ancak AID’in bağımlı ve bağımsız değişkenler arasındaki ilişkilerin tanımlanmasında aşırı saldırgan davrandığı ve bunun sonucunda anlamlı ve anlamsız ilişkileri ayırt edemediği yönünde Einhorn başta olmak üzere bir çok araştırmacı tarafından yayınlar yapılmıştır.

Đlk temelleri AID yöntemi ile atılan karar ağacı modelleri çeşitli algoritmalar ile sürdürülmüştür.

Geliştirilen bu algoritmalar içerisinde

- CHAID (Chi-Squared Automatic Interaction Detector; G.V. Kass; 1980),

- C&RT (Classification and Regression Trees; Breiman, Friedman, Olshen ve Stone; 1984),

- ID3 (Quinlan; 1986),

- Exhaustive CHAID (Biggs, de Ville ve Suen; 1991), - C4.5 (Quinlan; 1993),

- MARS (Multivariate Adaptive Regression Splines; Friedman),

- QUEST (Quick, Unbiased, Efficient Statistical Tree; Loh ve Shih, 1997), - C5.0 (Quinlan),

- SLIQ (Supervised Learning in Quest; Mehta, Agarwal ve Rissanen),

- SPRINT (Scalable Parallelizable Induction of Decision Trees; Shafer, Agrawal ve Mehta)

Karar ağacı, adında belirtildiği şekilde ağaç görünümünde bir tekniktir. Karar düğümleri, dallar ve yapraklardan oluşur [6].

Karar düğümü : Veriye uygulanacak test tanımlanır. Her düğüm bir özellikteki testi gösterir. Test sonucunda ağacın dalları oluşur. Dalları oluştururken veri kaybı yaşanmaması için verilerin tümünü kapsayacak sayıda farklı dal oluşturulmalıdır.

Dal : Testin sonucunu gösterir. Elde edilen her dal ile tanımlanacak sınıfın belirlenmesi amaçlanır. Ancak dalın sonucunda sınıflandırma tamamlanamıyorsa tekrar bir karar düğümü oluşur. Karar düğümünden elde edilen dalların sonucunda sınıflandırmanın tamamlanıp tamamlanmadığı tekrar kontrol edilerek devam edilir.

Yaprak : Dalın sonucunda bir sınıflandırma elde edilebiliyorsa yaprak elde edilmiş olur. Yaprak, verileri kullanarak elde edilmek istenen sınıflandırmanın sınıflarından birini tanımlar.

Başlangıçta bütün öğrenme örnekleri kök düğümdedir, örnekler seçilmiş özelliklere tekrarlamalı olarak göre bölündükten sonra ağacı temizlemek için (Tree pruning) gürültü ve istisna kararları içeren dallar belirlenir ve kaldırılır. Karar ağacı tekniğini kullanarak verinin sınıflanması üç aşamadan oluşur.

Öğrenme : Önceden sonuçları bilinen verilerden (eğitim verisi) model oluşturulur.

Sınıflama : Yeni bir veri seti (test verisi) modele uygulanır, bu şekilde karar ağacının doğruluğu belirlenir. Test verisine uygulanan bir modelin doğruluğu, yaptığı doğru sınıflamanın test verisindeki tüm sınıflara oranıdır. Her test örneğinde bilinen sınıf, model tarafından tahmin edilen sınıf ile karsılaştırılır.

Uygulama : Eğer doğruluk kabul edilebilir oranda ise, karar ağacı yeni verilerin sınıflanması amacıyla kullanılır.

Benzer Belgeler