Karar ağaçları - Tahmin edici modeller - Veri Madenciliği Modelleri

3.8. Veri Madenciliği Modelleri

3.8.1. Tahmin edici modeller

3.8.1.6. Karar ağaçları

Karar ağaçları, kurgulanmasının, yorumlanmasının ve veri tabanları ile entegrasyonun kolaylığı nedeniyle sınıflandırma problemlerinde en yaygın kullanılan ve adından da anlaşılacağı üzere ağaç görünümünde olan yöntemlerden bir tanesidir. Bir karar ağacı algoritmasının prensipte görevi veriyi yinelemeli olarak alt veri gruplarına dallanma yaparak bölmektir. Bu ayrım aşamasında oluşan her yeni dal bir kuralı ifade etmektedir. Temel olarak iki adımdan oluşur. Birinci adım ağacın oluşturulması, diğer adım ise veri tabanındaki her bir kaydın bu ağaca uygulanarak verilerin sınıflandırılmasıdır.

3.8.1.6.1. CART yöntemi

Breiman tarafından geliştirilen CART modeli gerek kategorik, gerekse sürekli değişkenler arasındaki ilişkileri incelemek için son zamanlarda sıkça kullanılan parametrik olmayan bir modeldir. Tahmin edilmek istenen bağımlı değişkenin kategorik

olması durumunda sınıflama ağaçları kullanılırken sürekli olması durumunda regresyon ağaçları kullanılmaktadır. CART analizi öğrenme ve doğruluk sınaması olarak iki ana aşamadan meydana gelmektedir. Öğrenme aşamasında ayırmanın hangi bağımsız değişken üzerinden yapılacağı belirlenmektedir. Bunun için ilgili kök düğümde yer alan verileri mümkün olan en homojen iki alt düğüme ayıran bağımsız değişken ve bu değişken için bir ayırma eşik değeri belirlenmektedir. Bir düğümün homojenliği safsızlık indeksi ile belirlenmektedir. Uygulamada en çok kullanılan safsızlık indeksleri sınıflama ağaçları için gini ve regresyon ağaçları için LSD indeksleridir (Nisbet, 2009).

Doğruluk sınaması sonucunda elde edilen ağaca maksimal ağaç denilmektedir. Bu aşamada test verisi olarak tespit edilen bir grup veri seti maksimal ağaca uygulanarak bağımlı değişken değerleri tekrar tahmin edilmektedir. Burada amaç test verisinin önceden bilinen gerçek değerleri ile tahmin edilen değerlerini karşılaştırarak modelin gerçeğe ne kadar yakın tahmin yapabildiğini ölçmektir. Literatürde en çok kullanılan doğruluk sınamaları basit gerçeklik, çapraz gerçeklik, n-katlı çapraz gerçeklik ve bootstrapping’tir. Maksimal ağaç doğru tahmin açısından en uygun ağaç olmasına rağmen kullanım açısından çok karmaşık bir yapıya sahiptir. Bunun için uygulamada maksimal ağacın budanması ile elde edilen ve çok daha basit bir yapıya sahip olan optimal ağaç kullanılmaktadır. Budamalar sırasında karmaşıklığı uygun bir seviyeye indirirken tahmin gücündeki hata oranını çok fazla artırmayan bir ağaç optimal ağaç olarak tespit edilmektedir (Breiman, 1984).

CART analizi ağaç yapısına dayalı diğer sınıflama teknikleri ile kıyaslandığında çok sayıda avantaja sahiptir. İlki ve belki de en önemli olan özelliği parametrik olmayışıdır. Diğer bir söyleyişle ön kestirici veya aynı anlama gelmek üzere bağımsız değişken değerlerine ilişkin varsayımlar gerektirmemektedir. Bu nedenle CART analizinde kullanılacak değişkenler çarpık sayısal değişkenler olabileceği gibi, sınıflayıcı veya sıralayıcı yapıya sahip kategorik değişkenler de olabilir. Bu önemli bir özelliktir ve analizi yapacak araştırmacıya, normallik araştırma ve dönüşüm yapma gibi işlemler gerektirmediğinden zaman kazandırmaktadır. CART analizi, ele alınan problem yüzlerce mümkün bağımsız değişkeni içerse bile, bölümlendirilecek tüm mümkün değişkenleri araştırma gücüne sahiptir. CART, ele alman veri kümesi eksik değerler içerdiğinde kullanışlı bir analizdir. Eksik değerler çok fazla olduğunda bu değerler bir vekil değişken olarak ağaç yapısında yer alırlar.

CART analizinin bir başka avantajı da göreceli olarak otomatik bir makine öğrenim tekniği olmasıdır. Diğer bir ifadeyle analizin karmaşıklığı ile kıyaslandığında, araştırmacıya göreceli olarak az miktarda girdi gerekmektedir. Diğer çok değişkenli modelleme yöntemleri araştırmacılara çok fazla girdi gereksinimi yüklemekte, geçici sonuçların analizini gerektirmekte ve ilgili yöntemin modifikasyonu gerekmektedir. CART analizinin avantajlarının yanında dezavantajlarının olduğu da unutulmamalıdır. CART göreceli olarak yeni bir analizdir. CART temel istatistiksel yazılım paketlerinde standart bir analiz tekniği olmadığından yer almamaktadır. Ayrıca işlem zamanı diğer ağaç yapısına dayalı algoritmalar ile kıyaslandığında daha uzundur. Çoklu değil de iki değerli ağaç tekniği olması da bir dezavantaj olarak sayılabilir. Fakat değişken sayısı çok fazla olduğunda veya değişkenlerin çok fazla kategorisinin olması durumunda iki değerli ağaç yapısı daha yorumlanabilir sonuçlar üretebilir (An Intreduction to Classificationand Regression Tree (CART) Analysis, 2004). CART analizi uygulama bölümünde 2012 gelir ve yaşam koşulları araştırması(kesit) veri setine uygulanmıştır. CART analizinin bu veri setine uygulanışının ana nedeni, kümelenen bireyleri etkilenen değişkenleri gösterebilmektir.

Gini indeksi

 Eğer bir T veri seti n farklı sınıftan N örnek içeriyorsa, gini indeks, gini(T) aşağıdaki gibi hesaplanır, pj, j sınıfının T içindeki göreli olasılığı ifade eder.

(3.1)

 Eğer T veri seti T1 ve T2 olarak sırasıyla N1 ve N2 büyüklüğünde ikiye ayrılırsa,

ayrılan veri için gini indeksi

(3.2)

 En düşük gini değerini veren ayrıma sahip değişken seçilir.     n j p j T gini 1 2 1 ) ( ) ( ) ( ) ( 2 ₂ 1 1 T gini N N T gini N N T gini_ayrim  

3.8.1.6.2. CHAID yöntemi

CART’ın dışında en çok kullanılan karar ağacı algoritmalarından biride CHAID’dir. CHAID, optimal bölünmelerin teşhisi için ki-kare istatistiğini kullanan bir yöntemdir. CHAID, bölümlendirrme amaçlı kullanılan etkili bir istatistiksel tekniktir. Bir istatistiksel testin anlamlılığını kriter olarak kullanarak, bir potansiyel ön kestirici değişkenin tüm değerlerini değerlendirir. Hedef değişkene veya aynı anlama gelmek üzere bağlı değişkene göre istatistiksel olarak homojen (benzer) olarak değerlendirilen tüm değerleri birleştirir ve diğer tüm değerleri heterojen (benzer olmayan) olarak değerlendirir. Ardından karar ağacındaki ilk dalın formuna göre en iyi ön kestirici değişkenin seçilmesiyle, her bir düğümün seçilen değişkenin homojen değerlerinin bir grubunu oluşturmasını sağlar. Bu süreç ardıl olarak ağaç tamamıyla büyüyene kadar sürer. Kullanılan istatistiksel test, hedef değişkenin ölçüm düzeyine bağlıdır. Eğer hedef değişken sürekli bir değişken ise, F testi kullanılır. Eğer hedef değişkeni kategorik ise, ki-kare testi kullanılmaktadır. Ayrıntılı CHAID’in ise, hesaplanması uzun zaman alır ve her bir ön kestirici için tüm mümkün bölünmeleri araştırır. Ayrıntılı CHAID, CHAID' in modifiye edilmiş şeklidir. CHAID yönteminin zayıf kalan yönlerini gidermek amacıyla geliştirilmiştir. Bazı durumlarda CHAID, bir değişken için optimal bölünmeyi bulamayabilir. Bu durumda tüm kalan kategoriler istatistiksel olarak farklı bulunduğunda, kategorileri birleştirmeyi durdurur. Ayrıntılı CHAID buna çare olarak yalnızca iki süper kategori kalana değin kestirim değişkeninin kategorilerini birleştirmeyi sürdürür. Ardından ön kestirici için birleşim serilerini inceler, hedef değişken ile en güçlü birlikteliği veren kategori kümesini bulur ve bu birliktelik için düzeltilmiş p değerini hesaplar. Bu nedenle ayrıntılı CHAID, her bir ön kestirici için en iyi bölünmeyi bulur ve bölünme için hangi ön kestiricinin seçileceğine düzeltilmiş p değerlerini kıyaslayarak ulaşır (Oğuzlar, 2004).

Ayrıntılı CHAID, kullandığı istatistiksel testler ve kayıp değerleri değerlendirmesi açısından CHAID’e benzerdir fakat hesaplanması uzun zaman almaktadır. Zamanın sorun olmadığı durumlarda Ayrıntılı CHAID’in kullanılması daha faydalı olacaktır çünkü bazı durumlarda kullanışlı bölünmeler bulabilmektedir. Verilere bağlı olsa da, CHAID ile ayrıntılı CHAID sonuçları arasında farklılık bulunmamaktadır.

Çizelge 3.5. CART ve CHAID arasındaki farklar

METOD CHAID CART

Ayrım Kriteri *Ki-kare İstatistiği *Gini indeksi

Birleşme Süreci *Optimal

*Gruplama benzer testler *İkili gruplama İdeal Ağaç

Büyüklüğünün Belirlenmesi (Genel)

*Minumum bölünmüş boyut *Yaprak başına düşen minimum gözlem

*Güven Aralığı *Ağaç kök derinliği İdeal Ağaç Büyüklüğünün Belirlenmesi (Özel) *Ön budama

*Bağımsız ki-kare test istatistiği

* Son budama

Ne Zaman Kullanışlı?

*Keşif aşaması *Büyük veri seti

*Sınıflandırma Performansı - Güvenilirlik

*Karmaşık olmayan kurgularda

Ne zaman kullanışsız?

*Doğru kurgu oluşturulmasının zorluğu

* Ağaç boyutlarının kurgudan çok kolay etkilendiği durumlarda *Sınıflandırma performansı

*Küçük veri seti

*İkili ağaçlarda her zaman uygun bir metod değildir

Çizelge 3.6. CART ve diğer yöntemlerin sınıflandırması

Karar Ağacı Algoritması Doğru Sınıflandırılmış Örnekler Yanlış Sınıflandırılmış Örnekler Sınıflandırılmamış Örnekler ID3 50,0 47,5 2,5 C4.5 54,2 45,8 0,0 CART 55,8 44,2 0,0

Şekil 3.7. Karar ağaçları sınıflandırılmasındaki hassasiyet ölçütü

Şekil 3.7.’de görüldüğü gibi C4.5, ID3 algoritmasına göre %54,2'lik yüksek düzeyde bulunmuştur. CART algoritması %55,8 bulunmuştur. CART algoritması ile sınıflama yapmak doğruluğu kabul edilebilir yüksek düzeyde olduğu görülmüştür.

CART, CHAID, ID3, C4.5 yöntemleri incelendiğinde uygulanan veri setinde CART yönteminin doğru sınıflama, sınıflandırma performansı ve güvenilirlik açısından daha uygun olduğu söylenebilir. Bu sebeple fert ve hane veri setindeki değişkenlerin sınıflanmasında CART analizi uygulanmıştır.

Belgede Veri madenciliği yöntemleri ve bir uygulama (sayfa 39-44)