Karar Ağaçları 91 - MODELLEME YÖNTEMLERİ 85

4. MODELLEME YÖNTEMLERİ 85

4.3 Karar Ağaçları 91

Bir karar ağacı, bir kök, düğüm kümesi ve kenarlardan oluşan çevrimsel olmayan bir grafiktir. Akış diyagramlarına benzeyen karar ağaçlarında her bir dal bir testin sonucunu, yaprak düğümleri ise sınıfları temsil eder. Bilinmeyen bir örneklemi sınıflandırırken örneklemin özellikleri karar ağacı karşısında sınanır (Rätsch, 2004). Bir karar ağacı sonlu sayıda sınıfı temsil eden sınıflardan oluşur. Bir ağaçtaki düğümler özellik adlarına göre etiketlenir. Kenarlar ise bu özelliklerin olası değerleri ile temsil edilir. Yapraklar farklı sınıfları gösterir. Bir nesne yukarıdan aşağıya bir yol izleyerek ve nesne özelliklerinin değerlerini dikkate alarak sınıflandırılır (Holsheimer ve Siebes, 1994; Jenhani ve diğ., 2008).

Karar ağaçları bir dizi kurala göre sınıf oluşturan hiyerarşik ağaç yapılarıdır. Sınıfların özellikleri dikkate alınarak sınıfların ortaya çıkarılmasına yönelik bir kurallar dizisi oluşturulur. Sınıf özellikleri ad ölçeği, sıra ölçeği veya oran ölçeği gibi ölçek sınıflarında tanımlanabilir. Sınıflar ise niteliksel (sıra ölçeği gibi) türde tanımlanmalıdır. Karar ağaçları modelinin kullanıcılar tarafından yorumlanması

göreceli olarak kolaydır (Fayyad ve diğ., 1996). Bununla birlikte ağaç ve kural gösterimlerine uygulanan bir kısıtlama, model işlevlerini de kısıtlar. Geniş karar ağaçları daha fazla bilgi içermesine rağmen yorumlanması oldukça zordur (Holsheimer ve Siebes, 1994).

Karar ağaçları genellikle soldan sağa ya da kökten aşağıya doğru çizilir. Karar ağaçları veri sınıfının tanımlanması ya da bir örüntünün tahmin edilmesinde kullanılabilir. Karar ağaçlarının veriye göre oluşturulup eğitilmesi nedeniyle bu tekniğe tümevarımsal teknik denir.

Karar ağaçları diğer sınıflandırma yöntemlerinde olduğu gibi öğrenme ve doğrulama olmak üzere iki aşamada değerlendirilir. Öğrenme veri kümesiyle oluşturulan ağaç yapıları test veri kümesiyle sınanır.

Bir karar ağacı sınıflandırma yönteminde ayrıştırmanın iyiliği, homojen olmama ölçütü ile belirlenir (Apaydın, 2004, p. 176). Verilen bir veri kümesinin homojen olması sahip olduğu özelliklere ya da sınıf özelliklerine bağlıdır. Bir tablo sadece tek bir sınıf içerirse bu tablo saf ya da homojendir, denir. Bununla birlikte, bir tablo birden fazla sınıfa sahip ise bu tablo homojen değildir ya da saf değildir. Karar ağaçlarında saf olmamanın sayısal olarak ölçüldüğü birden fazla ölçüm tekniği söz konusudur.

Karar ağacı algoritmalarının temel işlevi seçim ağacındaki her düğümde en uygun değişkenin seçilmesini sağlamaktır. Değişken değerinin ölçüsü bilgi kazanımları olarak verilen bir değerle belirlenir. Bir veri kümesinde hangi özelliklerin veriyi daha homojen ayrıştırdığı bilgi kazançları ile ortaya çıkarılır.

CHAID düzeltilmiş anlamlılık (Bonferroni sınaması) sınamasını kullanan bir karar ağacı yöntemidir. Yöntem bağımlı değişken olarak hem sürekli hem de kategorik değişkeni kullanır. CHAID algoritması 1980 yılında G. V. Kass tarafından geliştirilmiştir (Diepen ve Franses, 2006; Antipov ve Pokryshevskaya, 2009; Trnka, 2010). Yöntem, gruplar arasında istatistiksel olarak anlamlı bir fark olduğunda ayrıştırma işlemine başlar (Pendharkar, 2004; Diepen ve Franses, 2006). CHAID yöntemiyle CART yöntemi çok farklı teorik alt yapılardan gelmelerine rağmen benzer sonuçları ürettikleri gözlenmiştir (Diepen ve Franses, 2006).

CHAID algoritmasında uygulanan adımlar kayıp değerlerin bulunması, ağacın büyütülmesi, durdurma kurallarının uygulanması ve modelin performans ölçümlerinin bulunması olarak sıralanır.

Ağaç büyütme işlemleri iki aşamada gerçekleşir: Birleştirme işlemleri ve ayrıştırma işlemleri. Birleştirme işlemlerinde her bir açıklayıcı değişkenin kategorileri, hedef değişken ile ilişki düzeyleri göz önünde bulundurularak, birleştirilir. Yöntem istatistikteki anlamlılık sınamasını uygulayarak olası tüm durumları değerlendirir. Hedef değişkenine göre istatistiksel açıdan aynı (homojen) olduğu değerlendirilen tüm durumlar birleştirilir; farklı olan durumlara herhangi bir işlem yapılmaz (Trnka, 2010).

Birleştirilebilecek kategori çiftlerinin tüm birleşimleri tespit edilir; her bir çift için hedef değişken ile ilişkisini gösteren p değerleri hesaplanır. Ordinal verilerde sadece komşu kategoriler birleştirilebilirken, diğer değişkenler için bu tip bir kısıtlama yoktur. En büyük p değerine sahip çifte ait p değeri "αmerge" değerinden yüksek ise bu kategoriler birleştirilir. Aksi takdirde, p düzeyi yakın olan kategoriler birleştirilir. Tüm açıklayıcı değişkenler için kategori birleştirmeleri tamamlandıktan sonra en ilişkili açıklayıcı değişken seçilir. Öncelikle her bir açıklayıcı değişken için p değeri hesaplanır ve p değeri "α split" değerinden küçük ise bu değişken ilgili düğümü bölmek için kullanılır.

Birleştirme ve ayrıştırma işlemlerinde F testi ya da ki-kare testi kullanılır. Bağımlı değişken sürekli olması durumunda F testi ve kategorik olması durumunda ki-kare testi uygulanır (Trnka, 2010). Ki-kare testlerinde "Pearson" ve "likelihood ratio" istatistikleri kullanılabilir. Kayıt sayısının az olduğu durumlarda "likelihood ratio" yöntemi tercih edilir.

Durdurma kuraları ağacın büyümesini durduran kuralları içerir. Ağacın büyümesi, yapraklardaki her bir düğümünün durma kıstaslarından en az bir tanesine uyulması durumunda durdurulur. Ağacın büyümesini engelleyen durdurma kuralları mevcuttur. Düğümdeki tüm kayıtların bağımlı değişken değerlerinin aynı olması, ağaç derinliğinin maksimum ağaç derinliğine ulaşması ve düğümlerdeki kayıt sayısının ana düğüm büyüklüğü değerinden düşük olması durumlarında ağacın büyümesi durdurulur.

Oluşturulan modelin performansı "risk tahmini", "kazanç tahmini" ve "kâr tahmini" yaklaşımlarıyla ölçülür. Hedef değişken sürekli ise her bir uç düğümdeki varyansların toplamı risk tahminini verir. Kategorik tahminlerde ise yanlış sınıflandırma oranı ve yanlış sınıflandırma maliyetiyle risk tahmini yapılır.

Kazanç tahminiyle her bir sonlandırma düğümü için doğru sınıflandırma oranına dayalı istatistikler elde edilir. Modelde elde edilen kazanç gösterimleri, belli bir yüzdelik dilimde belli bir kategori için elde edilen doğru tahminlerin sayısının tüm veri kümesindeki doğru tahminlerin sayısına bölünmesiyle elde edilir.

Modelde elde edilen diğer bir kazanç tahmini de "kaldıraç" gösterimleridir. Kaldıraç gösterimi ile belli bir yüzdelik dilimde elde edilen doğru tahminlerin oranının tüm örneklemdeki doğru tahminlerin oranına bölünmesiyle elde edilir.

5. ARAŞTIRMA YÖNTEMİ

Belgede Bilişim Alanında Proje Esaslı Çalışan Firmalarda Ürün Geliştirme Süreçlerindeki Bozucu Etmenlerin Modellenmesi Ve Etkilerinin Belirlenmesi (sayfa 129-133)