Sınıflandırma ve Regresyon Ağacı (SRA) (CART) Algoritması

6. ARAŞTIRMAYA UYGULANAN ANALİZ YÖNTEMLERİ

6.2. Sınıflandırma ve Regresyon Ağacı (SRA) (CART) Algoritması

İlk olarak 1984 yılında Breiman ve arkadaşları tarafından sınıflandırma ve regresyon ağacı çalışmalarına başlanmıştır. Sınıflandırma ve regresyon ağacı algoritmasında esas olan, bağımsız değişkenlerin birbirleriyle ve bağımlı değişken yada değişkenlerle olan ilişkilerini ağaç şeklinde bir modelde incelemektir. Sınıflandırma ve regresyon ağacı, verileri alt gruplara ayırmakla birlikte bütün bağımsız değişkenleri kullanmaktadır (Teksin, 2018).

Sınıflandırma ve regresyon ağacı algoritmasında esas olan, bağımsız değişkenlerin birbirleriyle ve bağımlı değişken yada değişkenlerle olan ilişkilerini ağaç şeklinde bir modelde incelemektir. Sınıflandırma ve regresyon ağacı, verileri alt gruplara ayırmakla birlikte bütün bağımsız değişkenleri kullanmaktadır (Teksin, 2018).

Bu analizde bağımlı değişkenin yapısına göre karar ağacının ve modelin ismi değişmektedir. Bağımlı değişken kategorik olduğunda model “sınıflandırma ağacı”, sürekli değişken olduğunda ise “regresyon ağacı” olarak adlandırılmaktadır (Cang ve Wang, 2006).

Analiz literatürde Sınıflandırma ve Regresyon Ağacı olarak adlandırılmakta olup SRA Analizi (CART) olarak geçmektedir. Analiz genelde grupların homojenliği üzerinden işlemektedir. Üstünde çalışılan bağımlı değişkeni etkileyen bağımsız değişkenler ilk önce bağımlı değişkeni etkileme durumuna göre dikkate alınmaktadır. Bu değerlendirme yapılırken değişkenlerin kendi içerisindeki homojenliği dikkate alınmaktadır. SRA analizi uygulaması sırasında farklı iki yol izlenmekte olup, bunlar CRT VE CHAİD olarak adlandırılmaktadır. CRT yöntemi seçildiğinde bağımlı değişkeni etkileyen bağımsız değişkenler homojen iki gruba ayrılmaktadır. Böylece ağaç yapısı oluşturulmaktadır. Ağaç yapısı oluşturulurken ilk bağımlı değişkenden sonra modele alınan ilk değişken, bağımlı değişkeni en fazla etkileyen değişkendir. CRT yönteminde bu etki “improvement” olarak adlandırılan ilerleme katsayısı ile belirlenmektedir. Bu katsayı ağaç yapısı itibariyle yukarıdan aşağıya doğru inildikçe küçülmektedir. Bu değerin herhangi bir alt ve üst değeri bulunmamaktadır. Bu değere göre ağaç yapısı oluşturulmaktadır. (Bayramoğlu ve ark., 2012).

Sınıflandırma bir öğrenme algoritmasına dayanmaktadır. Öğrenmenin amacı, bir sınıflandırma modelinin yaratılmasıdır (Teksin, 2018).

Sınıflandırma ve regresyon ağaçlarının en tepesinde, bağımlı değişken yer almaktadır. Ağacın yapısında bağımlı değişkene “kök düğümü” adı verilmektedir. Öncelikle kök düğüm, ağaç yapısının oluşabilmesi için iki dala ayrılmaktadır. Bu

dallara “ebeveyn dalı” adı verilmektedir. Kök düğümü etkileyen ebeveyn dalları alt kümelere ayrıldıklarında “yavru düğüm” olarak adlandırılır. Ancak ebeveyn dallarını etkileyen alt düğümler alt kümeler oluşturmuyorsa bu durumda alt düğümlere “terminal düğüm” adı verilir (Teksin, 2018). Bağımlı değişkeni etkileyen bağımsız değişkenler homojen bir şekilde alt kümelere ayrıldıkları zaman yavru düğüm olarak adlandırılırlar. Ancak alt kümelere ayrılmayan alt düğümler terminal düğüm olarak isimlendirilmektedir (Bayramoğlu ve ark., 2012).

Sınıflandırma ve regresyon ağaçlarının oluşabilmesi için öncelikle ağacın büyümesi, daha sonra da optimal ağacın oluşabilmesi için de ağacın budanması gerekmektedir. Ağaçta oluşan fakat sonucu etkilemeyen ve sınıflandırmada katkısı olmayan dalların ağaçtan alınması işlemine “budama işlemi” denilmektedir. Sınıflandırma regresyon ağacında budama işleminin uygulanmasının amacı ağacın oluşumunda en başından itibaren modele dahil edilen değişkenlerin, ağacın büyümesiyle tekrar modele dahil olmasını engellemektir. Budama işlemine, ağaca en az katkı sağlayan düğümden başlanmaktadır. Budama işleminin amacı, ağaca önemli derecede katkı sağlayan düğümlerin kalmasını sağlamaktır (Teksin, 2018).

Sınıflandırma ve regresyon ağacı analizinde ağaç yapısı bağımlı değişkeni en fazla etkileyen bağımsız değişkenlerin yukardan aşağıya doğru ikili dallanmalar oluşturulması şeklinde meydana gelmektedir. Bağımlı değişkenleri etkileyen bağımsız değişkenlerin ilerleme katsayısı belirlenmektedir. Katsayı, ağaç yapısına uygun olarak yukarıdan aşağı doğru inildikçe küçülmektedir. İlerleme katsayısının alt ve üst sınırı bulunmamaktadır (Teksin, 2018).

Şekil 3: Sınıflandırma Ağacı Şeması

KÖK

DAL DAL

CART algoritmasında ağaç yapısının oluşması üç temel unsurdan meydana gelmektedir. Bunlar “ağacın oluşturulması”, “budama”, “en uygun ağaç yapısının oluşturulması” şeklindedir (Teksin, 2018).

SRA analizinde diğer bir yol ise CHAİD yöntemidir. Her ikiside aynı amaçlar için kullanılmakta olup, karar ağacı oluşturma aşamasında farklılıklar bulunmaktadır. Ancak CHAİD yöntemi diğer yönteme tercih edilmektedir. CHAİD (Chi- Squared Automatic Interaction Detector-Otomatik Ki-Kare Etkileşim Belirleme Analizi) analizi sınıflandırma ve regresyon ağacı analizi yöntemi içerisinde alt bir analizdir (Albayrak ve Kotlan-Yılmaz, 2009).

CHAİD analizi ile diğer karar ağaç yöntemleri arasındaki en önemli farklılık ağaç şeklinden kaynaklanmaktadır. Diğer yöntem ikili ağaçlar türetirken, CHAİD analizi çoklu ağaçlar türetmektedir (Türe ve ark., 2009).

CHAİD analiziyle sürekli ve kategorik veriler, aynı anda modele dahil edilebilmektedir. Başka bir ifadeyle bağımlı ve bağımsız değişkenlerin tümünün aynı tip ölçekte ölçülmüş olmasına gerek bulunmamaktadır (Koyuncugil ve Özgülbaş, 2008); (Saraçlı ve ark., 2006). Bu nedenle CHAİD analizi parametrik non-parametrik ayrımını kaldırmakta ve yöntem istatistiksel olarak yarı parametrik (semi-parametric) bir özellik taşımaktadır (Kayri ve Boysan, 2007).

CHAİD analizinde özellikle bağımsız değişkenlerin birbirleriyle olan ilişki ve etkileşimleri incelenmektedir. Bu nedenle değişkenler arasındaki ilişkileri de test etmektedir. Eğer bağımlı değişken kategorik ise değişkenler arasındaki ilişki Ki-Kare analizi ile bağımlı değişken sürekli ise F testi ile test edilmektedir. Bu testlerle değişkenler arasındaki bağımlılık da incelenmektedir (Bayramoğlu ve ark., 2012). CHAİD analizi kullanılmasının gerekçeleri şöyle sıralanmaktadır (Üngören ve Doğan, 2010):

• Sürekli ve kategorik verilerin aynı anda modele dahil edilebilmesi,

• Bağımlı ve bağımsız değişkenler arasındaki ilişkilerin daha ayrıntılı değerlendirilebilmesi,

• Bağımlı değişkenler üzerinde etkili olan bağımsız değişkenleri bir ağaç diyagramı üzerinde resmederek gösterebilmesi,

• Ağaç diyagramının diğer analiz sonuçlarına göre görsel anlamda daha kolay yorumlanabilmesi,

Belgede Kentten- köye mevsimlik göçün tarım sektörüne sosyo-ekonomik etkileri; Konya ili Altınekin ilçesi örneği (sayfa 67-70)