• Sonuç bulunamadı

Sınıflandırma ve Regresyon Ağacı Yönteminin Örnek Veri Seti î le Uygulaması

N/A
N/A
Protected

Academic year: 2022

Share "Sınıflandırma ve Regresyon Ağacı Yönteminin Örnek Veri Seti î le Uygulaması"

Copied!
7
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Sınıflandırma ve Regresyon Ağacı Yönteminin Örnek Veri Seti île Uygulaması Duygu AKTÜRK1 Zeki BAYRAMOĞLU2 Ferhan SAVRAN3 dd_akturk@hotmail.com zbayramoglu@selcuk.edu.tr ferhansavran@hotmail.com Doç.Dr., Çanakkale Onsekiz Mart Üniversitesi Ziraat Fakültesi Tarım Ekonomisi Bölümü

2Doç.Dr., Selçuk Üniversitesi Ziraat Fakültesi Tarım Ekonomisi Bölümü

3Yrd. Doç.Dr., Çanakkale Onsekiz Mart Üniversitesi Ziraat Fakültesi Tarım Ekonomisi Bölümü Özet

Sosyal bilimlerde yapılan araştırmalarda değişkenler arasındaki ilişkilerin ölçülmesinin kantitatif olarak yapılabilmesi çalışmanın sonuçlarını daha anlaşılabilir ve kullanılabilir hale getirmektedir. Nitekim birbiri üzerinde etkisinin olduğuna inanılan değişkenlerin etki derecelerinin belirlenmesi için birçok istatistik yöntemler ve ekonometrik modeller geliştirilmiştir. Geliştirilen modeller veri özel­

liğine göre değişmektedir. Geliştirilen bu yöntemlerin birçok varsayımı bulunmakta olup, uygulamayı güçleştirmektedir. Bu nedenle daha az varsayımın olması uygulamayı kolaylaştırmaktadır. Bu çalışmada kesikli ve sürekli verilerin analizinde kullanılabilen sınıflan­

dırma ve regresyon ağacı yöntemi Çanakkale ilinde zeytinyağı tüketici anketinden elde edilen veriler ile anlatılmaya çalışılmıştır.

Anahtar sözcükler: sınıflandırma ve regresyon ağacı, CART, karar ağaçları

Application of Classification & Regression Tree Method With a Sample Data Abstract

Studies on Social Sciences integrative agreements after measuring the quantitative relations between variables can be used as a case study of results can be carried out makes it more understandable and can be used. In fact, effect on other variables is believed to have been for the determination of ratings domain of statistical methods and models have been developed based on econometric mo- dels that we developed. According to data-models are developed. There are several assumption that these methods for the application and they complicate the appication. This is why it is a less hypothesis makes it easier.In this study intermittent and continuous data analysis that can be used in the classification and regression tree method with the data obtained from olive oil consumers in Çanakkale province.

Keywords: Classification & Regression Tree, CART, Decision trees 1. Giriş

Bilimsel çalışmaların yapılması kadar sonuçlarının objektif olarak değerlendirilmesi ve yorumlanması da önemlidir.

Özellikle sosyal bilimler alanında yapılan çalışmalarda, var olan materyallerden gözleme dayalı olarak sonuç çıkarmak subjektif olabilmekte ve değer yargıları içerebilmektedir. Bu şekilde sonuçları yorumlanan çalışmaların kabul edilebilirli­

ği düşük olmakla birlikte, bu sonuçlara göre çıkarım yapmak ve politika üretmek de güvenilir değildir. Nitekim bu durum veri özelliklerine göre değişmekle birlikte fen ve sağlık bilimleri alanlarında yapılan çalışmalar için de böyledir. Yapılan bilimsel çalışmaların sonuçlarının daha anlamlı bir şekilde yorumlanabilmesi ve kullanılabilir sonuçların elde edilebilme­

si için sayısal yöntemlerin kullanılması gerekmektedir.

Sayısal yöntemler alanı oldukça geniş olup veri özelliklerine ve çalışmanın amacına göre farklılıklar göstermetedir.

Bazı sayısal yöntemler (Veri Zarflama Analizi vb.) belirli sorunların çözümü üzerine geliştirilmiş olup, bazıları da (Reg­

resyon Analizi) belirli varsayımları sağlamak şartıyla her alanda kullanılmaktadır. Ancak bu yöntemlerin kullanılmasını güçleştiren sebepler vardır. Bunlar, kullanılabilir veri temin etme ve kullanılan yöntemlerin varsayımlarıdır. Özellikle pa- rametrik yöntemlerle yapılan analizlerde, normal dağılım, homojenlik gibi varsayımların sağlanması şartı gerekmektedir.

Ancak bu varsayımlar her zaman sağlanmamakta ve bu yöntemlerin kullanımı mümkün olmamaktadır. Daha az varsayım gerektiren ancak sonuçları parametrik yöntemlere göre daha az güvenilir olan nonparametrik parametrik olmayan yön­

temler de yaygın olarak kullanılan sayısal yöntemlerdendir. Bu yöntemlerde normal dağılım varsayımı aranmazken veri sayısı bu yöntemlerin kullanılması için bir ön şarttır.

Bu çalışmada kullanımı çok fazla yaygın olmayan ancak bir çok problemin çözümünde kullanılması mümkün olan ve kullanılabilir sonuçlar veren “Sınıflandırma ve Regresyon Ağacı Yöntemi” (Classification & Regression Tree Method, Karar Ağacı) zeytin yağı tüketimi verileri ile açıklanmıştır.

2. M ateryal ve Yöntem

Bu çalışmada kullanılan veriler Nisan 2012 tarihinde Çanakkale şehir merkezinde tüketicilerle yüzyüze anket yön­

temi ile toplanmıştır. Çalışma kapsamında oran ortalamalarına dayalı basit tesadüfi örnekleme yöntemine göre seçilmiş 379 tüketici ile görüşülmüş ve anket soru formları doldurulmuştur. Anket formlarında, tüketicilerin sosyo- ekonomik özellikleri ve zeytinyağı tüketim davranışlarını etkileyebilecek özellikleri ile ilgili bilgiler toplanmıştır. Çalışmada, Sı­

nıflandırma ve Regresyon Ağacı (SRA) yöntemi kullanılmış ve söz konusu yöntemin açıklanmasında zeytinyağı tüketim verileri kullanılmıştır. Analiz için uygun değişken seti oluşturulmuştur. SRA için oluşturulan değişken seti Çizelge 1’de verilmiştir.

(2)

Çizelge 1. SRA için oluşturulmuş değişken seti

Değişken Adı Simge Tipi Sınıflandırm a

Hane Halkı Başına Zeytin Yağı Tüketimi CZY Kategorik 0-5=1 ;5-10=2 ; 10-15 =3 ; 15-20 = 4

Sürekli Kg

Hane Halkı Sayısı (Kişi) CHHS Kategorik

Ortalama Hane Halkı Yaşı CHHY Kategorik 0-35=1 36-50=2 50 ve

üzeri= 3

Alış veriş yapan kişinin yaşı CAVY Kategorik 0-35=1 36-50=2 50 ve

üzeri= 3

Alış veriş yapan kişinin eğitimi CE Kategorik

Okur yazar değil =1;

Okuryazar = 2; İlkokul = 3;

Ortaokul ve dengi = 4; Lise ve dengi = 5; Üniversite = 6; Yüksek lisans/Doktora; 7

Doğum yeri CDY Kategorik Zeytin üreten iller =1

diğerleri = 0

Doğum yeri mülki idari yapısı CDYMY Kategorik

Büyük şehir (Nüfusu bir milyondan fazla)=1;

İl merkezi ( Nüfusu bir milyondan az) =2;

İlçe merkezi =3; Kasaba/

Köy = 4;

Aylık Ortalama Aile Geliri CGLR Kategorik

0-2500=1 2501 - 5000 =2 5001 -7500 = 3;

7501 - 10000 = 4 10001 ve üzeri; 5 Gıda harcamalarının toplam harcamalara oranı CGH Kategorik

Eğitim harcamalarının toplam harcamalara oranı CEH Kategorik Sağlık harcamalarının toplam harcamalara oranı CSH Kategorik Kültür harcamalarının toplam harcamalara oranı CKH Kategorik

Ortalama Hane Halkı Yaşı RHHY Sürekli

Alış veriş yapan kişinin yaşı RAVY Sürekli

Aylık Ortalama Aile Geliri (TL) RGLR Sürekli

Sınıflama ve Regresyon Ağaçı (SRA): Karar ağacı adından da anlaşıldığı gibi ağaç olarak görünen, tahminsel bir modeldir (Koyuncugil ve Özgülbaş, 2008). Değişkenleri parçalayarak bir ağaç oluşturmaya dayanmaktadır (Çinko, 2006). Ağaç yapısı ve kolay kural çıkarımına olanak tanımasıyla oldukça yararlı bir tekniktir. Bu bağlamda karar ağaç­

larının daha çok tıp, endüstri ve mühendislik bilimlerinde yaygın olarak kullanıldığı bilinmektedir (Kayri ve Boysan, 2008, Sugumaran vd., 2007). Ülkemizde ise karar ağacı algoritmalarının kullanımı oldukça yenidir. Karar ağacı algorit­

malarının en önemli avantajı, diğer çok değişkenli tekniklerde sağlanması gereken istatistik varsayımların bu yöntemde olmamasıdır. Ayrıca karar ağacı algoritmalarının bağımlı ve bağımsız değişkenler arasındaki ilişkilerin yönünü, önem sırasını görselleştirmesi de bir diğer avantajıdır. Bu özelliği ile elde edilen sonuçların yorumunu oldukça basitleştirmekte, daha somut ve kullanışlı hale getirebilmektedir (Yılmaz, 2008; Saraçlı ve vd. 2006).

Yöntem literatürde Sınıflandırma ve Regresyon Ağacı olarak adlandırılmakta olup SRA Analizi (CART) olarak bilinmektedir. Yöntem genelde grupların homojenliği üzerinden işlemektedir. Üzerinde çalışılan bağımlı değişkeni etki­

leyen bağımsız değişkenler ilk önce bağımlı değişkeni etkileme durumuna göre değerlendirilmektedir. Bu değerlendirme yapılırken değişkenlerin kendi içerisindeki homojenliği dikkate alınmaktadır. SRA analizi uygulaması sırasında farklı iki yol izlenmekte olup, bunlar CRT ve CHAİD olarak adlandırılmaktadır. CRT yöntemi seçildiğinde bağımlı değişkeni etkileyen bağımsız değişkenler homojen iki gruba ayrılmaktadır. Böylece ağaç yapısı oluşturulmaktadır. Ağaç yapısı oluşturulurken ilk bağımlı değişkenden sonra modele alınan ilk değişken, bağımlı değişkeni en fazla etkileyen değişken­

dir. CRT yönteminde bu etki “improvement” olarak adlandırılan “ilerleme katsayısı ile belirlenmektedir. Bu katsayı ağaç

(3)

yapısı itibari ile yukarıdan aşağıya doğru inildikçe küçülmektedir. Bu değerin herhangi bir alt veya üst sınırı bulunma­

maktadır. Bu değere göre ağaç yapısı oluşturulmaktadır.

Bu yöntemde bağımlı değişkenin yapısına göre karar ağacının ve modelin ismi değişmektedir. Bağımlı değişken kategorik olduğunda model “sınıflandırma ağacı”, sürekli değişken olduğunda ise “regresyon ağacı” olarak adlandırıl­

maktadır (Chang ve Wang, 2006).

Bağımlı değişkeni etkileyen bağımsız değişkenler homojen bir şekilde alt kümelere ayrıldıkları zaman yavru düğüm olarak adlandırılırlar. Ancak alt kümelere ayrılmayan alt düğümler terminal düğüm olarak adlandırılmaktadır.

SRA analizinde diğer bir yol ise CHAİD yöntemidir. Her ikisi de aynı amaçlar için kullanılmakta olup, karar ağacı oluşturma aşamasında farklılıklar bulunmaktadır. Ancak CHAİD yöntemi diğer yönteme tercih edilmektedir. CHAID (Chi-Squared Automatic Interaction Detector-Otomatik Ki-Kare Etkileşim Belirleme Analizi) analizi sınıflandırma ve regresyon ağacı yöntemi içerisinde alt bir analizdir (Albayrak ve Kotlan-Yılmaz, 2009). CHAID analizi ile diğer karar ağaç yöntemleri arasındaki en önemli farklılık ağaç türetiminden kaynaklanmaktadır. Diğer yöntem ikili ağaçlar türetir­

ken, CHAID analizi çoklu ağaçlar türetmektedir (Türe vd., 2009:2020). CHAID analizi ile elde edilecek bir regresyon denklemi, bilinen klasik varsayımlardan (normallik, doğrusallık, homojenlik vb.) bağımsız tutulmaktadır. Çünkü güçlü bir öteleme algoritması (iteration algorithm) ile bütün olan evren kararlı alt düğümlere (node) bölünebilmektedir. Bu işlem ayrıca verilerin dağılımında normalliği ve homojenliği sağlayabilmektedir. Ayrıca CHAID analiziyle sürekli ve kategorik veriler, aynı anda modele dahil edilebilmektedir (Kayri ve Boysan, 2007; Koyuncugil, 2007; Doğan, 2003).

Bir başka ifadeyle bağımlı ve bağımsız değişkenlerin tümünün aynı tip ölçekle ölçülmüş olmasına gerek bulunmamak­

tadır (Saraçlı vd., 2006; Koyuncugil ve Özgülbaş, 2008). Bu nedenle CHAID analizi parametrik ve parametrik olmayan (nonparametrik) ayrımını kaldırmakta ve yöntem algoritmasında istatistiksel olarak yarı parametrik (semi-parametric) bir özellik taşımaktadır (Kayri ve Boysan, 2007).

CHAID analizinde özellikle bağımsız değişkenlerin, birbirleriyle olan ilişki ve etkileşimleri incelenmektedir (Kayri ve Boysan, 2008). Bu nedenle değişkenler arasındaki ilişkileri de test etmektedir. Eğer bağımlı değişken kategorik ise değişkenler arasındaki ilişki Ki-Kare analizi ile, bağımlı değişken sürekli ise F testi ile test edilmektedir. Bu testlerle değişkenler arasındaki bağımlılık da incelenmektedir (Kayri ve Boysan, 2007; Erbaş ve Güneş, 1998; Koyuncugil, 2007;

İmamoğlu, 2005).

CHAID analizi kullanılmasının gerekçeleri şöyle sıralanabilir (Üngüren ve Doğan, 2010).

• Sürekli ve kategorik verilerin aynı anda modele dahil edilebilmesi,

• Bağımlı ve bağımsız değişkenler arasındaki ilişkilerin daha ayrıntılı değerlendirilebilmesi,

• Bağımlı değişkenler üzerinde etkili olan bağımsız değişkenleri bir ağaç diyagramı üzerinde resmederek göstere­

bilme,

• Ağaç diyagramının diğer analiz sonuçlarına göre görsel anlamda daha kolay yorumlanabilmesi,

• Elde edilen sonuçların anlaşılabilirliğini kolaylaştırması.

3. A raştırm a Bulguları 3.1. Sınıflandırm a Ağacı

SRA analizinin yapılmasında Çanakkale ilinde zeytin yağı tüketici veri seti kullanılmıştır. Tüketici davranışlarınn incelenmesinde paremetrik ve nonparemetrik analizlerin yaygın olarak kullanıldığı bilinmektedir. Bu çalışmada kolay veri sağlama ve verilerin farklı yöntemlere uygunluğu nedeniyle tüketim verileri tercih edilmiştir. Bu amaca yönelik ola­

rak zeytinyağı tüketici davranışlarını etkileyen, hane halkı sayısı, ortalama hanehalkı yaşı, alış veriş yapan kişinin yaşı ve eğitimi, doğum yeri, doğum yerinin idari yapısı, aylık ortalama gelir, tüketim harcamalarının oransal dağılımı, ortalama hane halkı yaşı ile ilgili veriler anket yöntemi ile elde edilmiştir. Tüketici davranışlarındaki değişiklikleri incelediğimiz değişken ise hane halkı zeytin yağı tüketim miktarı olarak belirlenmiştir. SRA analizinde bağımlı değişkenin yapısı mo­

delde anlamlılık testleri ve modelin ismi açısından önemli olduğundan, bağımlı değişken sürekli ve katagorik olarak ana­

liz edilmiştir. Bağımlı değişken sınıflandırma analizi yapıldığında 4 katagoriye ayrılmıştır. Katogoriler Çizelge 1’de ve­

rilmiştir. Regresyon Analizinde ise anket aşamasında elde edilen veriler sürekli veri yapısında modele dahil edilmiştir.

SRA analizine göre ağaç yapısı oluştururken ilk önce maksimum ağaç yapısı oluşturulmaktadır. Maksimum ağaç yapısında bütün bağımsız değişkenler bağımlı değişken üzerindeki etkileri dikkate alınarak modele dahil edilirler. Daha sonra etki dereceleri düşük olan ve ilişkileri anlamsız çıkan değişkenler modelden çıkarılır. Bu işlem budama olarak ad­

landırılmaktadır.

Ağaç yapısının başlangıç modülü bağımlı değişken olan hane halkı zeytin yağı tüketimi yer almaktadır. Bağımlı de­

ğişken kategorik olduğu için her kategoriye ait yüzde dağılım, modül içerisinde verilmiştir. Toplam 379 hene halkı verisi alınmış olup, bunun % 65. 2 ’si 0-5 kg, % 25.9’u 6-10 kg, % 6.6’sı 11-15 kg ve % 2.4’sı 16-20 kg arası zeytintağı tüketen hane halklarından oluşmaktadır. Hane halkları zeytin yağı tüketimini en fazla etkileyen faktör hane halkalarının kültürel harcamalarının toplam harcamalar içerisindeki payı olarak belirlenmiştir. Kültürel harcamaların hane halkları toplam har­

camaları içerisindeki payının yüksek olması kültürel düzey ile ilişkilendirilmiş ve kültürel düzeyin zeytin yağı tüketimi üzerindeki etkisinin açıklanması amaçlanmıştır. Zeytin yağı tüketimi ile kültürel harcamalar arasındaki ilişkinin varlığı ki-kare testinde de % 1 önem seviyesinde anlamlı bulunmuştur. SRA analizi ağaç yapısında alt modülleri oluştururken homojenliği dikkate almakta olup, kültür harcamalarım iki alt homojen gruba ayırmıştır. Nitekim kültürel harcamalar

(4)

değişkeni kategorik bir değişken olup, nominal yapıdadır. Bu nedenle kültürel harcamalar değişkeni için oluşturulan alt modüller 1 ve 0 için oluşturulmuştur. Bu değişkende kültürel harcamaları olan hane halkları için 1 ve olmayanlar için sıfır değeri verilmiştir.

Kültürel harcama yapan hane halkalarının sayısı 163 olup, toplam içerisindeki oranı % 43 olarak belirlenmiştir.

Bunların % 76.1’i 5 kg’da daha az zeytin yağı tüketirken, % 18.4’ü 6-10 kg, % 4.3’si 11-15 kg ve % 1.2’si 16-20 kg arası yağ tüketmektedirler. Kültürel harcama yapmayan hane halklarının sayısı 216 olup, toplam içerisindeki payı % 57’dir.

Kültürel harcama yapmayanların içerisinde de 0-5 kg yağ tüketenlerin oranı % 56.9 ile birinci sıradadır.

Kültürel harcama yapmayan 163 kişilik grubun, modele dahil edilen diğer değişkenlerle bir ilişkisi belirlenme­

miştir. Böylece bu grubun aşağıya doğru bir dal yapısı oluşturluması durmuştur. Bu durum “terminal düğüm” olarak adlandırılmaktadır. Kültürel harcamalar yapmayan 216 kişilik grubun zeytinyağı tüketimi açısından eğitim seviyesi ile bir ilişkisinin olduğu belirlenmiştir. Bu ilişki ki-kare testine göre % 5 önem seviyesinde anlamlı bulunmuştur. Kültür harcaması yapmayan 216 kişilik grup iki homojen sınıfa ayrılmıştır. Birinci homojen grup lise mezunu ve daha aşağı seviyede eğitim seviyesine sahip, ikinci grup ise üniversite ve lisans üstü eğitim seviyesine sahiptir. Birinci grupta var olan 151 kişinin % 51.7’si 5 kg’da daha az zeytin yağı tüketirken, % 33.8’i 6-10 kg, % 9.9’u 11-15 kg ve % 4.6’sı 16-20 kg arası zeytin yağı tüketmektedirler. Lisan ve lisansüstü eğitim seviyesine sahip ikinci grup ise 65 kişi olup, % 69.2’si 5 kg’dan daha az zeytin yağı tüketirken, % 26.2’si 6-10 kg, % 4.6’sı 11-15 kg arası zeytin yağı tüketmektedirler. Lisans ve lisans üstü eğitim seviyesine sahip olan grubun modele dahil edilmiş diğer değişkenlerle bir ilişkisi belirlenmemiştir. Bu grup terminal düğüm olarak kalmıştır. Eğitim seviyesi lise ve daha aşağı olan grup için ise eğitim seviyesi ile gelir düzeyi arasında zeytinyağı tüketimi açısından ilişki olduğu belirlenmiştir. Bu ilişki ki kare analizi ile % 5 önem seviyesinde istatiski olarak anlamlı bulunmuştur.

Lise ve daha aşağı eğitim seviyesine sahip olan 151 kişilik bu grup gelir düzeyleri bakımından iki homojen alt gru­

ba ayrılmıştır. Birinci grup aylık geliri 1900 TL ve daha aşağı olan, ikinci grup ise aylık geliri 1900 TL’den fazla olan gruptur. Aylık geliri 1900 TL ve daha az olan grup 52 kişi olup, bunun % 63.5’i 5 kg’da daha az zeytin yağı tüketirken,

% 32.7’si 6-10 kg, % 1.9’u 11-15 kg ve % 1.9’u 16-20 kg arası zeytin yağı tüketmektedirler. İkinci grupta yer alan 99 kişinin ise % 45.5’i 5 kg’dan daha az zeytin yağı tüketirken, % 34.3’ü 6-10 kg, % 14.1’i 11-15 kg ve % 6.1’i 16-20 kg arası zeytin yağı tüketmektedirler.

SRA analizinin en belirgin kullanım amacı sınıflandırma yapmasıdır. Grupları homojen olarak ayırmaktadır. Şekil 1’de de görüldüğü gibi zeytin yağı tüketicilerini homojen bir şekilde sınıflandırmış ve görsel olarak analaşılabilir bir şekilde vermiştir. Her bir terminal düğüm sınıf olarak adlandırılırsa analiz sonucunda dört adet sınıf oluşturulduğu söy­

lenebilir. Buna göre

Birinci sınıf; 163 kişiden oluşup toplam zeytinyağı tüketicilerinin % 43.0’ünü oluşturmaktadır. Bu grubun öne çıkan en belirgin özelliği kültürel harcama yapmasıdır. Bu çalışmada değişken seti hazırlanırken külürel harcama kriteri kültür düzeyi göstergesi olarak kabul edilmiştir. Dolayısı ile Zeytin yağı tüketicilerinin % 43’ünün kültür seviyelerinin yüksek olduğu söylenebilir. Aynı zamanda bu grup eğitim seviyesi, gelir düzeyi, yaş, vs. gibi kriterlere göre homojen bir grup değildir.

ikinci sınıf; 65 kişiden oluşmuş olup, toplam zeytinyağı tüketicilerinin % 17.15’ini oluşturmaktadır. Bu sınıfın temel özelliği kültürel harcama yapmayan ve eğitim seviyesi lisans ve lisans üstü düzeyde olanlardır. Dolayısı ile zeytin­

yağı tüketicilerinin % 17.2’si lisans ve lisans üstü eğitim seviyesine sahip kültürel etkinliklere eğilimi az olan sınıfdır.

Üçüncü sınıf; 99 kişiden oluşmuş olup, toplam zeytinyağı tüketicilerinin % 26.12’sini oluşturmaktadır. Bu grupta yer alan tüketiciler kültürel harcama yapmayan, eğitim seviyeleri lise ve daha düşük düzeyde olan ve gelir seviyeleri 1900 TL’nin üzerinde olanlardır.

D ördüncü sınıf; 52 kişiden oluşmakta olup, toplam zeytinyağı tüketicilerinin % 13.72’sini oluşturmaktadır. Bu grupta yer alan tüketicilerin ortak özelliği ise kültürel harcama yapmayanlar, eğitim düzeyi lise ve daha aşağı düzey ve gelir seviyeleri 1900 TL ve daha aşağı olmasıdır.

(5)

Şekil 1: Sınıflandırma Ağacı

(6)

3.2 Regresyon Ağacı

Bağımlı değişkenin sürekli olduğu SRA analizi sonuçları Şekil 2 ’de verilmiştir. Bağımlı değişken zeytin yağı tü­

ketim miktarı değişkeni sürekli verilerden oluşmuştur. Regresyon Ağacının oluşturulması bağımlı değişkenin kategorik olduğu sınıflandırma ağacı ile aynıdır. Ancak değişkenler arasındaki ilişkilerin test edilmesi ve değişkenlere ait istatistik­

lerin verilmesi farklıdır. Değişkenler arasındaki ilişki F testi ile test edilmekte olup, değişkenlere ait ortalama ve standart sapma gibi istatistikler verilmektedir. Sınıflandırma ağacı ile regresyon ağacının model oluşturma açısından aralarındaki tek fark bağımlı değişkenin yapısıdır. Regresyon ağacında bağımlı değişken sürekli ve sınıflandırmada kategorik ola­

rak belirlenmiştir. Sonuçlarda birbirine benzerdir. Nitekim zeytinyağı tüketimi üzerinde en etkili değişken sınıflandırma ağacında olduğu gibi kültürel düzey göstergesi olan kültürel harcamaların toplam harcamalar içerisindeki payıdır. Kül­

türel harcamalar iki homojen sınıfa, kültürel harcama yapan ve yapmayan olarak ayrılmıştır. Kültürel harcama yapanlar terminal düğüm olup, diğer değişkenlerle aralarında bir ilişki belirlenmemiştir. Bu durum bu grubun homojen olmadığı anlamına da gelmektedir. Kültürel harcama yapmayanlar eğitim düzeylerine göre iki homojen gruba ayrılmış ve her ikisi de terminal düğüm olarak kalmışlardır. Zeytin yağı tüketimi açısından kültürel harcama ile eğitim arasındaki ilişki % 5 önem seviyesinde anlamlı bulunmuştur.

Şekil 2. Regresyon Ağacı

(7)

4. Sonuç

Sayısal analizlerin temel amacı elde edilen verilerden kullanılabilir sonuçlar çıkarmaktır. SRA analizi sonuçları kullanılabilir olmakla birlikte görsel sonuçlar vermekte ve anlaşılabilirliği de kolaylaştırmaktadır. Ayrıca normal dağılım ve homojenlik gibi önkoşulu olmadığı için farklı özellikteki veri setlerine kolaylıkla uygulanabilmektedir. Sınıflandırma ve Regresyon Ağacını her ikisini birden oluşturabilme özelliği olduğundan hem parametrik hem de non-parametrik bir yöntem olarak adlandırılabilir.

K aynakça

Albayrak, A.S. Ve Kotlan-Y ılmaz, Ş. (2009). “Veri Madenciliği: Karar Ağacı Algoritmaları Ve İMKB Verileri Üze­

rine Bir Uygulama”, Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 14(1): 31- 52

Cang, L.Y. and Wang, H.W., 2006. Analysis of traffic injury: An application of non-parametric classification tree techniques. Accident Analysis Prevention, 383 1019-1027

Çinko, M. (2006). “Kredi Kartı Değerlendirme Tekniklerinin Karşılaştırılması”, İstanbul Ticaret Üniversitesi Sosyal Bilimler Dergisi, 5 (9): 143-153

Doğan, İ. (2003). “Holştayn Irkı İneklerde Süt Verimine Etki Eden Faktörlerin CHAID Analizi İle İncelenmesi”, Ankara Üniversitesi Veterinerlik Fakültesi Dergisi, 50: 65-70

Erbaş, S. Ve Güneş, A. (1998). Chaid Analizi, İstatistik Konferansı Bildiri Kitabı, Ankara. C.Ü. İktisadi ve İdari Bilimler Dergisi, Cilt 11, Sayı 2, 2010 51

İmamoğlu, T. (2005), Veri madenciliğinde Karar Ağaçları ile Bir Öğrenci Ders Başarısı Tahmin Aracı, Yayınlanma­

mış Yüksek Lisans Tezi, Kocaeli Üniversitesi Fen Bilimleri Enstitüsü, Kocaeli.

Kayri, M. ve Boysan, M. (2007). “Araştırmalarda Chaid Analizinin Kullanımı ve Baş Etme Stratejileri İle İlgili Bir Uygulama”, Ankara Üniversitesi Eğitim Bilimleri Fakültesi Dergisi, 40(2):133-149.

Kayri, M. ve Boysan, M. (2008). “Bilişsel Yatkınlık İle Depresyon Düzeyleri İlişkisinin Sınıflandırma ve Regresyon Ağacı İle İncelenmesi”, Hacettepe Üniversitesi Eğitim Bilimleri Dergisi, 34: 168-177.

Koyuncugil, A.S. ve Özgülbaş, N., (2008). “İMKB’DE İşlem Gören Kobi’lerin Güçlü Ve Zayıf Yönleri: CHAID Karar Ağacı Uygulaması”, Dokuz Eylül Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 23(1):1-21.

Koyuncugil, A.S. (2007). “Borsa Şirketlerinin Sektörel Risk Profillerinin Veri Madenciliğiyle Belirlenmesi”, Serma­

ye Piyasası Kurulu Araştırma Raporu, Araştırma Dairesi, Ankara.

Üngüren, E. ve Doğan, H. (2010). Beş yıldızlı Konaklama İşletmelerinde Çalışanların İş Tatmin Düzeylerinin CHA­

İD Analiz Yöntemi İle Değerlendirilmesi, C.Ü. İktisadi ve İdari Bilimler Dergisi, Cilt 11, Sayı 2, Sivas

Saraçlı, S., Doğan, İ., Kaygısız, Z. ve Kaya, M. (2006). “Osmangazi Üniversitesi İ.İ.B.F. Öğrencilerinin Bölüm De­

ğiştirmeyi İsteyip İstemediklerinin İncelenmesi”, Eğitim Araştırmaları Dergisi, 22: 179-187.

Sugumaran, V., Muralidharan, V., Ramachandran, K.I. (2007). “Feature Selection Using Decision Tree And Classi­

fication Through Proximal Support Vector Machine For Fault Diagnostics Of Roller Bearing”, Mechanical Systems and Signal Processing, 21(2): 930-942.

Türe, M., Tokatlı, F., Kurt, Ü. (2009). “Using Kaplan-Meirer Analysis Together With Decision Tree Methods (C&RT, CHAID, QUEST, C4.5 and ID3) In Determining Recurrence-Free Survival of Breast Cancer Patients,” Expert Systems With Applications, 36(2): 2017-2026

Yılmaz, Ş.K. (2008). Veri Madenciliği: İstanbul Menkul Kıymetler Borsası Örneği, Yayınlanmamış Yüksek Lisans Tezi, Zonguldak Karaelmas Üniversitesi Sosyal Bilimler Enstitüsü, Zonguldak.

Referanslar

Benzer Belgeler

5 Temel Düzeyde Arapça Konuşur Bir meslek ile ilgili verilen görselden mesleği tanır (devamı) Anlatım Tahta, Bilgisayar,..

kendisini ifade eder ve günlük hayatta karşılaşılan birçok durumla rahatça baş edebilir.. 1.ARAPÇA SEVİYE B1 (320 SAAT) KİŞİSEL BİLGİLER

Cinsiyet, aile öyküsü ve diyabet gibi KAH risk faktörleri açısından alt grup analizi yapıl- dığında hs-CRP seviyesinde gruplar arasında anlamlı fark saptanmazken,

Sırası ile birinci de- rece yakınlarda meme kanseri hikayesi, ikinci derece yakınlarda meme kanseri hikayesi, doğum yapmamış olma, emzirmeme ve yaş, meme kanseri gelişimi için

Seviyeye göre bakıldığında L5-S1 seviyesinde disk hernisi olan hastaların pelvik indeks ve L4 indeks ortalamaları L4-5 ve L3-4 seviyelerinde disk hernisi olan

In other studies, thinking styles based on the theory of mental self-government were exanıined in relation to learning approaclıes (Zhang, 2000b; Zhang & Sternberg,

Aydınlanma Çağı felsefesinin önde gelen filozoflarından biri olan Kant, kendisinden önce yapılmış olan bilgi hakkındaki düşünceleri eleştirel bir biçimde

Şekil 2'den 8'e kadar görüldüğü gibi, işsizlik az oldıığu zaman parasal ücret oranlarındaki değişme haddinde yükselme eğilimi.. (2)