• Sonuç bulunamadı

2.3. İKİLİ LOJİSTİK REGRESYON

2.3.4. Değişken Seçimi ve Model Oluşturma Yöntemleri

Lojistik regresyon analizi kesikli, sürekli, ikili veya bunların karışımı olan veri setlerinin kategorik sonucunu tahmin etmeyi amaçlar. Bunun için bir olayın gerçekleşip gerçekleşmeyeceğini kestirmek ve bu kestirimde hangi değişkenlerin kullanılacağını belirlemek doğru sonuçlara ulaşmak için gereklidir. Sadece kategorik bağımsız değişkenler, sürekli bağımsız değişkenler veya hem kategorik hem de sürekli bağımsız değişkenler yer alabilir (Akgül ve Çevik, 2003:390).

Lojistik regresyon analizine girecek değişken sayısı ne kadar çok olursa bağımlı değişkendeki varyans daha küçük olacak, hata terimi küçülecektir. Fakat bağımsız değişkenlerin her biri ile veri toplamanın getirdiği yük, verilerin belirli bir zamanda elde edilmesi ile hatalar açıklayıcı değişken sayısını düşürmeyi gerektirebilir. Ekonomik zorluklarla birlikte fazla değişkenle veri toplamanın getireceği sistematik hataları azaltabilmek için gerekli ve yeterli sayıda bağımsız değişkenle çalışmak, tahminin doğruluğunu mümkün olduğunca yüksek tutacaktır.

Açıklayıcı değişkenlerin hepsinin açıklanan değişkeni açıklaması için etkili olması her zaman gerçekleşmez. Hatayı açıklayamayan değişkenler, analizin etkinliğini ve tahmin gücünü azaltmaktadır.

Herhangi bir regresyon analizi yapılırken, modelde bulunacak değişkenlerin seçimi için kullanılan yöntemler iki grup ile tanımlanabilir.

2.3.4.1. Tüm Olabilecek Regresyon Denklemleri

İlk adımda belirlilik katsayıları, hataların kareleri ortalaması ve Mallows Cp değerleriyle bütün regresyon denklemini oluşturmak gerekir. İkinci adımda bu denklemlerden, tekrar belirlilik katsayısı, düzeltilmiş belirlilik katsayısı ve Cp değerleri ile en iyi regresyon denklemi elde edilir. n sayıda bağımsız değişken ile oluşturulabilecek tüm regresyon modelleri saptanarak, içlerinden en iyi denklem seçilir. Elde edilen tüm denklemlerde sabit katsayı, gerekirse kukla değişkenler yer alır.

Mümkün olan tüm denklem sayısı 2n sayıda olacaktır. Bu formüllerden birisi

Y = 𝛽 0+ Ɛ denklemidir.

2.3.4.1.1. 𝐑𝟐 Belirlilik Katsayısı

Çoklu regresyon analizinde modeldeki bağımsız değişken sayısı birden çok ise belirlilik katsayısı bağımlı değişkendeki değişmelerin, bağımsız değişkenler tarafından açıklanacak oranı belirler. Modele eklenecek her bir bağımsız değişken belirlilik katsayısını yükseltecektir. Bütün denklemler için belirlilik katsayısı hesaplanmakta, elde edilen katsayılar her grup içerisinde büyükten küçüğe doğru dizilerek en büyük R2 değerine sahip model belirlenir.

2.3.4.1.2. MSE (Mean Square Error- Hata Kareleri Ortalaması) Değeri

Bu değer kullanılarak model seçimi yapılırken, oluşturulan her denklem için bu değer incelenir ve MSE değeri en küçük olan denklem en uygun modeldir.

2.3.4.1.3. 𝐂𝐩 İstatistiğinin Değeri

C.L. Mallows tarafından ortaya atılan Cp istatistiği artıkların kareleri toplamı kullanılarak hesaplanır. Cp değeri en küçük olan model, en uygun modeldir.

Birinci grupta bulunan süreçlerde, birden çok uygun denklem oluşturulabilirse bile sonuçta tek bir regresyon denklemine ulaşılır. Bu yöntem ve süreçlerin en iyi modeli bulacağı kesin olmamakla beraber, uygulamadaki yapı, modeli etkileyecek diğer açıklayıcı değişkenlerin varlığıyla bir tane en iyi denklemden bahsetmek doğru değildir (Draper ve Smith, 1998:327).

2.3.4.2. Stepwise Regresyon Yöntemleri

En uygun denklemi oluşturabilmek için değişik yöntemler bulunmaktadır. Bunlar İleriye Doğru Seçim (Forward Selection), Geriye Dönük Eleme ile Stepwise regresyon yöntemi olarak tanımlanmaktadır.

İkinci grupta bulunan süreçlerde en iyi regresyon modeline ulaşmak için, her seferde modele yeni bir açıklayıcı değişkenin eklenip çıkartıldığı üç farklı yöntem bulunmaktadır.

a) İleriye Doğru Seçim b) Geriye Dönük Eleme

c) Stepwise (adım adım) Regresyon

Çok değişkenli regresyon analizinde, modeli oluşturabilmek için karşılaşılan en büyük sorun, modelde bulunması gereken bağımsız değişkenlerin seçilmesidir. Bağımlı değişkeni etkileyebilecek pek çok sayıda bağımsız değişken bulunur. Bu durumda model kurulması zorlaşır. Bunu gidermek için Stepwise (adımsal) regresyon yöntemleri sıklıkla kullanılır.

Başlangıçta n sayıda bağımsız değişken ile y bağımlı değişkeni arasında, her bir bağımsız değişken için

E(y)= β0 + β1xi denklemiyle ifade edilen tek değişkenli regresyon modelleri elde edilir. Tüm modeller için, H0: β1 = 0 sıfır hipotezi ve H1: β1 ≠ 0 alternatif

hipotezi, t testi ile sınanır. En büyük t değerini veren açıklayıcı değişken, y’nin tek değişkenli en iyi tahmincisi olur, x1 açıklayıcı değişkeni olarak adlandırılır. İlk adımda belirlenen açıklayıcı değişken ile diğer açıklayıcı değişkenlerin (n-1 sayıda) birer birer eklendiği iki değişkenli E(y)= β0 + β1x1+ β2xi ile belirtilen yeni regresyon modelleri elde edilir. Bütün modeller için, H0: β2 = 0 hesaplanarak en büyük t değerini veren değişken, ikinci açıklayıcı değişken x2 olarak modele eklenir. Eklenen x1 ve x2

değişkenleri ile kalan diğer (n-2) sayıdaki değişkenler birer birer modele eklenerek E(y)= β0 + β1x1+ β2x2+ β3xi üç değişkenli modeller oluşturulur. Aynı işlemler tekrarlanarak, x3 bağımsız değişkeni oluşturulur. Bu durum anlamsız t değerinin elde edildiği ana kadar sürer. Belirtilen süreç,tersine doğru da işleyebilir (McClave vd., 2000: 662).

2.3.4.2.1. İleriye Yönelik Seçim Yöntemi

Burada regresyon modeline her seferinde bir açıklayıcı değişken eklenerek en uygun regresyon modeli bulunur. En başta modelde hiçbir açıklayıcı değişken olmaz. Model seçimine bir açıklayıcı değişken ile başlanır. Bu modeller içinde bağımlı değişkenle en büyük korelasyona sahip açıklayıcı değişken modele alınır. Bu değişken, Y açıklanan değişkeni ile en yüksek korelasyona sahiptir. Açıklayıcı değişkenin tahmini katsayısının F istatistik değerine bakılarak en büyük F değerine sahip olan açıklayıcı değişken olduğu görülür. Modele eklenen ilk açıklayıcı değişkenin katsayı tahmininin F değeri, bu yöntemde FIN şeklinde tanımlanır. Daha sonra modele eklenecek değişken,

FIN 'e göre belirlenir. İlk seçilen açıklayıcı değişkenin de bulunduğu iki açıklayıcı değişkenli model içinde tekrar en büyük kısmi korelasyona sahip olan model kullanılacaktır. F değeri, modele eklenen ilk açıklayıcı değişkene ait F değerinden büyükse, o zaman ikinci değişken de modele alınır. Her adımda değişken ile en büyük kısmi korelasyonu olan veya en yüksek kısmi F istatistiğine sahip değişken, eğer FIN değerinden daha yüksek bir F değerine sahip ise modele alınır. Model seçimi böylelikle sürer. İstatistiksel programlar aracılığı ile , modele alınan uygun açıklayıcı değişkenler tespit edilerek, en uygun eşitlik oluşturulur (Miller, 2002: 39-42; Black, 2004:579).

2.3.4.2.2. Geriye Dönük Eleme

Forward selection yönteminde, ilk olarak modelde hiçbir bağımsız değişken bulunmamakta, her seferinde bir açıklayıcı değişken modele eklenir. Geriye Dönük Eleme yönteminde durum bunun tersidir. başlangıçta bütün baçıklayıcı değişkenler modeldedir. her açıklayıcı değişken için kısmi F değeri hesaplanır. F istatistikleri arasında en küçük değeri olan açıklayıcı değişkenin F değeri, FOUT değeri ile adlandırılır. En küçük kısmi F değeri, FOUT değerinden küçük ise, o değişken modelden

atılır. Atılan değişken sonrasında, modelde n-1 sayıda açıklayıcı değişken bulunur. n-1 sayıda değişkenin olduğu model için F değerleri hesaplanarak süreç her seferinde bir açıklayıcı değişkenin modelden atılması ile devam eder (Sen ve Srivastava, 1990:241; Black, 2004:580).

2.3.4.2.3. Stepwise Regresyon

İleriye Doğru Seçim ve Geriye Dönük Eleme Yöntemleri dışında farklı bir yöntem Efroymson(1960) ile açıklanmış stepwise regresyon yöntemidir. Stepwise regresyon, Geriye Dönük Eleme yönteminin değiştirilmiş halidir. Stepwise regresyonda hem İleriye Doğru Seçim, hem de Geriye Dönük Eleme yöntemi kullanılmaktadır. Her adımda modele eklenecek bütün açıklayıcı değişkenler bunların F değerleriyle tekrar belirlenir. FIN ve FOUT değerleri göz önüne alınır. Bağımsız bir değişken için kısmi F

değeri FOUT değerinden küçükse, değişken modelden atılır. Bazı araştırmacılar, çok

fazla gerekli olmasa da FIN = FOUT eşitliğini tercih ederler. Modele bir bağımsız değişken eklemek, bağımsız bir değişkeni çıkartmaktan daha zor olduğu için FIN > FOUT olması uygundur (Montgomery vd., 2012:344; Black, 2004:576).

Üç yöntemde de işlemlerin bitiş noktasını belirlemek için kurallar konmuştur. İleriye Doğru Seçimde, minimum F değeri 1’den küçükse, Geriye Dönük Eleme yönteminde ise minimum F değeri 1’den büyükse işlemler bitirilir. sonuçta tek bir regresyon modeline ulaşılır. Fakat her bir süreçte modele eklenen açıklayıcı değişkenler değişik olabilir. Hangi yöntemin en iyisi olduğunu söylenemez (Chatterjee vd., 1991:237).

Bütün açıklayıcı değişkenlerin bulunduğu bir denklem ile başlayarak, anlamsız olan değişkenlerin modelden atıldığı Geriye Dönük Eleme yöntemini de anlamlıdır. Değişken sayısının çokluğunda, çok sayıda regresyon denklemi oluşacağından, mümkün bütün regresyon modeli sürecini uygulamak zordur.

Benzer Belgeler