• Sonuç bulunamadı

Lojistik Regresyonlarda Değişken Seçimi

N/A
N/A
Protected

Academic year: 2022

Share "Lojistik Regresyonlarda Değişken Seçimi"

Copied!
10
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Lojistik Regresyonlarda Değişken Seçimi Hasan ÖNDER

(1)

Zeynel CEBECİ

(2)

Özet

Bu çalışmada, lojistik regresyonlarda değişken seçimi yöntemlerinden ileri doğru seçim, geriye doğru eleme, adımsal ve en iyi alt kümeler yöntemleri incelenmiştir. Model yapılandırmasında; bağımlı değişken olarak sınıflandırılmış sütten kesim ağırlığı ve bağımsız değişkenler olarak doğum ağırlığı, ırk, cinsiyet ve doğum tipi analize dahil edilmiştir. Çalışmada Çukurova Üniversitesi, Ziraat Fakültesi Koyunculuk Araştırma ve Uygulama Ünitesi’nden elde edilen veriler kullanılmıştır.

Analizler sonucunda farklı değişken seçimi yöntemlerinin farklı değişkenler içeren modeller oluşturduğu görülmekle birlikte tüm modellerin %5 önem düzeyinde istatistiki açıdan önemli olduğu belirlenmiştir. Bununla birlikte, tüm modellerin cinsiyet ve doğum tipi değişkenlerini içerdiği gözlemlenmiştir.

Sonuç olarak herhangi bir yöntemin bir diğerine üstünlüğü olmadığına ancak en iyi alt kümeler yönteminin tüm olası modellerin incelenmesi açısından önerilebileceği fakat bu yöntemde zaman ve işlem fazlalığından kaynaklanabilecek sorunlardan dolayı adımsal yöntemin de kullanılabileceği sonucuna varılmıştır.

Anahtar Kelimeler : Lojistik Regresyon, Değişken Seçimi, İleri Doğru Seçim, Geriye Doğru Eleme, En İyi Alt Kümeler

Variable Selection in Logistic Regression

Abstract

In this study, forward, backward, stepwise and best subset procedures as variable selection methods in logistic regression were examined. Classified weaning weight as dependent variable, birth weight, bred, sex and birth type as independent variables were determined in the models building. Data obtained from Çukurova University, Agricultural Faculty, Sheep Research and Application Unit, were used.

Analysis showed that, different variable selection methods built models contained different variables but also all models were statistically significant (p<0.05). However, it was found that all models had variables of birth type and sex.

As a result, there is no differences among variable selection methods but best subset procedure may be suggested due to the fact that all possible models can be examined, but in this procedure some problems occure due to spare time and process, so stepwise procedure can also be prefered for this reason.

Key Words: Logistic Regression, Variable Selection, Forward Selection, Backward Elimination, Best Subset

(2)

Giriş

Lojistik regresyon, istatistikte kullanılan bir model oluşturma tekniği olup iki ya da daha fazla sınıfta ifade edilebilen veriler analizde kullanılmaktadır.Modelin amacı, bağımlı değişken (Y) iki değerli veya sınıflandırılmış olduğunda bağımlı değişken ile bağımsız değişken veya değişkenler arasındaki ilişkinin düzeylerini de dikkate alarak en uygun modeli oluşturmaktır.

Modelde genellikle X olarak gösterilen bağımsız değişkenler Y olarak gösterilen bağımlı değişkeni tahmin etmek amacıyla kullanılmaktadır.

Bu şekilde tahmin modeli kullanılmasının nedeni, Y değişkeninin ölçülme masraflarının yüksek oluşu ve yapılacak bu tahminin daha az masrafla ölçülebilen diğer değişkenlerden kesin bir doğruluk ile elde edilmesinin beklenmesidir (Miller, 1990).

Lojistik regresyon bağımsız değişkenlerin sürekli veya kesikli olmasına hiçbir kısıt getirmemektedir. Lojistik fonksiyonun matematiksel olarak kullanımı kolay olup lojistik regresyon parametreleri kolaylıkla yorumlanabilmekte ve bu konuda SPSS, SAS, BMDP gibi pek çok istatistik paket program kullanılabilmektedir (Seven, 1997).

Lojistik regresyon alanındaki ilk çalışmalar 1944, 1953, 1955 yıllarında Berkson tarafından yapılmış olup, 1972 yılında Finney lojistik regresyonu probit analizine bir alternatif olarak önermiştir. Truett ve ark 1967 yılında ve Halpering ve ark ise 1971 yılında lojistik regresyonun, ortalamanın sıfır ve varyansın bir olduğu normal dağılım varsayımları bozulduğunda diskriminant analizine alternatif olarak gösterilebileceğini savunmuşlardır. 1975 yılında Koch, eklemeli olasılık modellerindeki etkileşimi yok etmek için lojistik regresyonu önermiştir (Seven, 1997).

Lojistik regresyon son 20 yıldan bu yana yaygın olarak kullanılır hale gelmiştir. Günümüzde lojistik regresyon askeri konularda, deneysel verilerin analizinde, meteorolojide, iç göç hareketlerinde, eğitim alanında kullanılmakla birlikte yaygın olarak tıp biliminde kullanılmaktadır (Seven, 1997).

Bağımlı değişkendeki varyasyonu açıklamak için kurulan bir regresyon eşitliğine girecek değişken sayısı ne kadar çok olursa, eşitlik

o kadar küçük hata taşımaktadır. Ancak, gerek bağımsız değişkenlerin her birisiyle ilgili gözlem elde etmenin getireceği yük, gerekse bu gözlemleri belirli bir zaman aralığında yapma mecburiyetinin getirebileceği zorluklar ve olası hatalar bağımsız değişken sayısını azaltmayı zorunlu kılabilir. Bu nedenle, tahminin doğruluğu mümkün olduğunca yüksek tutulmalı; ayrıca ekonomik yük ve zorlukların yanı sıra, fazla değişkenle ilgili veri elde etmenin getirebileceği sistematik hataları mümkün olduğunca azaltabilecek sayıda bağımsız değişkenle çalışılması araştırıcılar için oldukça önemlidir (Düzgüneş ve ark, 1987).

Lojistik regresyon denkleminin matematiksel gösterimi aşağıdaki şekilde yapılabilir:

Burada,

Y: bağımlı değişken, β: Regresyon katsayıları, X: bağımsız değişkenler, u: hata terimini göstermektedir.

Denklemin diğer bir gösterimi aşağıdaki şekilde verilebilir.

=

= 1 ... ) (

Y X1 Xp P

∑= +

∑= +

+

p

j jXj

p

j jXj

e e

1 1

1

β α

β α

Bu çalışmanın amacı yukarıda söz edilen olumsuzlukların giderilmesi ve araştırıcıların gereksiz zaman, emek ve kaynak israfını önlemek için lojistik regresyonlarda değişken seçimi yöntemlerini ve özelliklerini açıklayarak araştırıcılara model yapılandırması hakkında bilgi sunmaktır.

=

+

=

p

k

i ik k

i x u

y

0

β

(3)

Materyal ve Metot Materyal

Bu çalışmada Çukurova Üniversitesi, Ziraat Fakültesi, Zootekni Bölümü koyunculuk Ünitesi’ nden elde edilen veriler kullanılmıştır.

Bağımlı değişken olarak Sütten Kesim Ağırlığı (SKA) belirlenmiş ve 16 kg’ a eşit ve yüksek olanlar 1, düşük olanlar ise 0 ile sınıflandırılmıştır.

Bağımsız değişkenler Doğum Ağırlığı (DA; sürekli değişken), Irk (IRK; kesikli değişken, sınıflandırmada yedi ırk kullanılmış olup bunlar;

Kilis, G1 İvesi, Çukurova, Tahirova, İvesi, Kasaplık Rambouliet olup numaralandırma sırası ile 1, 2, 3, 4, 5, 6 olarak yapılmıştır), Cinsiyet (CINS; kesikli değişken, erkek için 0, dişi için 1 kodlaması yapılmıştır) ve Doğum Tipi (DT; kesikli değişken, tekiz doğumlar için 0, ikiz ve çoğuz doğumlar için ise 1 kodlaması yapılmıştır).

Analizde 95 adet kayıt kullanılmıştır. Analizlerde SPSS 9.05 istatistik paket programı kullanılmıştır.

Metot

Doğrusal regresyon modeli ile lojistik regresyon modeli arasındaki temel fark, doğrusal regresyonda bağımlı değişken için sürekli tipte olma zorunluluğu olması ve dağılışın normal dağılış varsayımlarına uyma zorunluluğuna karşın lojistik regresyonlarda bağımlı değişkenin kesikli tipte verilerden oluşması ve dağılış için herhangi bir varsayımın bulunmamasıdır.

Lojistik regresyonlarda bağımlı değişken sınıflandırılmış olduğundan doğrusal regresyonda kullanılan yaklaşımlar bozulmaktadır. Bağımlı değişken yi' nin beklenen değeri,

) 1 (

) 0 ( 0 ) 1 ( 1 ) (

=

=

= +

=

=

i

i i

i

y P

y P y

P y

E

x x

olup aynı zamanda yi' nin 1 değerini alama olasılığı demektir, regresyon denklemi olarak gösterilirse:

=

=

=

=

p

k

ik k i

i P y x

y E

0

) 1 ( )

( β

olarak yazılabilir. Burada denklemin sağ tarafı olasılık olarak yorumlanabileceği değişim aralığı

0 ≤ P(yi=1) ≤ 1 şeklindedir. Yi bağımlı değişken değerlerinin ikili olduğu regresyon modeline

“doğrusal olasılık modeli” denir. eşitlikte verilen modelin olasılık değeri üzerine yapılan P(1-P) dönüşümü bağımlı değişkenin sınırlarını (0,∞) arasında yapar. Sınırları (-∞, +∞) yapmak için bu oranın doğal logaritması alınır. Böylece oluşan yeni bağımlı değişken değerleri bağımsız değişkenlerin bir doğrusal fonksiyonu gibi yazılabilir (Seven, 1997; Miller, 1990).

Modeldeki parametreler, sabiti α ve lojistik regresyon katsayısı βj olan uygun verilerden tahmin edilmelidir. Modelin yapısı nedeniyle tahmin, en küçük kareler prensibinden daha çok maksimum olabilirlik (ML) prensibine dayanmaktadır. Maksimum olabilirlik aşağıdaki şekilde gösterilebilir (Dayton, 1992).

=

=

=

n

j

ip i

i X X

Y P L

1

1

... ) (

=

= +

= +

= +

















 +









+

= n

j

Y

p

j jXj

Y

p

j jXj

p

j jXj

i i

e e

e

1

1

1 1

1

1 x 1 1

β α β

α β α

Lojistik regresyonlarda modelin katsayılarını tahmin etmek amacıyla, maksimum olabilirlik (Maximum Likelihood), yeniden ağırlıklandırılmış iteratif en küçük kareler (Reweighted Iterative Least Square, RILS) ve minimum logit ki-kare gibi yöntemler kullanılabilmektedir (Hosmer ve Lemeshow,1989;

Şahin,1999).

Değişken Seçimi

Çoklu lojistik modellerde değişkenlerin modele katılmasında veya çıkartılmasında olabilirlik oran ölçütü, modeldeki değişkenlerin katsayılarının anlamlılığını test eden Wald ölçütü (W) ve Skor ölçütleri kullanılabilmektedir (Tatlıdil, 1996). Lojistik regresyonda değişken seçimi yöntemleri olan ileriye doğru seçim (forward selection), geriye doğru eleme (backward elemination), adımsal seçim (stepwise selection) ve tüm olası alt kümeler seçim (all subset selection)

(4)

yöntemleri bir çok araştırmacı tarafından incelenmiştir.

İleri Doğru Seçim Yöntemi

Yöntem, modelden değişkenlerin çıkarılması veya eklenmesi için, değişkenlerin önemini kontrol eden istatistiksel bir karar kuralına dayanmaktadır.

Bu yöntemin avantajı değişkenlerin Ki- kare, Wald ve Lojistik Regresyon (LR) istatistikleri ile karşılaştırılabilmesidir.

İleri doğru değişken ekleme yönteminde analize, bilinen önemli kovaryansları kapsayan sıfırıncı adım ile başlanır. Daha sonraki adımlarda diğer değişkenler ile devam eden yöntem aynı zamanda en etkin modeldeki değişkenler arasında mümkün olabilen etkileşimleri de belirler.

Adım(0)

Bu adımda, üzerinde çalışılan bağımlı değişken üzerinde önemi olan k tane bağımsız değişken olduğu varsayıldığında, ele alınan modelin uyumluluğunun ve log-olabilirliğin hesaplanması ile başlar. k tane tek değişkenli lojistik regresyon modeli oluşturulur ve bu modellerin log-olabilirlikleri karşılaştırılır.

L0 sıfırıncı adımda sadece sabitin olduğu modelin log-olabilirliği, Lj(0) ise sıfırıncı adımda xj

değişkenini içeren modelin log-olabilirliği olduğunda,

) (

2

(0)

) 0

(j Lj Lo

G

= −

kullanılarak her bir değişkeni için “olabilirlik oran testi” nin değerleri hesaplanır. Bu işlemlerin ardından sıfırıncı adımda her bir xj değişkeninin gözlenmesi olasılığı,

) )

(

Pr(

2 (0)

) 0

( j

j v G

P

= χ >

x

j

sürekli ise v=1 x

j

k-düzeyli ise v=k-1

olmak üzere Pj(0) değerleri hesaplanır. En küçük P (olasılık) değerini veren değişken en önemli değişken olarak belirlenip modele dahil edilir.

Bu şartlar altında, PE den küçük Pi olasılığını veren değişken modele dahil edilir.

Pe1(0), sıfırıncı adımda iken, en küçük Pj değerini 1.

adımda modele girecek aday değişkeni göstermek üzere Pe1(0) < PE olduğu sürece işlem 1. adımda devam edebilir aksi takdirde analize son verilebilir.

Adım(1)

1. adımda yapılacak olan ilk iş ‘xe1’ i içeren lojistik regresyon modelinin oluşturulmasıdır. xe1 değişkeni modelde iken geriye kalan k-1 değişkenin önemli olup olmadığını belirlemek amacıyla içinde xe1 i bulunduran xj=1,2,3,...,k ve j≠e1 olan k-1 adet model oluşturulur; Le1(1); 1. adımda içerisinde sadece xe1 i bulunduran modelin log-olabilirliği, Le1j(1) ise 1. adımda içinde hem xe1 hem de xj değişkenini bulunduran modellerin log- olabilirlikleri göstermek koşulu ile xe1 i kapsayan modeller için olabilirlik oran testi değerleri hesaplanır.

Pe2(1), hesaplanan Pj(1) değerlerinin minimumu olmak üzere en küçük Pe2(1) i veren değişken xe2 modele alınacak ikinci aday değişken olur. Pe2<PE ise analize devam edilir aksi halde analiz durdurulabilir.

İşlemler bu şekilde S'inci adıma kadar sürdürülür.

Adım(S)

S'inci adımda Pej>PE durumu gerçekleşmiştir yani bundan sonra modele değişken ilave edilemez. Bu durumda model tüm değişkenleri içerebileceği gibi modele değişken girememiş de olabilir ya da bağımsız değişkenlerden bir kısmı modele dahil edilmiş olabilir. İleriye doğru seçim yönteminde modele giren bir bağımsız değişken daha sonraki adımlarda modelden atılamamaktadır. Bu, bağımsız değişkenler arasındaki kısmi korelasyon katsayılarının önemine göre modelin doğruluğunu olumsuz yönde etkilemektedir.

Modelde çok fazla bağımsız değişken bulunduğunda ve değişkenlerin önemli bir kısmı modele girebilecek önem düzeyinde olduğunda analiz işleminin uzun sürmesine neden olacaktır.

(5)

Geriye Doğru Eleme Yöntemi Adım(0)

Bu yöntemin esası, ilk olarak modelin tüm bağımsız değişkenlerle birlikte kurulması ve ardından bağımsız değişkenlerin elenmesi işlemidir. Bu model de “İleri Doğru Seçim Yöntemi” ile aynı varsayımlar kullanılır.

Adım(1)

Bu adıma tüm bağımsız değişkenlerin bulunduğu modelin yapılandırılması ile başlanmaktadır. k adet bağımsız değişkenden rast gele seçilen xej bağımsız değişkeni modelden çıkartıldığında oluşan modelin log-olabilirliği Lej varsayıldığında, içerisinden xej çıkartıldığında diğer değişkenlerle oluşturulan modellerin olabilirlik oran testi

) (

2

1 2(1) (1)

) 1 (

e e

e

ej L L

G

= −

ve p değerleri de P-e(1) olduğunda, bağımsız değişkenin modelden atılıp atılmayacağını belirlemek için en yüksek P değerini veren değişken seçilerek modelden atılır. Bu değişken xr2 ile gösterilmektedir. Pr2(1) = max(P-e1(1), P-e2(1)) şeklinde gösterilebilmektedir.

İşlem bu şekilde S'inci adıma dek sürmektedir.

Adım(S)

Bu aşamada modelde herhangi bir bağımsız değişken olmayabileceği gibi hiçbir bağımsız değişken de modelden çıkarılmamış olabilir. Ya da bu iki durum arasındaki her hangi bir olası alt küme modellenmiş olabilir.

Adımsal Seçim Yöntemi

Adımsal lojistik regresyon yönteminin kullanılması bir çok değişkenin hızlı ve etkin bir şekilde incelenmesini ve değişkenlerin regresyon eşitliklerine uyumunu sağlar.

Adımsal yöntemde de yukarıda bahsedilen varsayımlar kullanılır. Adımsal yöntem İleri Doğru Seçim ile Geriye Doğru Eleme yöntemlerinin birleştirilmiş uygulamalarını içerir.

Adımsal yöntemin sakıncası, modelde olmayan bütün değişkenlerin katsayılarının maksimum olabilirlik tahminlerinin her adımda tek

tek hesaplanması gereğidir. Bu durum çok değişkenli büyük örneklerde hem para hem de zaman açısından tercih edilmeyebilir

Adım(0)

Bu adımda, üzerinde çalışılan bağımlı değişken üzerinde önemi olan k tane bağımsız değişken olduğu varsayıldığında, ele alınan modelin uyumluluğunun ve log-olabilirliğin hesaplanması ile başlar. k tane tek değişkenli lojistik regresyon modeli oluşturulur ve bu modellerin log-olabilirlikleri karşılaştırılır. En küçük P (olasılık) değerini veren değişken en önemli değişken olarak belirlenip modele dahil edilir.

Adımsal lojistik regresyon, değişkenlerin önemliliği değerlendirilirken “alfa seviyesi” nin de kullanılmasına imkan tanıdığı için tercih edilen bir yöntemdir.

PE=0.05 güvenli bir sonuç vermeyebilir ve bu durumda önemli değişkenlerden bazıları model dışında kalmış olabilir. Bu olumsuzluğun engellenmesi amacıyla PE önem seviyesinin 0.15 ile 0.20 arasında tutulması önerilebilir. PE seçimi ne olursa olsun değişkenin G için P değeri PE' den küçük olduğu sürece modele dahil edilmektedir.

Pe1(0) < PE olduğu sürece işlem 1. adımda devam edebilir aksi takdirde analize son verilebilir.

Adım(1)

1. adımda yapılacak olan ilk iş ‘xe1’ i içeren lojistik regresyon modelinin oluşturulmasıdır. xe1 değişkeni modelde iken geriye kalan k-1 değişkenin önemli olup olmadığını belirlemek amacıyla içinde xe1 'i bulunduran xj=1,2,3,...,k ve j≠e1 olan k-1 sayda model oluşturulur. Pe2<PE ise analize devam edilir aksi halde analiz durdurulabilir.

Adım(2)

2. adımda, hem xe1 i hem de xe2 yi içeren modelin uydurulmasıyla başlanmalıdır. xe2 'nin modele girmesiyle xe1 'in modeldeki etkinliği kaybolabilir, bu nedenle 2. adımda geriye doğru bir eleme işleminin yapılması gerekebilir. Bu işlem genellikle bir önceki adımda modele giren değişken için yapılır.

Değişken eleme işleminin yapılıp yapılamayacağına ve elenecek ise hangi değişkenin

(6)

modelden atılacağına karar verildikten sonra 2.

adımda ileriye doğru seçime devam edilebilir.

Mümkün olan k-2 tane j=1,2,3,...,k J≠e1 için xe1 ve xe2 'yi kapsayan model oluşturulur. Her oluşturulan model için log-olabilirlikler ve oran testleri hesaplanır. Bu işlemlerin ardından, bunlara karşılık gelen P değerleri hesaplanarak min(Pj(2)) değeri olan Pe3(2) ü veren xe3 modelle alınacak aday değişken olur. Eğer Pe3(2)<PE ise bir sonraki adıma geçilebilir, aksi takdirde analiz sonlandırılır.

Adım(S)

S inci adımda iki durum söz konusu olabilir, bunlar:

1. Bütün değişkenler modele girmiş olabilir.

2. Modelde bulunan bütün değişkenlerin P değerleri PR den küçük olabilir ki bu durumda P değeri PE 'yi aştığında modele bağımsız değişken girmeyebilir.

Model bu aşamada PR ve PE değerleri için önemli olan değişkenleri içerir. Eğer istatistiksel önemlilik için doğru bir PR ve PE değerleri seçilmişse S'inci adımdaki model en önemli değişkenleri içerir. PR ve PE değerleri için daha az önemli değerler seçilmesi durumunda, son model için adımsal işleyişi özetleyen tablodan değişkenleri seçmek gerekebilir.

İleri Doğru Seçim Wald Yöntemi

Yöntemin esası İleri Doğru Seçim yöntemiyle aynı şekilde olup değişkenlerin karşılaştırılmasında Wald istatistiği kullanılmaktadır. Wald test istatistiği parametrelerin maksimum olabilirlik tahmininin (

β ˆ

1) kendi standart hatasının tahmini ile karşılaştırılmasıyla elde edilebilmektedir. β1=0 hipotezi altında, sonuç oranı standart normal dağılışını göstermektedir (Hosmer ve Lemeshow, 1989). Maksimum olabilirlik tahmin edicisinin büyük örnek özelliklerine dayanarak, örnek genişliği büyük olduğunda yaklaşık olarak standart normal şans değişkeni gibi davranış gösteren

1 1 1

ˆ ˆ

β β β

Var

niceliğiyle gösterilebilir.

Böylece, H11≠0 a karşı H01=0 'ın testi yaklaşık olarak H01=0, Z istatistiğine dayanan standart normal dağılışa sahip olan

β ˆ

1

/

Var

β ˆ

1 , Z istatistiğinden temel almaktadır ki bu test istatistiği Wald test istatistiği olarak adlandırılmaktadır. Wald istatistiği modelde bulunan sürekli değişkenlerin ölçümünü yapabildiği gibi kesikli değişkenlerin de ölçümünü yapabilmektedir (Kleinbaum ve ark., 1998).

Wald test istatistiğinin genel formülleri aşağıda verilmiştir.

ˆ ) ˆ (

ˆ

1 1

β β

E

W

=

S veya

1 1 1

ˆ ˆ

β β β

W Var

=

Geriye Doğru Eleme Wald Yöntemi

Bu yöntemin işleyişi Geriye Doğru Eleme yöntemiyle aynı olup değişkenlerin karşılaştırılmasında Wald test istatistiği kullanılmaktadır.

En iyi Alt Kümeler Yöntemi

Lojistik regresyondaki bu yaklaşım doğrusal regresyonla aynıdır. Bu yöntemin esası, tüm değişkenlerin kombinasyonlarını içeren regresyon denklemlerinin oluşturulmasıdır. Bu çapraz yöntem kareler toplamı matrisinin çapraz ürün doğrusal yaklaşımı için Furnival-Wilson algoritmasının uygulamasını içermektedir. Bu yaklaşım maksimum olabilirlik tahminini vermektedir. Seçilen modeller, tüm değişkenleri içeren modelle olabilirlik oran testi ile karşılaştırılır.

En iyi altkümeler yönteminde maksimum olabilirlik tahmini iteratif olarak belirlenir ve

β ˆ = (

X

'

VX

)

1X

'

Vz olarak gösterilebilir. Burada z vektörü gerçek olmayan değerleri içermektedir, z

=

X

β ˆ +

V1r ve burada

) ˆ ( − π

= y

r olup kalıntılar vektörüdür.

Doğrusal regresyon paket programını kullanarak lojistik regresyon paket programında maksimum olabilirlik uyumunun sonuçlarını tekrarlamak için gerçek olmayan değerlerin her durumu için hesaplama yapmak gerekmektedir.

(7)

ˆ ) 1 ˆ (

ˆ ) ˆ (

) ' , 1 (

i i i i

i

x yi

z

π π

β π

− + −

=

ˆ ( 1 ˆ )

) ˆ ˆ (

ˆ

1 0

i i p i

j j j

x yi

π π β π

β −

+ − +

= ∑

=

ˆ ) 1 ˆ (

ˆ ) ( ˆ )

1 ( ln ˆ

i i

i i

i yi

π π

π π

π

− + −

 

 

= −

ve ağırlıklı durumda,

ˆ ) 1 ˆ

i

(

i vi

= π − π

dir.

πˆ

i, zi ve vi değerlerini hesaplamak için ihtiyaçduyulan uyumu sağlanmış (

πˆ

) değerleridir.

Bu işlemi takiben, bağımlı değişken için zi, bağımsız değişkenler vektörü için xi ve ağırlıklandırılmış durum için vi değerlerini kullanarak doğrusal regresyon programı kullanılabilmektedir.

Doğrusal regresyonla muameleye devam edildiğinde uyumdaki kalıntılar,

ˆ ) 1 ˆ (

ˆ ) ) (

( ˆ

i i

i i i

i

z y

z

π π

π

= −

ve program tarafından işlenen kareler toplamının eklemeli kalıntısı,

∑ ∑

= =

= −

n

i

n

i i i

i i i

i i

z y z v

1 1

2 2

) ˆ 1 ( ˆ

) ˆ ) (

ˆ

( π π

π

şeklinde hesaplanır. Bu denklem maksimum olabilirlik lojistik regresyon programında pearson χ2 istatistiğidir. Böylece, en iyi alt kümeler lojistik regresyon çözümü için her hangi bir en iyi alt kümeler doğrusal regresyon programı kullanılabilmektedir.

En iyi alt kümeler doğrusal regresyonda temel olarak üç kriter değişken seçiminde kullanılmaktadır. Bunlar R2, Düzeltilmiş R2, Mallows’ un Cq sidir. Mallows’ un Cq si ise,

) 1 ( ˆ

2

− + 2 +

=

RSS n q

Cq q

σ

şeklindedir.

Doğrusal regresyonda Cq kullanıldığında modeldeki parametre sayısı istenilen standartlara ulaşabilir. Bu konunun detaylarına inildiğinde, eğer Cq, q+1 den küçük ise oluşturulan modelin hatası tüm değişkenleri içeren modele göre daha küçük olmaktadır. Cq değeri, q+1 e yaklaştığında ise oluşturulan model tüm değişkenleri içeren modele göre daha fazla hataya sahip olmaktadır.

Ölçüm, tüm k değişkenlerini içeren alt küme Cq=k+1 olduğunda ise kendi değeri üzerinden oluşturulmaktadır. Doğrusal regresyon paket programları Cq değeri en küçük olan modeli en iyi model olarak seçmektedir.

Kullanıcılar, önemli bir kritik gelişmeye sahip olmayan en iyi alt kümeler stratejisi tarafından önerilen değişkenleri kabul ederken, yanlışlıklara karşı dikkatli olmalıdırlar aksi takdirde değişken seçiminde hatalarla karşılaşılabilir (Hosmer ve Lemeshow, 1989). Cq

istatistiğini minimize eden veya düzeltilmiş R2 değerini maksimize eden model en iyi model olarak seçilebilir (Simonoff, 1997).

Bulgular ve Tartışma

Değişken eleme işlemi yapılmadan uygulanan lojistik regresyon analizi sonuçları, Model anlamlılığının testinde Ki-kare değeri 8 serbestlik derecesinde 31.430 bulunmuş olup önem seviyesi 0.0001 bulunmuştur. Modelin –2 Log- olabilirliği ise 99.385 olarak bulunmuştur.

Değişkenlerle ilgili analiz sonuçları ise Çizelge 1’de verilmiştir.

Çizelge 1. Değişken Seçimi Olmaksızın Yapılan Lojistik Regresyon Analizinde Değişken Özellikleri

Değişken β Wald Önem Düzeyi DA 0.3260 0.9919 0.3193

IRK Irk(1) Irk(2) Irk(3) Irk(4) Irk(5)

-1.2564 -0.6874 -1.9371 -1.6617 -2.0374

8.2866 0.1411

CINS 1.1219 4.7572 0.0292 DT 1.8083 6.5672 0.0104

(8)

Verilere uygulanan İleri Doğru Seçim yönteminin istatistiki analiz sonuçları; Model anlamlılığının testinde Ki-kare değeri 2 serbestlik derecesinde 21.292 bulunurken, önem seviyesi de 0.00 olarak bulunmuştur. Modelin –2 Log- olabilirliği ise 109.552 olarak bulunmuştur.

Değişkenlere ait analiz sonuçları Çizelge 2’de verilmiştir.

Çizelge 2. İleri Doğru Seçim Lojistik Regresyon Yöntemiyle Yapılan Analiz Sonuçlarına Göre Değişken Özellikleri

Değişken β Wald Önem Düzeyi

CINS 1.2346 6.7649 0.0093

DT 1.7268 13.0636 0.0003

Verilere uygulanan geriye doğru eleme yönteminin istatistiki analiz sonuçları; Model anlamlılığının testinde Ki-kare değeri 6 serbestlik derecesinde 21.292 bulunurken, önem seviyesi de 0.0016 olarak elde edilmiştir. Modelin –2 Log- olabilirliği ise 109.552 olarak bulunmuştur.

Değişkenlere ait analiz sonuçları Çizelge 3’de verilmiştir.

Çizelge 3. Geriye Doğru Eleme Lojistik Regresyon Yöntemiyle Yapılan Analiz Sonuçlarına Göre Değişken Özellikleri

Değişken β Wald Önem Düzeyi

CINS 1.2346 6.7649 0.0093 DT 1.7268 13.0636 0.0003

α=0.05;0.10 önem düzeyinde verilere uygulanan değişken ekleme başlangıçlı adımsal seçim yönteminin istatistiki analiz sonuçları aşağıda verilmiştir. Model anlamlılığının testinde Ki-kare değeri 2 serbestlik derecesinde 21.292 bulunurken, önem seviyesi 0.0000 bulunmuştur.

Modelin –2 Log-olabilirliği ise 109.552 olarak bulunmuştur. Değişkenlere ait analiz sonuçları Çizelge 4’de verilmiştir.

Çizelge 4. α=0.05;0.10 Önem Düzeyinde Değişken Ekleme Başlangıçlı Adımsal Lojistik Regresyon Yöntemiyle Yapılan Analiz Sonuçlarına Göre Değişken Özellikleri.

Değişken β Wald Önem Düzeyi CINS 1.2346 6.7649 0.0093 DT 1.7268 13.0636 0.0003

α=0.05;0.10 önem düzeyinde verilere uygulanan değişken eleme başlangıçlı adımsal seçim yönteminin istatistiki analiz sonuçları aşağıda verilmiştir. Model anlamlılığının testinde Ki-kare değeri 7 serbestlik derecesinde 30.454 bulunurken, önem seviyesi de 0.0001 olarak bulunmuştur. Modelin –2 Log-olabilirliği ise 100.390 olarak elde edilmiştir. Değişkenlere ait analiz sonuçları Çizelge 5’de verilmiştir.

Çizelge 5. α=0.05;0.10 Olasılık Düzeyinde Değişken Eleme Başlangıçlı Adımsal Lojistik Regresyon Yöntemiyle Yapılan Analiz Sonuçlarına Göre Değişken Özellikleri.

Değişken β Wald Önem Düzeyi

IRK Irk(1) Irk(2) Irk(3) Irk(4) Irk(5)

-1.2484 -0.5340

-

1.7878 -1.8984 -1.9423

8.0809 0.1518

CINS 1.1497 5.0920 0.0240

DT 2.1948 13.1732 0.0003

Verilere uygulanan ileri doğru seçim Wald istatistiği yönteminin istatistiki analiz sonuçları;

Model anlamlılığının testinde Ki-kare değeri 2 serbestlik derecesinde 21.292 bulunurken önem seviyesi de 0.00 olarak bulunmuştur. Modelin –2 Log-olabilirliği ise 109.552 olarak bulunmuştur.

Değişkenlere ait analiz sonuçları Çizelge 6’da verilmiştir.

(9)

Çizelge 6. İleri Doğru Seçim Wald İstatistiği Lojistik Regresyon Yöntemiyle Yapılan Analiz Sonuçlarına Göre Değişken Özellikleri.

Değişken β Wald Önem Düzeyi CINS 1.2346 6.7649 0.0093 DT 1.7268 13.0636 0.0003

Verilere uygulanan geriye doğru eleme Wald istatistiği yönteminin istatistiki analiz sonuçları; Model anlamlılığının testinde Ki-kare değeri 2 serbestlik derecesinde 21.292 bulunurken önem seviyesi ise 0.0000 olarak bulunmuştur.

Modelin –2 Log-olabilirliği de 109.552 olarak bulunmuştur. Değişkenlere ait analiz sonuçları Çizelge 7’de verilmiştir.

Çizelge 7. Geriye Doğru Eleme Wald İstatistiği Lojistik Regresyon Yöntemiyle Yapılan Analiz Sonuçlarına Göre Değişken Özellikleri.

Değişken β Wald Önem Düzeyi CINS 1.2346 6.7649 0.0093 DT 1.7268 13.0636 0.0003

Çizelge 8. En İyi Alt Kümeler Yöntemi Lojistik Regresyon Analiz Sonuçları

SPSS 9.05 istatistiki paket programında en iyi alt kümler analizini doğrudan yapılamamaktadır. Bu nedenle değişken kombinasyonları tek tek analiz edilmiştir. Analiz sonuçları Çizelge 8’de verilmiştir.

Araştırma bulgularından anlaşılabileceği gibi farklı değişken seçme yöntemleri arasında modele dahil edilen bağımsız değişkenler bakımından farklılıklar bulunabilmektedir.

Bulgular incelendiğinde DA bağımsız değişkeninin hiçbir yöntem tarafından modele dahil edilmediği görülmektedir. IRK bağımsız değişkeni de yine modele genellikle dahil edilmemiştir ancak adımsal yöntemde α önem düzeyi yükseltildiğinde IRK değişkeni modele girebilmektedir. CINS ve DT bağımsız değişkenleri ise her yöntemde modele dahil edilmiştir.

Değişken eleme işlemleri yapıldıktan sonra oluşan modellerin önem düzeyleri kontrol edildiğinde geriye doğru eleme işlemi dışındaki yöntemler arasında önemli farklılıklar bulunmadığı görülmektedir.

En iyi alt kümeler yöntemi sonuçlarına bakıldığında ise sadece CINS ve DT bağımsız değişkenlerini içeren modellerin en iyi önem düzeyine sahip oldukları görülmektedir.

Değişken -2 Log

Olabilirlik

Uyum İyiliği Model χ2 S.D. Model Ö.D.

DA 120.613 95.205 10.231 1 0.0014

IRK 120.496 95.000 10.348 1 0.0660

CINS 124.068 94.996 6.776 1 0.0092

DT 116.772 95.000 14.072 1 0.0002

DA*IRK 110.740 89.911 20.104 6 0.0027

DA*CINS 114.589 96.561 16.258 2 0.0003

DA*DT 115.723 95.118 15.121 2 0.0005

IRK*CINS 116.200 93.571 14.644 6 0.2320

IRK*DT 105.741 93.313 25.103 6 0.0003

CINS*DT 109.552 95.598 21.292 2 0.0000

DA*IRK*CINS 106.642 90.873 24.202 7 0.0010

DA*IRK*DT 104.390 91.033 26.484 7 0.0004

DA*DT*CINS 108.897 96.501 21.947 3 0.0001

DT*IRK*CINS 100.390 92.622 30.454 7 0.0001

DA*IRK*CINS*DT 99.385 91.262 31.459 8 0.0001

(10)

Değişken seçimi yöntemleri arasında, modele dahil edilen değişkenlerde oluşan bu farklılıklar, analizde kullanılan veri setinden ve/veya söz konusu yöntemlerin yapısından kaynaklanabilir.

Sonuç

Bu çalışmada lojistik regresyonlarda değişken seçimi işlemleri arasında oluşturulan modellerin önem düzeyi açısından önemli farklılıklar olmamakla birlikte, yöntemlerin modele farklı değişkenleri dahil edebileceği görülmüştür. Değişken seçimi yöntemlerinden En İyi Alt Kümeler Seçim Yöntemi oluşturulabilecek tüm modellerin değerlendirmeye alınabilmesi nedeniyle tercih edilebilir. Fakat, En İyi Alt Kümeler Yöntemi diğer yöntemlere göre daha fazla zaman ve işlem gerektirmektedir. Eğer zaman ve işlemden tasarruf edilmek isteniyor ise diğer yöntemler tercih edilebilir.

Adımsal yöntem, ileri doğru seçim yönteminde modele alınan değişkenin modelden çıkartılamaması ve geriye doğru eleme işleminde modelden çıkartılan değişkenin tekrar modele dahil edilememesinden kaynaklanan eksiklikleri tamamlaması nedeniyle tercih edilebilir.

Lojistik regresyonlarda bazen, araştırma sahasındaki etkisinin önemli olduğu bilinen bazı değişkenler modele giremeyebilir. Bu gibi durumlarda araştırıcının konu hakkındaki bilgisi ve tecrübesi ile bu değişken modele dahil edilebilir.

Böyle bir durumda, zorlamalı değişken (forced variable) ile oluşturulan model “Tam Model”

yöntemiyle tekrar analiz edilmeli ve β değerleri ile diğer model parametreleri yeniden hesaplanmalıdır.

Bağımlı değişkenin sürekli olduğu ancak sınıflandırılarak analiz edildiği durumlarda, hatalı sınıflandırmalardan kaynaklanabilecek sapmalar dikkat edilmesi gereken bir diğer konudur. Bu olumsuzluğun engellenmesi amacıyla hatalı sınıflandırmalardan kaynaklanabilecek sapmaların düzeltilmesi ile ilgili işlemlerin yapılması gerekebilir.

Kaynaklar

Dayton, M.C., 1992. Logistic Regression Analysis.

URL Adresi:

http://www.education.umd.edu/EDMS/LR A/LRA.html (erişim tarihi: 06/11/2000).

Düzgüneş, O., Kesici, T., Kavuncu, O. ve Gürbüz, F., 1987. Araştırma ve Deneme Metodları (İstatistik Motodları - II). 381 , Ankara Üniversitesi, Ziraat Fakültesi Yayınları, Ankara.

Hosmer D. W., Lemeshow S., 1989. Applied Logistic Regression. 307 , John Wiley and Sons inc., New York

Kleinbaum, D. G., Kupper, L. L., Muller, K. E., and Nizam, A., 1998, Applied Regression Analysis and Other Multivariable Methods, 798, Duxbury Press, 511 Forest Lodge Road Pacific Grove, CA 93950 USA

Miller, A. J., 1990, Subset Selection in Regression, 229 , Chapman and Hall, London

Seven, Z., 1997. Değişken Seçimi Yöntemi Olarak Adımsal Lojistik Regresyon İle

Adımsal Diskriminant Analizinin Karşılaştırılması, Gazi Üniversitesi Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi.

Simonoff J. S., 1997. An Anusual Episode.

URL Adresi:

http://amsat.org/publications/jse/v5n1/h andout.html

(Erişim Tarihi: 09/07/2001)

Şahin, M., 1998. Lojistik Regresyon ve Biyolojik Alanlarda Kullanımı. Kahramanmaraş Sütçü İmam Üniversitesi, Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi.

Tatlıdil, H., 1996. Uygulamalı Çok Değişkenli İstatistiksel Analiz, 464, Cem Web Ofset Ltd. Şti. Anakara

Referanslar

Benzer Belgeler

Bu rastgele değişkenlerin kareler toplamı ki-kare rastgele değişkenlerini verir... Dağılım sıfır noktasına

Anahtar Kelimeler: Lojistik Merkez Seçimi, Lojistik Merkez Yerleşimi, Aksiyomatik Tasarım, Karma Tam Sayılı Programlama (MILP), Karınca Kolonisi Algoritması Lojistik

e-İçerik sağlayıcı 7 firma e-İçeriklerini Bakanlığımıza Eğitimde FATİH Projesi kapsamında hibe etmiştir... EBA (Eğitim

1 ANTALYA GENÇLİK MERKEZİ GENÇLİK SPOR KULÜBÜ EMİLİ EKİCİ 2 BURSA BÜYÜKŞEHİR BELEDİYESPOR KULÜBÜ ESLEMNUR GEZEN 3 ADANA GENÇLİK SPOR KULÜBÜ DOĞA GÜLEKEN 4

SinterlenmiĢ tungsten karbür (WC) takımlar abrazyon, kenar kırılması, plastik deformasyon, difüzyon, oksidasyon ve kimyasal aĢınmalar sebebiyle hurdaya

denendiği araştırmada, yeni geliştirilen filtrelerin kullanıldığı araçların içindeki çok küçük parçacık miktarının standart filtrelerin kullanıldığı araçlara

Statik basma yüksekliğinin bulunmadığı Hs=0 durumunda pompanın maksimum verim eğrisi sistem karakteristiği ile üst üste geldiği için pompa daima en iyi verim noktasında

Migren ve MKP arasındaki muhtemel ilişkiyi araştıran, gerek yaptığımız bu çalışmada, gerekse diğer birçok çalışmada görüldüğü gibi migrenli