KALİTATİF TAHMİN EDİCİLER İÇİN LOJİT MODELLER

Sıradan regresyon gibi Lojistik regresyonda, çoklu açıklayıcı değişkenler içeren modeller için genişletilir. Ayrıca bu açıklayıcı değişkenlerden bazıları ya da tümü kantitatif nitelikten daha çok kalitatif nitelikte olabilir. Bu bölümde kalitatif

48_{Köşegen matris: Ana köşegen öğelerinden en az biri sıfırdan farklı olup öteki öğeleri sıfır olan}

169

tahmin edicilerin (genellikle faktör olarak adlandırılmaktadırlar) dahil edilmesi için

kukla değişkenlerin (dummy variable) kullanımı gösterilmektedir. Daha sonra çoklu lojistik regresyon modellerinin genel şekli ele alınacaktır.

4.4.1. Lojit Modellerde Kukla Değişkenlerin Kullanımı

Varsayalım ki iki sonuçlu bir yanıt değişkeni (Y), X ve Z gibi iki sonuçlu bir tahmin ediciye sahip olsun. Her bir açıklayıcı değişken için iki seviye (0,1) şeklinde gösterilsin. 2×2×2 boyutlu bir kontenjans tablosuna göre, π (Y=1)olasılığı için model aşağıdaki şekildedir ve iki tahmin ediciye göre ayrı ana etkilere sahiptir:

z x

lojit(π)=α +β₁ +β₂ . Bir faktör, başka bir faktörün her bir seviyesinde aynı etkiye sahip ise etkileşimin olmadığı varsayılır. Bu modeldeki x ve z değişkenleri kukla değişkenlerdir (dummy variables). Bu değişkenler tahmin edicilerin kategorilerini ifade etmektedir (Agresti, 1996; Powers ve Xie, 2000). Z’ nin belirli bir z seviyesinde x=0’ dan x=1’ e doğru meydana gelen değişimin lojiti üzerindeki etki aşağıdaki şekildedir:

[

α +β1(1)+β2

] [

− α +β1(0)+β2

]

=β1

= z z

İki lojit arasındaki bu fark logaritmik oddslarının farkıdır ve Z değişkeninin belirli bir seviyesinde X ve Y değişkenleri arasındaki odds oranının logaritmasına eşittir. Bundan dolayı exp(β1) ifadesi X ve Y değişkenleri arasındaki koşullu odds

oranının tanımıdır. Z değişkeni kontrol altında tutularak, x=1 için başarı olasılığı (Odds’u); x=0 için bulunan başarı olasılığının (odds’unun), exp(β1) katına eşittir. Bu

koşullu odds oranı Z değişkeninin her bir z seviyesinde aynıdır. Modelde bir etkileşim teriminin olmaması Z değişkeninin her iki seviyesine göre oluşturulan kısmi tablolar için ortak bir odds değerinin olduğunu göstermektedir. Model homojen bir birliktelik sağlamaktadır. Eğer β1=0 ise bu durumda ortak odds oranı 1’ e eşittir

ve Z değişkeni kontrol altına alınarak X ve Y değişkenleri arasında koşullu bir bağımsızlık vardır. Böylece üç yönlü tablo için aşağıdaki biçimde ifade edilen daha basit bir model uygulanır: lojit(π)=α +β2z. İlk olarak, iki modelin

170

karşılaştırılmasında olabilirlik oran istatistiği ya da Wald istatistiği kullanılarak β1=0

olup olmadığı test edilmelidir.

4.4.2. AZT Ve AIDS Örneği

Aşağıda yer alan Tablo-4.1’ i kullanarak kalitatif (nitel) veriler kullanılarak kurulacak modeller açıklanacaktır. Bu tablo AIDS belirtilerinin gelişmesini yavaşlatmak amacıyla kullanılan AZT ilacının etkileri üzerine yapılan bir çalışmaya dayanmaktadır (New York Times, 15 Şubat 1991). Bu çalışmada, AIDS virüsü enfeksiyonu belirlendikten sonra bağışıklık sisteminde bozukluk başlayan 338 eski hasta rassal olarak belirlenmiştir. Tablo 4.1 hemen AZT kullanıp kullanmadıklarına, AIDS belirtilerinin üç yıl boyunca ilerleyip ilerlemediğine ve hasta ırklarına göre oluşturulan 2 x 2 x 2 boyutlu bir çapraz sınıflandırmayı göstermektedir.

z x

lojit(π)=α +β₁ +β₂ şeklindeki bir modelde, X değişkeni AZT tedavisini (x=1; hemen AZT alanları, x=0 diğerlerini göstermektedir), Z değişkeni ırkları (z=1 beyazlar için, z=0 siyahlar için) göstermektedir. AIDS belirtilerinin ilerleme olasılığının tahmin edilmesi amaçlanmıştır. AZT etkisinin ML tahmini şu şekildedir: β1= -0.720 (ASE=0.279). AIDS belirtilerinin gelişimi ve hemen AZT kullanımı

arasında tahmin edilen odds oranı; exp(-0.720)=0.49 olarak bulunur. Her bir ırk türüne göre, belirtilerin ilerlemesinin tahminlenen olasılığı (odds’u) derhal AZT kullanımına başlayanlar için bulunandan yarım kat daha yüksektir.

Tablo 4.1 AZT kullanımına ve Irka Göre AIDS Belirtilerinin Gelişimi

Belirtiler

Irk AZT

Kullanımı _{Var Yok}

Evet 14 93 Beyaz Hayır 32 81 Evet 11 52 Siyah Hayır 12 43 Kaynak: http://www.ats.ucla.edu/stat/stata/examples/icda/azt

171

Irk değişkeni kontrol altına alınarak, AIDS belirtilerin gelişimi ve AZT tedavisinin koşullu bağımsızlığının ifade edildiği hipotez H₀ :β₁ =0 şeklindedir. Modellerin49_{karşılaştırılmasına dayanan olabilirlik oran istatistiği -2(L}

0-L1), 1

serbestlik derecesi ile 6.9 olarak bulunur ve birlikteliğin bir kanıtını gösterir (P=0.01). Wald istatistiği de benzer sonuçlar sağlamaktadır(P=0.01):

(

βˆ1/ASE

)

2 =

(

−0.720/0.279

)

2 =6.6. Sonra birinci modelin uyum iyiliği analiz edilir. Bu modelin uyumu için derhal AZT kullanımına başlayan beyaz ırktaki hastaların, inceleme boyunca AIDS belirtilerin gelişiminin tahminlenen olasılığı 0.150 olarak bulunur. 107 tane beyaz ırka sahip hasta AZT kullandığından dolayı, semptomların ilerlemesinin uydurulmuş sayısı; 107(0.150)=16.0 ve belirtilerin ilerleme göstermediği durumlar için uydurulmuş sayı; 107(0.850)=91.0 olarak bulunur. Benzer şekilde Tablo 5.1’ teki sekiz hücrenin tümü için uydurulmuş değerler elde edilir. Bu değerler ve hücre sayıları genel uyum iyiliği istatistiklerinde yerine koyulur ve G2 =1.4 ile X2 =1.4 değerleri elde edilir.

Model dört tane örnek lojit değerine sahiptir ve ilk olarak AZT kullanımı ve ırk değişkenlerinin dört farklı kombinasyonunda her bir binom yanıt dağılımı için hesaplanır. Model üç parametreye sahip olduğundan dolayı artık serbestlik derecesi 4-3=1 olarak bulunur. G2 ve X2 istatistikleri için küçük değerler model uyumunun yeterince iyi olduğunu göstermektedir (P>0.2). Daha ileri düzeyde bir analiz yapılırsa belki de daha basit bir modelin uygun olabileceği ileri sürülebilir. Çünkü ırk değişkeninin etkisi anlamlı değildir.

4.4.3. Faktörlerin ANOVA Tipi Gösterimi

İki seviyeli bir faktör sadece bir kukla değişken kullanımını gerektirir. I seviyeli bir faktör ise I-1 tane kukla değişken kullanımını gerektirmektedir. Lojistik regresyon modellerindeki faktörlerin alternatif bir gösterimi ise bu faktörlerin ifade edildiği sıradan ANOVA yöntemine benzemektedir (Agresti, 1996). Modelin

z x

172

formülü şu şekildedir : lojit(π)=α +βiX +βkZ{βiX} parametreleri aracılığı ile X

değişkenin etkileri ve {β_kZ} parametreleri aracılığı ile Z değişkeninin etkileri gösterilmektedir (X ve Z üst simgeleri etiketlerdir ve kuvvetleri temsil etmezler). Her bir faktör sahip olduğu seviye kadar parametre sayısına sahiptir, fakat biri fazladır. Örnek olarak, eğer X değişkeni I seviyeli ise I-1 tane gereksiz olmayan parametreye sahiptir. Sabit bir Z değişkenine göre X ve Y değişkenleri arasındaki koşullu bağımsızlık şu şekilde ifade edilmektedir: X

I X

X _β _β

β₁ = ₂ =_L= .

Son kategori sıfıra eşitlenerek oluşturulan parametre dizisi aracılığı ile yukarıda sözü geçen modelde yer alan parametrelerdeki fazlalıklar hesaplanır. X ve Z değişkenleri iki kategorili olduğu zaman (Tablo 4.1) modeldeki parametreler aşağıdaki modele uymaktadır:

z x lojit(π)=α +β1 +β2 1 1 β βX = _, ₀ 2X = β ve β₁Z =β₂_{, 0} 2Z = β olduğundan dolayı bu gerçekleşmektedir. Tablo 4.1’ e göre bu modelin uydurulması için, Tablo 4.2’ de, parametrelerin tanımlanmasında kullanılan üç ayrı yönteme göre parametre tahminleri gösterilmektedir: (1) Sadece son parametrenin (yani β₂X ) sıfıra eşit olması ile oluşturulan bir yaklaşım. (2) İlk parametrenin sıfıra eşitlendiği benzer bir yaklaşım. (3) Faktör parametrelerinden her birinin toplamının sıfır olmasına dayanan bir yaklaşım.

İkinci yaklaşıma göre yukarıda yer alan model; lojit(π)=α +β_iX +β_kZ şeklindeki modele benzemektedir ve AZT kullanımının birinci kategorisi için x=0 ve ikinci kategorisi için x=1 şeklindeki kodlanan kukla değişken kullanılmaktadır.

Üçüncü yaklaşıma göre, bir faktör iki seviyeli olduğunda bir tahmin diğerinin negatif işaretlisidir (yani X X

1 ˆ

ˆ _β

173

kategoride x=1 ve ikinci kategoride x= -1 şeklinde “etki kodlaması” yapılmasından kaynaklanmaktadır (Agresti, 1996).

Tablo 4.2 Tablo 4.1’ e göre uydurulan Lojit model İçin Parametre Tahminleri Parametrelerin tanımlanması Parametre Son=0 İlk=0 Toplam=0 Sabit Terim -1.074 -1.7383 -1.406 AZT Kullanımı-Evet -0.720 0.000 -0.360 AZT Kullanımı-Hayır 0.000 0.720 0.360 Irk- Siyah 0.055 0.000 0.028 Irk-Beyaz 0.000 -0.055 -0.028

Üç kodlama düzeninden her hangi biri için β₁X −β₂X ve β₁Z −β₂Z şeklindeki farklar özdeştir ve yanıt ile birlikte X ve Z değişkenlerinin koşullu logaritmik odds oranlarını ifade etmektedir. Örnek olarak, exp(_βˆ₁X −_βˆ₂X)=exp(−0.720)=0.49_değeri, her bir ırka göre belirtilerin gelişimi ile derhal AZT kullanımına başlanması arasında tahmin edilen ortak odds oranına dayanmaktadır.

Bir faktörün tek bir kategorisine göre bir parametre tahmini yapmak yersizdir: Parametre fazlalıklarının belirlenmesinde farklı yöntemler söz konusudur ve bunlar ilgili tahmine göre farklı değerler oluşturmaktadır. Bir tahmin sadece başka bir kategori için bulunan tahmin ile karşılaştırılarak yorumlanır. İki kategori için yapılan tahminler arasındaki farkın üssel biçimi ile bir kategorideki sınıflamanın etkisine ilişkin odds oranı belirlenmektedir. Benzer şekilde farklı kodlama düzenleri de benzer tahminlenen olasılıklar sağlamaktadır. Belirli faktör seviyeleri için yapılan tahminler ile kesen (sabit terim) tahminin toplamı her bir düzen için aynıdır.

174

Örnek olarak, tablo-4.2’ye göre her bir düzene göre (sütuna göre) sabit terim, derhal AZT kullanımına başlanmasına göre yapılan tahmin ve beyaz olanlar için yapılan tahminler toplandığında hepsinde -1.738 değeri elde edilir ki bu değer, derhal AZT kullanımına başlayan hastalarda AIDS belirtilerinde iyileşme görülmesinin hesaplanan ve tahmin edilen olasılığının bulunmasında etkilidir ve bu olasılık şu şekilde bulunur: exp(-1.738)/[1+exp(-1.738)]=1.5

Belgede Kategorik veri analizinin istatistiksel veri analizi içerisindeki yeri ve önemi (sayfa 185-191)