ÇOKLU LOJİSTİK REGRESYON - Kategorik veri analizinin istatistiksel veri analizi içerisindeki ye

Lojistik regresyon modeli ve diğer GLM’ ler de, birkaç tane açıklayıcı değişkenin var olması durumunda normal veriler için oluşturulan sıradan regresyon modelleri gibi genelleştirilebilir. İki sonuçlu Y yanıt değişkeni için, X₁,X₂,...,X_k

değişkenleri, k tane tahmin edicinin bir kümesini göstersin. π olasılık lojitine göre en başta verilen model50, Y=1 için aşağıdaki şekilde genelleştirilir:

k kx x x lojit(π)=α +β₁ ₁+β₂ ₂ +_L+β i

β parametresi; Xi’ nin diğer X’ ler kontrol altında iken Y=1’ deki logaritmik

olasılığı (odds’u) üzerindeki etkisini göstermektedir. Örnek olarak exp(β_i), diğer X’ lerin belirli seviyelerinde Xi’ deki 1 birimlik artışın oddsu üzerindeki çarpımsal etkisidir. Çoklu lojistik regresyon modellerindeki parametreler konusunda oluşturulan hipotezlerin test edilmesi için olabilirlik oran metodu kullanılır. Örnek olarak, bir faktörün modele önemli bir katkı yapıp yapmadığının test edilmesi için

: ₁ ₂ ₃

0 β =β =β =

H hipotezi test edilir. Bu hipotez şu durumu ifade etmektedir: Bir değişken kontrol altına alındığında, Y değişkeninin gerçekleşme olasılığı ilgili faktörden bağımsızdır. Tam modele göre maksimize edilmiş log-olabilirliği (L1 ) ile

daha basit bir modele (bu parametre değerleri sıfır olan model) göre maksimize 50 x x x x lojit α β π π π _⎟⎟ = + ⎠ ⎞ ⎜⎜ ⎝ ⎛ − = ) ( 1 ) ( log )] ( [

175

edilmiş log-olabilirliği (L0 ), -2(L0 - L1 ) şeklindeki test istatistiği kullanılır. Ki-kare

serbestlik derecesi iki modeldeki parametre sayıları arasındaki farktır.

Daha genel olarak, herhangi iki model için maksimize edilmiş log- olabilirlikleri karşılaştırılır ki buradaki iki modelden biri diğerinin özel bir durumu konumundadır. Bu şekildeki bir karşılaştırma ile modelin etkileşim terimlerini içerip içermediği kontrol edilir.

4.5.1. Birden Fazla Tahmin Ediciye Sahip Model Seçimi

Birçok model seçme yöntemi bulunmaktadır ve içlerinden hiç birisi en iyi değildir. Çünkü bu yöntemler her hangi bir genelleştirilmiş lineer model için eldeki normal verilerin sıradan regresyon modellemesine uygun niteliktedirler. Örnek olarak birden fazla tahmin ediciye sahip bir model çoklu bağlantı açısından

potansiyele sahiptir: Tüm tahmin ediciler modelde yer aldığında, tahmin ediciler arasındaki güçlü korelasyon ilgili modeldeki hiçbir değişkenin anlamlı olmamasına neden olmaktadır. Bir değişken az bir etkiye sahip gibi gözükebilmektedir. Bunun deneni de modeldeki diğer tahmin edicilerle çakışmasıdır (overlap).

Olabilirlik oran testi, tahmin edicilerin Y’nin gerçekleşme olasılığından ortak biçimde bağımsız olmasıdır ki eş zamanlı olarak bu tahmin edicilerin parametre değerlerinin tümünün sıfıra eşitliği (sıfır hipotezi) test edilir. Olabilirlik oran istatistiği; sadece sabit terime (kesene) sahip sıfır model ile ana etkilerin yer aldığı modelin karşılaştırılmasına dayanmaktadır. Tüm test yüksek derecede anlamlı olsa bile diğer sonuçlar bu anlamlılığı desteklemeyebilir. Kalitatif tahmin ediciler için yapılan tahminler temel olarak modele alınan son kategori ile her seviyede karşılaştırılır. Genel test için çok küçük P-değeri çoklu bağıntı açısından önemli bir uyarı oluşturmaktadır. Diğer değişkenler kontrol altına alındığında bir değişkenin kısmi etkisi konusunda çok az bir kanıt söz konusu olabilir.

176

4.5.2. Tahmin Edicilerin Geriye Doğru Elenmesi

Bir modelin sapması, doygun model ile ilgili modelin karşılaştırılmasına dayanan G2 uyum iyiliği testidir. İki model arasında, sapmaların farkı bu modellerin karşılaştırılması için kullanılan olabilirlik oran istatistiğidir (-2 (L0 –L1 ) ). Bir modeli

seçmek için geriye doğru eleme yöntemi (Backward elimination procedure)

kullanılmaktadır ve karışık bir modelle başlayarak ardaşık biçimde terimler çıkarılmaktadır (Agresti, 1996; Pampel, 2000). Her bir aşamada, model parametrelerinin sıfıra eşitliğinin test edilmesinde elde edilen P-değerlerinden en büyük değere sahip terim silinir. Her bir değişken için en yüksek dereceli terimler test edilir. Örnek olarak, ana etki terimini silmek eğer ilgili terimin dahil olduğu yüksek dereceli etkileşimler söz konusu ise uygun olmaz.

Uygunlukları karşılaştırmak amacıyla daha karışık bir modelin kurulmasına karşı daha basit bir modelin kurulması test edilir. İki modelin karşılaştırılmasını sağlayan olabilirlik oran istatistiği sapmalardaki farka eşittir. P>0.05 durumunda üç- faktörlü terimin gerekli olduğu ileri sürülemez. Bu nedenle de basitleştirme sürecine devam edilir.

Sonraki aşamada iki-faktörlü bir etkileşimi silmek amacıyla iki faktörlü etkileşimlerin tümünün yer aldığı model dikkate alınır. Sonra iki-faktör etkileşimlerinden birini silmeye odaklanılır. Bilgisayarda uygulanan değişken seçim yöntemleri tedbirli bir biçimde kullanılmalıdır (Agresti, 1996). İlk olarak bir model içinde potansiyel olarak çok sayıda terim dikkate alındığında, bunlardan bir ya da iki tanesi gerçekten önemli olmasa bile olasılıktan dolayı etkili görülebilir. Örnek olarak gerçek etkilerin tümü zayıf olduğunda büyük örneklem etkisi nedeniyle gerçek etki aşırı olarak tahmin edilebilmektedir. Ek olarak bir modelde özel olarak ilgilenilen belirli değişkenleri dahil etmek genellikle mantıklıdır ve bazı seviyelerde istatistiksel olarak anlamlı olmasa bile tahminlenen etkileri raporlanmaktadır (Le,1998; Simonoff,2003).

177

4.5.3. Tahmin Edicilik Gücünün Korelasyon Özeti

Bir veri seti için uydurulmuş çeşitli GLM’ lerin, tahmin edicilik gücü açısından karşılaştırılması bilgilendirici olur (Agresti, 1996). Gözlemlenen yanıtlar {Yi} ve modelin uydurulmuş değerleri

{ }

µˆ arasındaki korelasyon (R) bunu i

tanımlamaktadır. En küçük kareler regresyonuna göre ( yani normal rassal bir bileşene sahip bir GLM ) R katsayısı yanıt değişkeni ile tahmin ediciler arasındaki

çoklu korelasyonu ifade etmektedir. Lojistik regresyona göre R katsayısı yanıt

üzerindeki Y=(0,1) biçiminde iki sonuçlu gözlemler ile πˆ biçimindeki tahmin edilmiş olasılıklar arasındaki korelasyondur (Agresti, 1996; Pampel,2000; Arabacı,2002). Bu şekildeki modeller için R, tahmin edicilik gücünün kaba bir göstergesidir ve normal GLM’ lerde olduğu gibi iyi özelliklere sahip değildir. Örnek olarak R değerinin model karmaşık hale geldikçe azalmamasının garantisi yoktur (Agresti,1996).

Ayrıca her hangi bir korelasyon ölçümü gibi R değeri de, açıklayıcı değişkenlerin gözlemlenen değerlerinden oluşan bir aralığa bağlıdır. Bununla birlikte aynı veri seti için farklı modellerin uyumlarının karşılaştırılması bakımından kullanışlıdır. Çoklu lojistik regresyon modellerinde farklı birimlere sahip kantitatif tahmin edicilerin etkilerini karşılaştırmak için standartlaştırılmış katsayıları

(standardized coefficicients) bulmak yardımcı olmaktadır. İlk olarak tahmin edicilerin standartlaştırılmış biçimleri ile model uydurularak bu yapılır ki tahmin edici üzerindeki her bir ölçüm z-skoru [(ölçüm değeri- ortalama)/standart hata] ile değiştirilir (Agresti, 1996). Bu durumda bulunan her bir regresyon katsayısı, diğer değişkenler kontrol altında iken bir tahmin edicide meydana gelen bir standart hatalık değişimin etkisini temsil eder.

178

Belgede Kategorik veri analizinin istatistiksel veri analizi içerisindeki yeri ve önemi (sayfa 191-195)