Modelin Uyum İyiliği Ölçütleri - İKİLİ LOJİSTİK REGRESYON

2.3. İKİLİ LOJİSTİK REGRESYON

2.3.3. Modelin Uyum İyiliği Ölçütleri

Doğru bir şekilde değişkenlerin seçimi yapıldıktan sonra modele dahil edilen değişkenlerin, bağımlı değişkeni açıklamakta ne kadar etkili olduklarını belirlemek gerekir. Bu yüzden lojistik regresyon modeli, bir tahmin yöntemi ile tahmin edilerek kurulan modelde bağımlı değişkeninin ne kadar etkin tanımlandığını öğrenebilmek için modelin uyum iyiliğine bakılır. Bunun için de Hosmer-Lemeshow testi, sınıflandırma tabloları, Cox&Snell ve Nagelkerke R2_{değerleri incelenir.}

2.3.3.1. Hosmer-Lemeshow Testi

David W.Hosmer ve Stanley Lemeshow tarafından geliştirilen test, lojistik regresyon analizi ile kestirilen olasılıkları kullanarak uyum iyiliğini tespit eder. Regresyon analizindeki F testine benzemektedir. Lojistik regresyon modelinin genel olarak test edilmesini sağlar. Sıfır hipotezi açıklayıcı değişkenlerden hiçbirinin bağımlı üstünlük oranıyla anlamlı doğrusal ilişkisi olmadığını söyler, yani sabit terimin dışındaki tüm logit katsayılarının sıfır olup olmadığını sınar. Modelde bağımsız değişkenin olmadığı -2LogL istatistiği ile modelde açıklayıcı değişkenlerin bulunduğu -2LogL istatistiği arasındaki fark hesaplanarak bulunur. Hosmer-Lemeshow testi, araştırılan modelin parametre sayısı ile sadece sabit terimi olan modelin parametreleri arasındaki farka eşit serbestlik derecesi ile ki-kare dağılmıştır.

H0: Tahmin edilen ve gözlenen değerler arasında anlamlı bir fark yoktur. H1: Tahmin edilen ve gözlenen değerler arasında anlamlı bir fark vardır. Sig >0,05 ise tahminlerin gözlemlerden farklılaşmadığı sonucuna ulaşırız. Kısacası modelin tahmin edebilirliği, gerçek durum ile benzeşmektedir (Tabachnick ve Fidell, 1996:583). Elde edilen ki-kare değerlerinin büyük olması, modelin uyumunun iyi olmadığını gösterir.

Lojistik regresyon analizi ile kestirilen olasılıklar küçükten büyüğe doğru sıralanır, bu olasılıklara göre veriler k alt gruba bölünür. Grup sayısı genellikle 10 olarak kullanılır. Her alt grupta gözlemlenen ve beklenen değer hesaplanır, ki-kare testi

uygulanır. Hosmer-Lemeshow test istatistiğinde grup sayısı küçükse hesaplanan değer, gözlenen ve beklenen frekanslar arasındaki fark çok duyarlı olmayacaktır. Grup sayısı k, 6’dan küçük seçildiğinde hesaplanan değer genellikle modelin uyumunun iyi olduğu sonucunu verir.

Hosmer-Lemeshow özet uyum iyiliği test istatistiği kullanmanın avantajı, tek bir değer elde edilmesi sonucu kolay yorumlanabilmesidir. Dezavantajı ise veri sayısı az olduğunda hesaplanan istatistiklerin uyumdaki önemli sapmaları belirleyememesidir.

Lojistik regresyon analizinde Hosmer-Lemeshow testinin anlamlı olması istenen bir durumdur. Modelin uyum iyiliği, açıklanan değişkeni açıklayabilmek için elde edilen en iyi modelin etkinliğini ölçer.

2.3.3.2.Sınıflandırma Tabloları (Correct Classification Percent)

Doğru sınıflama oranları kullanılarak modelin uyum iyiliği değerlendirilir. Lojistik regresyon analizinin sonuçlarına göre hesaplanan olasılık değerleri, belirlenen kesim noktasıyla sınıflandırılarak her bireyin 0 veya 1 seçeneklerinden hangisini alacağı tahmin edilir. Genel olarak kesim noktasının değeri 0,50 olarak alınır. Lojistik regresyon analizi ile hesaplanan olasılık değeri 0,50’den büyük ise veri 1. gruba, olasılık değeri 0,50’den küçük olduğunda 0. gruba dâhil edilir. Daha sonra çapraz tablolar oluşturulur. Gerçek değerler ile kestirilen değerler çapraz tabloları meydana getirir. Bu tablolar yardımıyla sonucu gerçekte pozitif olanların ne kadarının pozitif (duyarlılık), negatif olanların ne kadarının negatif (seçicilik) olduğunu, toplamda pozitif ve negatif sonuçların ne kadarının doğru sınıflandırıldığı (doğruluk) belirlenir.

Modelin uyumu iyi ise seçicilik, duyarlılık ve doğruluk değerleri büyük olmalıdır. Tablodaki sınıflandırma yüzdeleri yüksek ise sınıflandırmanın doğru yapıldığı, uyumun iyi olduğu sonucuna varılır (Hosmer ve Lemeshow, 2000:156-158).

2.3.3.3. Cox-Snell 𝐑𝟐 ile Nagelkerke 𝐑𝟐 Değerleri

Lojistik regresyon analizinde modelin uyumunu belirlemek için farklı açıklayıcılık katsayıları ( R2_{) vardır. Doğrusal regresyon analizinde açıklayıcılık}

katsayısı R2_{, bağımlı değişkendeki değişimin ne kadarının regresyon modelindeki}

bağımsız değişkenler tarafından açıklandığını gösterir. Lojistik regresyondaki R2

istatistiklerini doğrusal regresyondaki gibi yorumlamak hatalıdır. McFaden R2_{, Cox-}

Snell R2 ve Nagelkerke R2 en çok kullanılanlarıdır. Bu istatistikler genellikle küçük çıkarlar. Model uyumunu değerlendirmekten çok model oluşturma sırasında değişik modellerin performanslarını değerlendirmede kullanılır. SPSS programı ile Cox-Snell R2_{ve Nagelkerke} _R2_{istatistikleri elde edilebilen} _R2_{değerleridir. Model özet}

tablolarında -2 Log Likelihood istatistiği ile birlikte bulunur. Bağımsız değişkenlerin bağımlı değişkeni açıklarken ne kadar iyi olduğunu gösterir. Elde edilen değer büyük olduğunda, değişkenlerin modeli açıklamasında büyüklük derecesiyle doğru orantılı olarak o kadar başarı olduğuna karar verilir (Kalaycı, 2009:293).

Cox-Snell 𝐑𝟐: En çok olabilirlik R2olarak bilinen istatistik Maddala

tarafından önerilmiştir. En küçük değeri 0 olurken en büyük değer hiçbir zaman 1'e ulaşamaz.

Nagelkerke 𝐑𝟐: Cox-Snell R2 istatistiğinin 0-1 aralığında değerler almasını

için geliştirilen bir değerdir. Nagelkerke tarafından önerilen bu düzeltme ile Cox-Snell R2_{’nin en büyük değeri 1 olabilmektedir (Alpar, 2011:645).}

2.3.3.4. Hata Terimlerinin İncelenmesi

Lojistik regresyon modelinin yeterliliğinin saptanmasında hata terimleri (artıklar) de incelenebilir. Etkili, uzak ve aykırı gözlemler araştırılır. Pearson ve sapma (deviance) artıkları daha çok kullanılır. Sapma artıkların normal dağılıma yakın olması ve Pearson artıkların sağlam olmaması, kararsız olması nedeniyle yeğlenmemektedir. Ham artıkların, logit artıkların kullanılmasının yanı sıra standart sapma artıklar ile student sapma artıklarının kullanılması yaygındır. Artık değerlerin 2,58' den daha büyük çıkan gözlemler, toplam gözlemlerin % 1'inden ve artık değerlerin 1,96' dan büyük çıkan gözlemler toplam gözlemlerin % 5' inden daha fazla ise bu gözlem değerleri modelden çıkartılarak tekrar model tahmin edilir (Field, 2009:293).

Belgede Türkiye'de bir şehrin büyükşehir olabilme kriterlerinin ikili lojistik regresyon ile analizi (sayfa 55-58)