• Sonuç bulunamadı

ÇOK YÖNLÜ TABLOLAR VE TABLOLAŞTIRILAMAYAN YANITLAR İÇİN

Bu bölüm boyunca anlatılan metotlar çok yönlü tablolar için genişletilebilir. Örnek olarak iki-yönlü tablolar için kullanılan bağımsızlık testleri, üç yönlü tablolarda kullanılan koşullu bağımsızlık testleri şeklinde genişletilmiştir. Gelecek

128

bölümlerde, ilgili parametrelerin ve onların istatistiklerinin tanımlanması için temel oluşturan modellerle birlikte bu şekildeki metotlar ele alınmaktadır. Şimdiye kadar verilen örneklerde, kategorik veriler olumsallık tabloları ile sunulmuştu. Kategorik yanıt değişkenleri için oluşturulan modeller kategorik açıklayıcı değişkenler kadar sürekli açıklayıcı değişkenlere de uygulanabilir. Bütün değişkenler ya da değişkenlerin çoğu kategorik olduğu zaman, kaynak veri dosyaları genellikle olumsallık tabloları değildir. Fakat her bir denek için oluşturulmuş bir veri çizelgesine sahiptirler (Agresti, 2002).

Cinsiyet, ırk, eğitim ( 1=liseden düşük, 2=lise ya da benzeri, 3=üniversite mezunu) açısından ölçülmüş deneklerin incelenmesinde yanıtları ve eşcinsellik konusundaki görüşleri (1=hoşgörülü, 2=homofobik) kapsayan bir veri dosyasının içindeki ilk üç veri çizelgesi aşağıdaki şekilde olabilir:

Tablo 2.16 Veri Çizelgesine İlişkin Örnek Tablo

Denek Cinsiyet Irk Eğitim Görüş

1 K B 2 1 2 E S 3 1 3 E B 1 2

Kaynak: Agresti, 2002

Yazılım bu türdeki veri dosyasını çözer ve sonra analizlere rehberlik eder (hatta olumsallık tablolarının düzenlenmesini de içerebilir).Şu ana kadar incelediğimiz bütün metotlar kategorik veriler için kullanılan modellerin içinde yer alan parametreler için istatistiksel yorumlamaları sağlamaktadır.

Paket programlar, olumsallık tablolarını oluşturduktan sonra burada ele alınan birçok istatistiği ve ölçüyü hesaplamaktadır. Bunlar, tablo tipine ve içerdiği verinin ölçeğine göre aşağıda özet olarak toplu halde verilmiştir:

129

* I×J tablolarında (I≥2, J≥2); Bağımsızlık Analizi (ki-kare bağımsızlık testi), Loglinear Analiz yapılır, Korelasyon katsayısı ve Spearman Korelasyon katsayısı hesaplanır. Ki-kare analizinde; Pearson ki-kare, Düzeltilmiş (Yates) kikare, Benzerlik Oranı (G test) ve Mantel-Haenszel kikare analizi sonuçları verilir. 2× boyutlu tablolarda ise uygun koşullar oluştuğunda Fisher kesin 2 kikare analizi yapılır.

* Nominal veriler içeren tablolarda; Kontenjans katsayısı, Phi katsayısı ve Gramer V katsayısı, Lambda katsayısı, Goodman-Kruskal Tau katsayısı ve Belirsizlik katsayısı hesaplanır.

* Ordinal veriler içeren tablolarda; Kruskal Gamma katsayısı, Somer d katsayısı, Kendal'ın Tau b ve Tau c katsayıları hesaplanır.

* Aralıklı ölçeklerden birleştirme ile oluşturulan nominal veriler içeren tablolarda Eta katsayısı hesaplanır.

* Kohort araştırma ya da Olgu kontrol araştırma sonucu oluşturulan tablolarda Relatif Risk ve Odds Ratio katsayıları hesaplanır.

* Karesel I×J boyutlu tablolarda; iki gözlemcinin X olgusunu k kategoriye göre değerlendirmeleri durumunda bu değerlendirmenin uyumluluğunu belirlemek için Cohen Kappa katsayısı hesaplanır, iki gözlemci X olgusunu k kategoriye göre değerlendirir. Bulgular I×J (I=J) biçiminde eşit sıra ve sütunlu çapraz tablo biçiminde düzenlenir. Gözlemciler arasındaki değerlendirmenin tutarlılığı (concordance, uyumluluk) Cohen Kappa katsayısı aracılığı ile belirlenir.

130

ÜÇÜNCÜ BÖLÜM

GENELLEŞTİRİLMİŞ DOĞRUSAL MODELLER

Daha önceki bölümlerde iki yönlü ve üç yönlü olumsallık tablolarında birlikteliklerin analiz edilmesi için kullanılan metotlar ele alınmıştır. Bu metotlar, açıklayıcı değişkenlerin kategorik yanıt değişkenler üzerindeki etkilerini incelememize yardımcı olmaktadır. Bu bölümde ise bu tür analizlerin temelini oluşturan modellerin kullanımı incelenecektir. İyi uyumlu (good-fitting) bir model birçok fayda sağlamaktadır: Modelin yapısal şekli etkileşim ve birliktelik türlerini tanımlamaktadır. Model parametreleri için yapılan yorumlamalar ile olası etki değiştirici değişkenlerin (Confounding variables) etkileri kontrol altına alınarak açıklayıcı değişkenlerin yanıt değişken üzerindeki etkileri ortaya konulmaktadır. Tahmin edilen model parametrelerinin büyüklükleri, etkilerin önemini ve gücünü belirlemektedir.

Daha önce ele alınan yorumlamalar aynı zamanda belirli modellerdeki etkilerin analiz edilmesinde kullanılmaktadır. Modeller ile birçok açıklayıcı değişkenin etkilerinin eş zamanlı olarak analiz edilmesi gibi daha karmaşık durumlar ele alınmaktadır. Ek olarak, model oluşturma konusunda parametre tahminlerine odaklanılmaktadır ki sadece anlamlılığın test edilmesinden daha bilgi verici nitelikteki etkilerin belirlenmesi amaçlanır. Kategorik yanıt değişkenlerin modellenmesi bundan sonraki konularda ana konu olacaktır. Modellerdeki açıklayıcı değişkenler sürekli ya da kategorik ya da her iki türde de olabilmektedir.

Burada ele alınan modellerin neredeyse tümü genelleştirilmiş doğrusal modellerin özel biçimleridir. Bu modellerin genel bir durumudur ve kategorik yanıt değişkenler için oluşturulan modelleri kapsadığı gibi sürekli yanıt değişkenler için kullanılan sıradan regresyon ve ANOVA modellerini de kapsamaktadır. Bu bölümde kategorik ve diğer kesikli yanıt değişkenler için oluşturulan genelleştirilmiş doğrusal modeller ele alınmaktadır.

Genelleştirilmiş doğrusal modeller için “GLM” kısaltması kullanılmaktadır. İlk olarak tüm genelleştirilmiş doğrusal modeller için ortak olan üç bileşen

131

incelenmektedir. Sonra ikili yanıt değişkenler için kullanılan modeller tanıtılmaktadır ki bu modeller binom verileri için uygulanmaktadır. Bu modellerin önemli bir türü olan lojistik regresyon modeli ayrıntıları ile ele alınmaktadır.

3.1. GENELLEŞTİRİLMİŞ LİNEER BİR MODELİN BİLEŞENLERİ

Tüm genelleştirilmiş doğrusal modeller üç bileşene sahiptir (Agresti, 1996):

Rassal bileşen yanıt değişkeni Y’ nin tanımlanması ve Y değişkeni için bir olasılık

dağılımı varsayımının yapılmasıdır. Sistematik bileşen, modelde tahmin edici olarak

kullanılan açıklayıcı değişkenlerin belirlenmesidir. Bağıntı ise sistematik bileşen ile

rassal bileşenin beklenen değeri (ortalama) arasındaki fonksiyonel ilişkinin tanımlanmasıdır. GLM, doğrusal forma sahip bir eşitliğin tahmin edilmesi aracılığı ile açıklayıcı değişkenlerden oluşan bir fonksiyon ile ilişkilidir.

3.1.1. Rassal Bileşen

N örnek hacmi için (Y1 , …, YN ) şeklinde ifade edilen Y yanıt değişkenine

ilişkin gözlemlerin ortaya konulmasıdır. Bu çalışmada ele alınan GLM’ ler, (Y1 , …,

YN ) değerlerini bağımsız olarak işleme tabi tutmaktadır. Bir GLM’ nin rassal

bileşeni Y yanıt değişkeninin belirlenmesinden ve (Y1 , …, YN ) için bir olasılık

dağılımının seçilmesinden meydana gelmektedir. Birçok uygulamada, her bir Yi

gözlemi için potansiyel sonuçlar “başarı” ya da “başarısızlık” şeklinde ikililerden meydana gelmektedir. Daha genel olarak her bir Yi gözlemi, belirli sabit bir deneme

sayısında ortaya çıkan başarıların sayısı olabilir. Sonra rassal bileşene göre binom dağılımı varsayımı yapılır.

Bazı uygulamalarda ise her bir yanıt gözlemi kontenjans tablosunda yer alan hücre sayısı gibi negatif olmayan bir sayıdır ve buna göre rassal bileşen için Poisson dağılımı varsayılabilir. Eğer gözlemler, bir beslenme araştırmasında deneklerin ağırlıkları gibi sürekli nitelikte ise normal bir rassal bileşen varsayımı yapılabilir.

132

3.1.2. Sistematik Bileşen

Y değişkeninin beklenen değeri belirlenirken olasılık dağılımından yararlanılmaktadır ve µ =E(Y) ile gösterilmektedir. GLM’ de µ’ nün değeri açıklayıcı değişkenin seviyelerine göre değişmektedir. GLM’ nin sistematik bileşeni açıklayıcı değişkenlerin belirlenmesidir. Bu değişkenler eşitlik modelinin sağ tarafına tahmin edici olarak yerleştirilmektedir. Bundan dolayı da sistematik bileşen değişkenlerin belirlenmesidir ki aşağıdaki formülde

{ }

x şeklinde yer almaktadır: i

k

kx

x β

β

α + 1 1+L+

Açıklayıcı değişkenlerin bu doğrusal bileşimi, doğrusal tahmin edici olarak adlandırılmaktadır. Bazı

{ }

x değerleri modeldeki diğer değişkenlere bağlı i

olabilmektedir. Örnek olarak Y değişkeni üzerindeki etkileri bakımından x ve 1 x 2

arasında karşılıklı etkilerin(etkileşimin) ortaya konulduğu x3 = x1x2 şeklinde ya da

1

x ’ in eğrisel etkisinin sağlandığı x3 = x12 şeklinde olabilmektedir.

3.1.3. Bağıntı

GLM’ in üçüncü bileşeni ise rassal ve sistematik değişkenler arasındaki bağıntıdır. Doğrusal tahmin edici bakımından µ =E(Y)’nin açıklayıcı değişkenler ile nasıl bir ilişki içinde olduğunu belirlemektedir.

µ parametresi ya doğrudan modellenmektedir ya da g(µ) şeklinde monoton bir fonksiyon olarak modellenmektedir. Model aşağıdaki şekilde formüle edilir:

k

kx

x x

g(µ)=α +β1 1+β2 2 +L

g(.) fonksiyonu bağıntı fonksiyonu (link function) olarak adlandırılır (Agresti,

133

doğrudan modellenmektedir ve özdeşlik bağıntısı (identity link) olarak

adlandırılmaktadır. Ortalama yanıta göre doğrusal bir modelin belirlenmesini sağlamaktadır: k kx x x β β β α µ = + 1 1+ 2 2 +L+

Bu sürekli yanıtlar için oluşturulan sıradan regresyon modellerinin formudur. Diğer bağıntılar, tahmin edicilerin doğrusal olmayan bir şekilde oluşturulmasına olanak tanımaktadır. Örnek olarak g(µ)=log(µ) bağıntı fonksiyonu ile ortalamanın logaritması modellenir. MLogaritmik fonksiyon pozitif sayılara uygulanmaktadır. Bundan dolayı da “log bağıntısı”; µ ’ nın negatif olmadığı durumlarda tercih edilir. Log bağıntının kullanıldığı GLM’ e log-doğrusal model adı verilir ve aşağıdaki

formda ifade edilir:

k kx x x β β β α µ)= + 1 1+ 2 2 +L+ log( )] 1 /( log[ ) (µ = µ −µ

g şeklindeki bağıntı fonksiyonu ile bir odds’un

logaritması modellenmiştir. Buna lojit bağıntı adı verilmektedir. µ değeri olasılık gibi “0” ile “1” arasında olduğu zaman uygundur.

Lojit bağıntının kullanıldığı GLM türüne lojit model adı verilmektedir.

Rassal bileşen için belirlenebilecek her bir mümkün olasılık dağılımı ortalamaya bağlı özel bir fonksiyona sahiptir ki ortalama burada doğal parametre (natural

parameter) olarak adlandırılmaktadır. Normal dağılıma göre ortalamanın kendisidir. Poisson dağılımına göre doğal parametre ortalamanın logaritmasıdır. Binom dağılımına göre doğal parametre başarı olasılığının lojitidir. GLM’ de g(µ) şeklindeki doğal parametrenin kullanılması ile oluşturulan bağıntı fonksiyonu

Kanonik Bağıntı adını alır (Agresti,1996). Örnek olarak,

k kx x x β β β α

µ = + 1 1+ 2 2 +L+ şeklindeki model formülü normal bir şekilde dağılmış yanıt için kanonik bağıntı ile oluşturulan GLM formudur. Poisson yanıt

134

verileri için kanonik bağıntılı GLM ise log(µ)=α +β1x12x2 +Lkxk

şeklindedir. Uygulamada en yaygın olanı kanonik bağıntılardır.

3.1.4. Normal GLM

Sürekli değişkenler için kullanılan sıradan regresyon ve ANOVA modelleri de GLM’ lerin özel durumlarıdır. Rassal bileşene göre normal dağılım varsayımı yapılır ve ortalama, g(µ)=µ şeklindeki özdeşlik bağıntısı kullanılarak doğrudan modellenir. GLM, sıradan regresyon modellerini iki yöntemle genelleştirir(Garson, 1999, s.1): İlk olarak, rassal bileşenin normal dağılımdan başka bir dağılıma sahip olmasına olanak tanınmaktadır. İkinci olarak ta ortalamanın birçok fonksiyonuna göre modelleme yapılmasına olanak tanınmaktadır. Bu iki genelleştirmede kategorik veriler açısından önem taşımaktadır. Normal olmayan verilerin analiz edilmesinde kullanılan klasik yöntemde yanıt değişkeninin dönüşümü yapılmaktadır. Bundan dolayı da yaklaşık olarak sabit varyanslı normal dağılım göstermektedir. Daha sonra en küçük kareler yönetiminin kullanıldığı sıradan regresyon metotları uygulanabilmektedir.

Ancak sabit varyans sağlayan bir dönüşüm normalliği sağlamayabilir ya da açıklayıcı değişkenler için kullanılan basit doğrusal modeller bu ölçek için zayıf ölçüde uygunluk gösterebilmektedir (Agresti, 2002; Power ve Xie, 2000). GLM oluşturma sürecinde, rassal bileşen seçimimize göre maksimum olabilirlik metotlarından yararlanılmaktadır ve bu seçimde sadece normallik ile sınırlı olunmamaktadır (Le, 1998). Ek olarak genelleştirilmiş doğrusal modellerde bağıntı seçimi rassal bileşen seçiminden ayrı tutulmaktadır. Eğer bir bağıntı etkilerin toplamsallığını sağlıyorsa (yani eğer doğrusal bir model bu bağıntıyı kullanıyorsa) normalliğin sağlanması için durağanlaştırılmış varyansa gerek duyulmamaktadır (Agresti, 1996).

GLM’ ler çok çeşitli istatistiksel metotların birleştirilmesine göre ortaya konmaktadır. Regresyon, ANOVA ve kategorik veriler için oluşturulan modeller özel durumlar arasında en iyi modellerdir. Gerçekte aynı uygunluktaki metotlar tüm

135

GLM’ ler için parametrelerin en çok olabilirlik tahminlerini (ML) vermektedir. Bu metot GLM’ lerin uygunluğu için kullanılan GLIM ve SAS (PROC GENMOD) şeklindeki yazılımın temelini oluşturmaktadır (Agresti, 2002). Bundan sonraki iki bölümde, kategorik yanıt değişkenler için kullanılan en önemli iki genelleştirilmiş doğrusal model ele alınarak üç GLM bileşeni açıklanmaktadır.