T.C. ONDOKUZ MAYIS ÜNİVERSİTESİ LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ İST.709 SINIFLAMA VE AYIRIM ANALİZİ PROF. DR. YÜKSEL ÖNER. 4. Hafta

(1)

T.C.

ONDOKUZ MAYIS ÜNİVERSİTESİ

LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ

İST.709 SINIFLAMA VE AYIRIM ANALİZİ

PROF. DR. YÜKSEL ÖNER

4. Hafta

[email protected] www.omu.edu.

(2)

1

iii) Mardia’nın basıklık katsayısı testi ile inceleyelim. Çok değişkenli basıklık katsayısı

𝛾̂

_2𝑝

=

¹

𝑛

∑

^𝑛_𝑖=1

𝑚

_𝑖⁴ olup, 𝐻₀ doğru iken örnekleme dağılımı

𝛾̂

_2𝑝

~𝑁 (𝑝(𝑝 + 2);

^{8𝑝(𝑝+2)}

𝑛

)

olduğundan

,

test istatistiği;

𝑍 =

^𝛾^̂^2𝑝^{−𝑝(𝑝+2)}

√^{8𝑝(𝑝+2)}

𝑛

~𝑁(0,1)

dir. Her bir gözlem için

𝑚

_𝑖⁴ değerleri Tablo 1.7’de verilmiştir. Buna göre 𝛾̂_2𝑝 = ^2735,90

25 = 109,436 ve 𝑝 = 10 için test istatistiğinin 𝐻₀ hipotezi altında alabileceği değer;

𝑍_ℎ = 109,436 − 10 ∗ 12

√8 ∗ 10 ∗ 12 25

= −1,71

olarak bulunur. 𝑝 = 𝑃𝑟(𝑍 ≤ 𝑍_ℎ) = 𝑃𝑟(𝑍 ≤ −1,71) = 0,5000 − 0,4564 = 0,0436 olup, 𝛼 = 0,05 iken, 2𝑝 = 2 ∗ (0,0436) = 0,0872 olup 2𝑝 < 𝛼 olduğundan 𝐻₀ hipotezi ret edilemez ve böylece örneklemin dağılımı, 𝑁₁₀(𝜇 , Σ) dağılımı ile uyumludur.

ii) Bağımsız Değişkenlerin Varyans-Kovaryans Matrislerinin Homojenliği: AA, varyans kovaryans matrislerinin homojenliğine karşı çok duyarlıdır. Bu duyarlılığı etkileyebilecek durumlar:

i) Bağımlı değişkenin kategorilerinde örneklem büyüklüğü yetersiz olduğunda ve varyans- kovaryans matrisleri homojen olmadığında, sınıflandırma fonksiyonlarının kestirim işlemlerinin istatistiksel önemliliği olumsuz olarak etkilenir.

ii) Bağımlı değişkenin kategorilerinde örneklem büyüklüğünün yeterli olması, ancak; varyans- kovaryans matrislerinin homojen olmaması durumunda, gözlemler daha büyük kovaryansa sahip olan gruplara yanlışlıkla sınıflandırılabilir. Bu sebeple AA öncesinde grup içi varyans- kovaryans matrislerinin homojenliği Box M testi ile incelenmelidir.

iii) Varyans kovaryans matrislerinin homojen olmaması durumunda dönüşümlerden yararlanarak homojenlik sağlanabilir. Bu amaçla gruplara göre her bir bağımsız değişkenin incelenmesi gerekir. Ya da, gruplara göre verilerin çok değişkenli normal dağılım gösterdiği, ancak varyans kovaryans matrislerinin benzer olmadığı durumlarda karesel (kuadratik) ayırma analizi tercih edilir.

Box M ile Homojenlik Testi: Bağımlı değişkene ait kategori sayısı 𝑔 ≥ 2 ve her bir kategorideki bağımsız değişken sayısı 𝑝 ≥ 2 olsun. Bu durumda 𝑘 = 1,2, … , 𝑔 için 𝑘.ncı gruba ait değişkenler vektörü ve kitle varyans kovaryans matrisi sırası ile 𝑋_𝑘^′ = [𝑋₁ 𝑋₂ … 𝑋_𝑝] ve 𝐶𝑜𝑣(𝑋_𝑘) = Σ_𝑘 olsun. Homojenlik için test edilecek hipotezler;

(3)

2

𝐻

₀

: Σ

_𝑘

= Σ

_𝑘

= ⋯ = Σ

_𝑘

= Σ

𝐻

₁

: ∃Σ

_𝑘

diğerlerinden farklı

(2.15) şeklinde kurulur. Test istatistiği; Box 𝑀 testi için

𝑀𝐶

⁻¹

~𝜒

(𝑔−1)𝑝(𝑝+1) 2

2

^(2.16)

dir. Test istatistiğinin değerini hesaplayabilmek için önce her bir gruptan 𝑛_𝑘 birimlik örnekler çekilir ve örneklemden 𝑀 ile 𝐶⁻¹ istatistikleri hesaplanır. Burada;

𝑀 = ∑^𝑔_𝑘=1(𝑛_𝑘− 1)𝑙𝑛|𝑆| − ∑^𝑔_𝑘=1(𝑛_𝑘− 1)𝑙𝑛|𝑆_𝑘| (2.17) ve

𝐶⁻¹= {

1 − ^2𝑝²^+3𝑝−1

6(𝑝+1)(𝑔−1)[∑ ¹

(𝑛𝑘−1)−_∑ ¹

(𝑛𝑘−1) 𝑔

𝑘=1 𝑔

𝑘=1 ] , 𝑛_𝑘 lar farklı ve büyükse 1 −^(2𝑝²+3𝑝−1)(𝑔+1)

6(𝑝+1)𝑔(𝑛−1) , 𝑛₁ = 𝑛₂ = ⋯ = 𝑛_𝑔 = 𝑛 ise

(2.18)

dir. Ayrıca; 𝑘 = 1,2, … , 𝑔 için 𝑘.ncı gruba ait örnek varyans kovaryans matrisi 𝑆_𝑘 = ¹

𝑛𝑘−1∑^𝑛_𝑖=1^𝑘 (𝑋_𝑘𝑖− 𝑋_𝑘) (𝑋_𝑘𝑖 − 𝑋_𝑘)^′ (2.19) iken,

𝐻

₀doğru olduğunda örneklem için ortak varyans kovaryans matrisi

𝑆 =

^∑ ^(𝑛^𝑘^−1)𝑆^𝑘

𝑔 𝑘=1

∑^𝑔_𝑘=1(𝑛_𝑘−1)

^(2.20)

ile verilir. Eğer; 𝛼 önem seviyesinde;

𝑀𝐶

⁻¹

> 𝜒

(𝑔−1)𝑝(𝑝+1)

2 ;𝛼

2 ise

𝐻

₀ ret edilir ve böylece gruplar homojen varyans kovaryans

matrisli değildir.

Eğer;

𝑀𝐶

⁻¹

≤ 𝜒

(𝑔−1)𝑝(𝑝+1)

2 ;𝛼

2 ise

𝐻

₀ kabul edilir ve böylece gruplar homojen varyans kovaryans matrislidir.

Örnek 2.7 Diabet+Koroner arter hastası 26 hasta ile sadece Diabet hastası 24 hasta için 𝑋₁: Kolesterol, 𝑋₂: Şeker ve 𝑋₃: HDL ölçümleri aşağıda verilmiştir. Bu değişkenler için söz konusu iki hasta grubunun homojen varyans-kovaryans matrisli olup olmadığına %5 önem seviyesinde karar veriniz?

(4)

3 Tablo 2.8 Hastaların tahlil sonuçları

Diabet+Kroner Arter Hastaları Diabet Hastaları

Kolesterol Şeker HDL Kolesterol Şeker HDL

210 249 265 280 230 290 270 260 295 218 222 235 240 242 270 285 275 269 255 259 265 268 270 274 310 295

130 185 183 200 175 170 150 188 172 165 165 167 178 180 169 180 160 145 140 190 125 130 120 190 215 178

44 25 46 23 35 25 28 38 39 32 30 43 36 37 47 39 48 40 36 35 50 31 47 37 38 27

215 234 238 255 212 264 245 220 268 220 224 207 230 217 245 257 249 244 235 236 237 250 244 275

160 150 190 169 145 185 176 168 185 175 180 176 170 151 166 175 173 190 139 118 163 152 196 205

63 58 72 74 65 60 63 57 62 67 50 62 54 67 62 66 60 56 63 66 64 68 58 67

Ort: 261,577 167,308 36,769 238,375 169,042 62,667 Var: 633,214 576,862 58,345 329,201 387,172 30,493 Çözüm: Değişkenler vektörü 𝑋^′ = [𝑋₁ 𝑋₂ 𝑋₃] ve grup sayısı 𝑔 = 2 dir. Birinci grup:

Diabet+Kroner arter hastaları olup, ilgili değişkenler bakımından dağılımı 𝑋₁~𝑁₃(𝜇₁ , Σ₁) ve ikinci grup: Diabet hastaları olup bunların ilgili değişkenlere göre dağılımı 𝑋₂~𝑁₃(𝜇₂ , Σ₂) dir. Grupların varyans-kovaryans matrisleri yönünden homojenliğini incelemede test edilecek hipotezler:

𝐻₀: Σ₁ = Σ₂

𝐻₁: Σ₁ ≠ Σ₂ şeklinde kurulur.

Test istatistiği: Box-M testine göre

𝑀𝐶

⁻¹

~𝜒

(𝑔−1)𝑝(𝑝+1) 2

2

dir.

Burada

(5)

4

𝑀 = ∑^𝑔_𝑘=1(𝑛_𝑘− 1)𝑙𝑛|𝑆| − ∑^𝑔_𝑘=1(𝑛_𝑘− 1)𝑙𝑛|𝑆_𝑘| ve 𝐶⁻¹ = 1 − ^2𝑝²^+3𝑝−1

6(𝑝+1)(𝑔−1)[∑ ¹

(𝑛𝑘−1)−

𝑔 𝑘=1 1

∑^𝑔_𝑘=1(𝑛𝑘−1)] dir. O halde önce her iki grup için ayrı ayrı örnek varyans- kovaryans matrisleri ile toplanmış varyans kovaryans matrisi ve bu matrislerin determinantları şu şekildedir.

𝑆₁ = [

633.214 169.015 − 10.062 169.015 576.862 − 64.726

−10,062 − 64.726 58.345

] , |𝑆₁| = 17154329.19

𝑆₂ = [

329.201 152.679 18.826 152.679 387.172 − 17.464 18.826 − 17,464 30.493

] , |𝑆₂| = 2837721.17

Bu iki hasta grubu için ortak (toplanmış varyans – kovaryans matrisi Eşitlik (1.13) gereğince

𝑆 =

^∑ ^(𝑛^𝑘^−1)𝑆^𝑘

𝑔 𝑘=1

∑^𝑔_𝑘=1(𝑛_𝑘−1)

=

^25∗^𝑆¹^+23∗𝑆²

25+23

= [

487.541 161.187 3.780 161.187 485.969 − 42.079

3.780 − 42.079 45.000

]

dir. Bu matrisin determinantı ise | 𝑆 | = 8571204.575 bulunur. Buna göre:

𝑀 = (25 + 23)𝑙𝑛(8571204.575) − [25𝑙𝑛(17154329.19) + 23𝑙𝑛(2837721.17 )] =8.078 olarak bulunur. Ayrıca:

𝐶⁻¹= 1 − ^2∗3²^+3∗3−1

6∗(3+1)(2−1)[¹

25+ ¹

23− ¹

25+23] = 0.932135 ve böylece 𝑀𝐶⁻¹ = (8.078) ∗ (0.932135) = 7.53 bulunur.

Karar: 𝛼 = 0,05 önem seviyesinde 𝐻₁ hipotezine göre kritik değer 𝜒(𝑔−1)𝑝(𝑝+1)

2 ;𝛼

2 = 𝜒_6;0,05² = 12,592 olup, 𝑀𝐶⁻¹= 7,53 < 12,592 olduğundan 𝐻₀ hipotezi ret edilemez. Yani gruplar homojen varyans-kovaryans matrislidir.

SPSS Çözümü: Bağımlı Değişkenler ve faktör (gruplama değişkeni) tanımlandıktan sonra veriler girilir. Analyze > General Linear Model > Multivariate yolu izlenerek açılan ekranda ilgili yerlere değişken atamaları yapılır ( Bağımlı değişkenler Dependent Variables işlem kutusuna, faktör Fixed factor(s) işlem kutusuna). Options seçeneğinden Homogeneity Tests >

Continue > Ok.

Tablo:2.9 Box's Test of Equality of Covariance Matrices^a

Box's M 8,077

F 1,254

df1 6

df2 16387,347

Sig. ,275

Kısıtlayıcılar:

(6)

5

i) Bağımsız Değişkenler Arasında Çoklu Bağlantı Sorunun Olmaması: Bağımsız değişkenlerin biri (bir kaçı) diğeri (diğerleri) ile yüksek ilişkili ise ya da diğer değişkenlerin bir fonksiyonu ise bu durumda çoklu bağlantı sorunu ile karşılaşılır. Bu durumda diğer değişkenlerle yüksek ilişki içinde olan bir değişken ya da değişkenlerin ilgili grubun açıklayıcı gücüne katkısı çok az olur. Sonuçta ayırma fonksiyonu katsayıları, bağımsız değişkenlerin göreli önemini güvenilir bir şekilde belirleyemez. Bu açıdan AA öncesinde bağımlı değişkenin kategorilerinde yer alan bağımsız değişkenler arasında çoklu bağlantı sorunu belirlenmesi ve eğer varsa giderilmesi gerekir. Bunun için Çoklu Doğrusal Regresyonda verilen detaylardan yararlanılır.

ii) Bağımsız Değişkenler Arası İlişkilerin Doğrusal Olması: Ayırma modeli her grup içinde tüm bağımsız değişken çiftleri arasında doğrusal bir ilişki olduğunu varsayar. Çok değişkenli regresyon analizinde olduğu gibi, bu varsayımın bozulması istatistiksel testin gücünü azaltır.

Bu sorunu gidermek için bazı bağımsız değişkenlere dönüşüm uygulanabilir. Ancak; dönüşüm uygulanan değişkenlerin yorumlanmasından kaynaklı sorunlar yaşanabileceğinden, bu sorunları gidermenin en iyi yolu, doğrusallığı bozan bağımsız değişkenlerin analizden çıkarılmasıdır.

iii) Aykırı (Aşırı) Değerlerin Olmaması: AA, diğer çok değişkenli analizlerde olduğu gibi aykırı değerlere karşı oldukça duyarlıdır. Örneğin gruplardan biri ortalamayı etkileyecek düzeyde aykırı değerlere sahipse, bu gözlemler aynı zamanda değişkenliği de arttıracaktır. Bu ise sonuçların ve yorumların yanlış ortaya çıkmasına neden olabilecektir. Bu sebeple her grup ayrı ayrı tek ve çok değişkenli olarak aykırı değerler yönünden incelenmesi ve bu soruna ilişkin sıkıntılar ayırma analizi öncesinde giderilmelidir.

1.2.7. Ayırma Analizine İlişkin Diğer Açıklamalar

Anlamlı Boyut (Doğrusal Kombinasyon) Sayısı: Ayırma analizinde kanonik fonksiyonlar oluşturulabilir ve elde edilen fonksiyonlardan çeşitli amaçlarla yararlanılabilir. AA de elde edilen birinci kanonik ayırma fonksiyonu (birinci boyut) grupları birbirinden maksimum şekilde ayıracak biçimde kurulmuştur. İkinci boyut (ikinci kanonik ayırma fonksiyonu) birinci boyuta dik (yani boyutlar arasında 𝑟 = 0) olarak, birinci ayırma fonksiyonunun açıklayamadığı bilgi ışığında grupları birbirinden en iyi ayırma özelliğine sahiptir. Birbirine dik ayırma fonksiyonları (boyutlar/doğrusal kombinasyonlar) bulma işlemi, bu tarzda olası bütün boyutlar için devam eder. Olası toplam boyut sayısı (𝑟); grup sayısı, gruplardaki değişken sayısı olmak üzere

𝑟 = 𝑚𝑖𝑛(𝑔 − 1, 𝑝)

eşitliği ile belirlenir. Ancak; genellikle yalnız bir ya da iki boyutun gruplar arasındaki ayırımına güvenilir, geriye kalan boyutlar, grup üyeliği hakkında ek bilgi sağlamazlar ve önemsenmeyebilirler. Örneğin

𝑔 = 3

ve

𝑝 = 2

iken iki ayırma fonksiyonu elde edilir. Bu fonksiyonların her ikisi de anlamlı olabileceği gibi, sadece birinci ayırma fonksiyonu da önemli olabilir. Her ikisinin de anlamlı olduğu bir çalışmada ilk fonksiyonun birinci grubu diğer iki gruptan ayırdığı, ikinci fonksiyonun ise ikinci grubu üçüncü gruptan ayırdığı kabul edilir. Bazen sadece birinci doğrusal kombinasyonun üç grubu ayırmak için yeterli olduğu durumlarla da karşılaşmak mümkündür. Kanonik korelasyonlarla ilgili önemlilik testleri kullanılarak söz konusu boyutlardan (kanonik ayırma fonksiyonlarından) hangisinin/hangilerinin önemli oldukları belirlenebilir.

(7)

6

Grup Üyeliği ile Bağımsız Değişkenler Kümesi Arasındaki İlişki: Bu ilişkinin derecesi kanonik korelasyon yardımı ile elde edilir. Bu amaçla her bir kanonik ayırma fonksiyonu için bir kanonik korelasyon hesaplanır. Kanonik korelasyonların karesi, gruplar ve o fonksiyon için bağımsız değişkenler arasında paylaşılan varyans oranını verir.

Grup Üyeliği Kestiriminde Önemli Olan Bağımsız Değişkenler: Ayırma analizinde grup üyeliği kestiriminde katkısı yüksek olan değişken/değişkenler belirlenebilir. Bunun için kullanılabilecek farklı yaklaşımlar vardır. Bu yaklaşımlar; bağımsız değişkenler ve ayırma fonksiyonu skorları arasındaki ilişkinin (korelasyonun) incelenmesi, tek yönlü varyans analizi ile değişkenlerin gruplara göre ortalamalarının farklılık gösterip göstermediğinin incelenmesi, standartlaştırılmış kanonik ayırma fonksiyonu katsayılarının mutlak büyüklüğünün incelenmesidir. Bu yaklaşımlar tek başına kullanılabileceği gibi birlikte de kullanılabilir.

Ancak; ayırma fonksiyonu katsayılarının büyüklüğünün doğrudan incelenmesi yaklaşımı ile bağımsız değişkenlerin önemine karar vermek yanlışlıklara neden olabilir. Bu nedenle standartlaştırılmış kanonik ayırma fonksiyonu katsayıları dışındaki ayırma fonksiyonu katsayıları ile tek değişkenli 𝐹’leri bu amaçla kullanmamaya özen gösterilmelidir.