ÇOKLU DOĞRUSAL REGRESYONDA HİPOTEZ TESTİ
Modeldeki parametrelerin kestirimi yapıldığında, iki soruyla karşı karşıya kalınır.
1. Modelin genel yeterliliği nedir?
2. Bağımsız değişkenlerden hangileri önemli görünmektedir.
Birçok hipotez test işlemi, bu soruları yanıtlamada yararlı olacaktır. Bu testler, rastgele hataların bağımsız olmaları, ( ) 0 E ve Var ( )
i
2ile Normal dağılmaları kuralını gerektirir.
Regresyonun Anlamlılık Testi
Regresyonun anlamlılık testi, y yanıt değişkeni ile x x
1, ,...,
2x bağımsız değişkenleri arasında
kdoğrusal bir ilişkinin olup olmadığına karar vermek için kullanılan bir testtir. Bu amaçla kullanılacak uygun hipotezler aşağıdadır:
0
:
1 2....
k0
H
1
:
j0
H en az bir j için
Sıfır hipotezinin reddedilmesi, x x
1, ,...,
2x bağımsız değişkenlerinden en az birinin modele
kanlamlı bir katkısı olduğunu gösterir.
Toplam değişim, SS ; regresyon kareler toplamı,
TSS ve artık kareler toplamı,
RSS
Re solmak üzere;
0 Re Re
1
R
R
s s
SS k MS
F SS MS
n k
oranı, F
k n k, 1dağılır.
* ( ,
1 2,...,
k)' ve "merkezileştirilmiş" model matrisi X ,
c11 1 12 2 1
21 1 22 2 2
1 1 2 2
1 1 2 2
...
...
... ... ... ...
...
... ... ... ...
...
k k
k k
c
i i ik k
n n nk k
x x x x x x
x x x x x x
X x x x x x x
x x x x x x
olmak üzere,
Re 2
(
s)
E MS
*' ' * 2
(
R) X X
c2cE MS k
olup eğer F değeri büyükse, en az bir
0
j olması olasıdır. 0 En az bir
j ise 0 k ve n k 1 serbestlik dereceleriyle F ,
0* *
2
' ' X
cX
c
merkezi
olmama parametresi ile merkezi olmayan bir F dağılımına sahip olur. Eğer,
0 , ,k n k 1
F F
ise H reddedilir.
0TABLO 2.5 Çoklu Regresyonda Regresyonun Anlamlılığı İçin Varyans Analizi Kareler Kareler
Değişimin Kaynağı Toplamı Serbestlik Derecesi Ortalaması F
0Regresyon SS k
RMS
RMS
R/ MS
ResArtıklar SS
Re sn k 1 MS
Re sToplam SS
Tn 1
Regresyon kareler toplamı,
2
ˆ ' '
1n i i R
y
SS X y
n
olup artık kareler toplamı,
Res
' ˆ ' '
SS y y X y ve toplam değişim,
2
'
1 ni i T
y SS y y
n
eşitliği ile elde edilir.
Örnek 2.3 The Delivery Time Data
Örnek 2.1'deki teslim süresi verileri kullanılarak regresyonun anlamlılığı test edilmek istensin.
2
'
1 ni i T
y SS y y
n
(559.60)
218,310.6290 5784.5426
25 ve
2 1 2
'
(559.60)
ˆ ' 18,076.9030 5550.8166
25
n i i R
y
SS X y
n
olmak üzere,
Res T R
' ˆ ' ' 233.7260
SS SS SS y y X y
şeklinde elde edilir. H
0:
1
2 hipotezini test etmek için 0 F test istatistiği,
00
Re
2775.4083
261.24 10.6239
R s
F MS
MS
olarak hesaplanır.
TABLO 2.6 Örnek 2.3 İçin Regresyonun Anlamlılık Testi Değişim Kareler Serbestlik Kareler
Kaynağı Toplamı Derecesi Ortalaması F
0p-değeri Regresyon 5550.8166 2 2775.4083 261.24 4 7 10 .
16Artıklar 233.7260 22 10.6239
Toplam 5784.5426 24
Teslim süresinin, teslim hacmine ya da mesafeye bağlı olduğu sonucuna varılabilir.
R
2ve Düzeltilmiş R
2: Modelin genel anlamda yeterliliği ile ilgili olarak diğer iki yol, R
2ve R
2Adjile gösterilen düzeltilmiş R
2'dir.
2 Re
/ ( )
1 / ( 1)
s Adj
T
SS n p
R SS n (2.14) Tablo 2.4'te teslim süresi verilerinin çoklu regresyon modeli için R değeri,
2R
2 0.96 olarak bulunmuştur. Örnek 1.9'da sadece tek bir bağımsız değişken x kullanıldığında
1R
2değeri daha küçüktür.( R
2 0.93 ) Genellikle R
2değeri, modele bir bağımsız değişken eklendiğinde değişkenin katkısına bakmaksızın asla azalmaz. Tek değişkenli( x ) basit doğrusal regresyon için
12Adj
0.927
R iken iki değişkenli model için R
2Adj 0.956 olarak bulunmuştur. Burada x
2modele eklendiğinde toplam değişimde anlamlı bir azalma olduğu sonucuna varılabilir.
Tek Tek Regresyon Katsayıları ve Katsayıların Alt Kümeleri İçin Testler
Herhangi bir regresyon katsayısının, örneğin
j'nin anlamlılığının testi için hipotezler,
H
0:
j , 0 H
1:
j (2.15) 0 olarak kullanılır. Eğer H
0:
j reddedilemezse bu durumda 0 x bağımsız değişkeni modelden
jçıkarılabilir.
Bu hipotez için test istatistiği,
0 2
ˆ ˆ
( ˆ ) ˆ
j j
jj j
t
C se
(2.16)
olup burada C , ˆ
jj
j'ya karşılık gelen ( ' ) X X
1'in köşegen elemanıdır. Eğer t
0 t
/2,n k 1ise
0
:
j0
H hipotezi reddedilir. Bu test, kısmi ya da marjinal test olarak adlandırılmakta olup modelde diğer bağımsız değişkenler varken x 'nin katkısını test etmektedir.
jÖrnek 2.4 Teslim Süresi Verileri
Modelde x (teslim hacmi) değişkeni varken
1x (mesafe) bağımsız değişkeninin değerlendirilmek
2istenildiği varsayılsın.
0
:
20
H , H
1:
2 0 Test istatistiği,
0 22
22
ˆ 0.01438
(10.6239)(0.00000123) 3.98 t ˆ
C
0.025,22
2.074
t olduğundan H
0:
2 hipotezi reddedilir ve modelde 0 x (teslim hacmi)
1bağımsız değişkeni varken x (mesafe) bağımsız değişkeninin modele anlamlı bir katkı sağladığı
2görülmüştür.
Kısmi F Testi
( )
x i
i bağımsız değişkenleri modelde varken j x 'nin katkısı katkı kareler toplamıyla
jbelirlenebilir. Bu yöntem aynı zamanda modelde bağımsız değişkenlerin bir alt kümesinin katkısının da araştırılmasında kullanılabilir.
k bağımsız değişkenli regresyon modeli,
y X
olup burada y , n 1 ; X , n p ; , p ; 1 , n 1 boyutlu ve p 'dir. k 1 Regresyon katsayıları vektörü,
1 2
şeklinde parçalanabilir. Burada
1, ( p ve r ) 1
2, r 1 'dir.
H
0:
2 , 0 H
1:
2 (2.17) 0 hipotezi test edilmek istensin. Bu durumda model,
y X X
1 1 X
2 2 (2.18) olup tam model olarak adlandırılmaktadır. Burada n ( p boyutlu r ) X matrisi,
1
1'e karşılık gelen X 'in sütunlarını ve n r boyutlu X matrisi ise
2
2'ye karşılık gelen X 'in sütunlarını göstermektedir.
Tam model için, ˆ ( ' ) X X
1X y ' olmak üzere regresyon kareler toplamı ve artık kareler ortalaması,
( ) ˆ ' '
SS
R X y ( p serbestlik derecesiyle)
Re
' ˆ ' '
s
y y X y
MS n p
eşitliği ile hesaplanır.
Regresyona
2teriminin katkısını bulmak için sıfır hipotezi H
0:
2 'ın doğru olduğu 0
varsayımı ile bir model kurulur. Bu indirgenmiş model,
y X
1 1 (2.19) olup
1'in en küçük kareler kestiricisi ˆ
1 ( X X
1'
1)
1X y
1' olarak elde edilir. Regresyon kareler toplamı, SS
R( )
1 ˆ
1' X y
1' ( p r serbestlik derecesiyle) eşitliği ile elde edilir.
Modelde
1varken
2'den dolayı regresyon kareler toplamı, p ( p r ) serbestlik r derecesiyle SS
R(
2/
1) SS
R( ) SS
R( )
1eşitliği kullanılarak hesaplanır. Bu kareler toplamı,
2için katkı kareler toplamı olarak adlandırılır.
( / )
SS
R
2 1, MS
Re s'den bağımsız olmak üzere;
2 0 hipotezi,
2 1
0
Re
( \ ) /
Rs
SS r
F MS
(2.20) istatistiği ile test edilir. Eğer
2 0 ise F
0, merkezi olmayan F dağılımı gösterir. Merkezi olmama parametresi ise
2 2 1 1 1 1 1 2 2
2
1 ' ' ( ' )
'
X I X X X X X
eşitliği ile hesaplanır.
2gerçekte önemli olsa bile yaklaşık olarak sıfır olabilir. Bu ilişki, aynı zamanda X ve
1X birbirlerine dik olduklarında testin maksimum gücünü göstermektedir. (Dik
2terimi ile X
2' X
1 olduğu kastedilmektedir.) 0
Eğer F
0 F
, ,r n pise H reddedilir;
0X 'deki
2x
k r 1, x
k r 2,..., x
kbağımsız değişkenlerinden en az birinin regresyon modeline anlamlı katkısı olduğu sonucuna ulaşılır. Bu test, X 'deki bağımsız
1değişkenler modelde iken X 'deki bağımsız değişkenlerin modele katkısını ölçtüğü için "kısmi
2F testi" olarak da adlandırılır.
0 1 1 2 2 3 3
y x x x modeli ele alınsın.
1 0 2 3
( \ , , )
SS
R , SS
R(
2\
0, ,
1 3) , SS
R(
3\
0, ,
1 2)
kareler toplamları, diğer tüm bağımsız değişkenler modelde iken her bir x ,
jj 1, 2,3 bağımsız
değişkeninin modele katkısını ölçen tek serbestlik dereceli kareler toplamlarıdır. Yani x bağımsız
jdeğişkeni modelde yokken x 'nin modele eklenmesini değerlendirmiş oluyoruz.
j1 2 3 0 Re
( , , \ )
T R s
SS SS SS olmak üzere, üç serbestlik dereceli regresyon kareler toplamı,
1 2 3 0 1 0 2 0 1 3 1 2 0
( , , \ ) ( \ ) ( \ , ) ( \ , , )
R R R R
SS SS SS SS olarak parçalanabilir. Alternatif olarak,
1 2 3 0 2 0 1 2 0 3 1 2 0
( , , \ ) ( \ ) ( \ , ) ( \ , , )
R R R R
SS SS SS SS biçiminde de parçalanabilir. Katkı kareler toplamı yöntemi, genel olarak,
1 2 3 0 1 2 3 0 2 1 3 0 3 1 2 0
( , , \ ) ( \ , , ) ( \ , , ) ( \ , , )
R R R R
SS SS SS SS
ifadesinden dolayı her zaman regresyon kareler toplamının parçalara ayrılmasını sağlamayabilir.
Minitab Çıktısı : Tablo 2.4'te regresyon kareler toplamının ardışık parçalanması verilmektedir.
1 2 0 1 0 2 1 0
( , \ ) ( \ ) ( \ , )
R R R
SS SS SS 5550.8 5382.4 168.4
Örnek 2.5 Teslim Süresi Verileri
0
:
20
H , H
1:
2 0 olmak üzere
2için oluşacak katkı kareler toplamı,
2 1 0 1 2 0 1 0
( \ , ) ( , , ) ( , )
R R R
SS SS SS SS
R( ,
1 2\
0) SS
R(
1\
0)
Örnek 2.3'te elde edildiği gibi,
2
1 2 0
ˆ
1( , \ ) ' ' 5550.8166
n i i R
y
SS X y
n
(2 serbestlik dereceli) olup Örnek 1.9'daki y
0
1 1x indirgenmiş modeli için regresyon kareler toplamı,
1 0
ˆ
1( \ ) (2.1762)(2473.3440)
R xy
SS S
= 5382.4077 (1 serbestlik dereceli)
olarak elde edilir. Bu durumda, x modeldeyken
1x 'nin modele eklenmesiyle regresyon kareler
2toplamındaki artış,
2 1 0
( \ , ) 5550.8166 5382.4088 SS
R
= 168.4078 (1 serbestlik dereceli) olur. H
0:
2 hipotezinin testi için test istatistiği, 0
2 1 0
0
Re
( \ , ) 168.4078 /1
15.85 10.6239
R
s
F SS
MS
olup bu ifadenin paydasındaki MS
Re s, tam modelden elde edilen değerdir. F
0.05,1,22 4.30 olduğundan H hipotezi reddedilir ve
0x değişkeninin modele katkısının anlamlı olduğu
2sonucuna varılır.
Bu kısmi F testi, tek bir değişken içerdiği için t testine eş değerdir. t
02 (3.98)
2 15.84 F
0
Genel Doğrusal Hipotez Testleri
İlgilenilen sıfır hipotezinin H
0: T 0 olduğu varsayılsın. Burada T , m p boyutlu sabitler matrisidir. Öyle ki sadece T 0 'daki " " m denklemden " " r tanesi bağımsızdır. Tam model (
FM ), y X olup bu model için artık kareler toplamı,
SS
Res( FM ) y y ' ˆ ' ' ( X y n p serbestlik derecesiyle) ile bulunur.
İndirgenmiş modeli elde etmek için T 0 'daki " " r bağımsız eşitlik, tam modelde geriye kalan p regresyon katsayıları türünden r " " r regresyon katsayılarını çözmek için kullanılır. Bu durum, y Z indirgenmiş modelini oluşturur. Bu modelde, , Z n ( p r matrisi ve ) , ( p r ) 1 bilinmeyen regresyon katsayıları vektörüdür.
'nın kestirimi,
ˆ ( ' ) Z Z
1Z y '
olup indirgenmiş model ( RM ) için artık kareler toplamı,
Res
( ) ' ˆ ' '
SS RM y y Z y (n p r serbestlik derecesiyle) ile bulunur.
İndirgenmiş model, tam modelden daha az parametre içermektedir. Sonuç olarak,
Res
( )
Res( )
SS RM SS FM olur. H
0: T 0 hipotezini test etmek için n p r ( n p ) r serbestlik dereceli artık kareler toplamları arasındaki fark,
SS
H SS
Res( RM ) SS
Res( FM ) (2.21) olup H
0: T 0 hipotezi için kareler toplamı olarak adlandırılır. Bu hipotez için test istatistiği,
0 Re
/
( ) / ( )
H s
SS r
F SS FM n p
(2.22)
ile bulunur. Eğer, F
0 F
, ,r n pise H
0: T 0 hipotezi reddedilir.
Örnek 2.6 Regresyon Katsayılarının Eşitlik Testi
0 1 1 2 2 3 3
y x x x
modeli ele alınsın. Tam model için SS
Res( FM , ) n serbestlik derecesine sahiptir. p n 4
0
:
1 3H hipotezi test edilmek istensin. Bu hipotez H
0: T 0 olarak ifade edilebilir. Burada,
, , ,
T 0 1 0 1 , 1 4 'lük satır vektörüdür.
T 0 'da tek bir eşitlik vardır yani
1
3 'dır. Bu eşitlik tam modelde yerine yazıldığında 0 indirgenmiş model elde edilir.
0 1 1 2 2 1 3
y x x x
0
1( x
1 x
3)
2 2x
0
1 1z
2 2z
Burada,
0
0,
1
1(
3) , z
1 , x
1x
3
2
2ve z
2 x
2alınır. F oranı,
0 H
/1
Res( ) / ( 4)
F SS SS FM n olup bu hipotez, t istatistiği kullanılarak da (n-4) serbestlik derecesiyle test edilebilir.
1 3 1 3
0 2
1 3 11 33 13
ˆ ˆ ˆ ˆ
ˆ ˆ
( ) ˆ ( 2 )
t se C C C
Örnek 2.7
0 1 1 2 2 3 3
y x x x olmak üzere, H
0:
1
3,
2 hipotezi test edilmek istensin. 0
0 1 0 1
0 0 1 0
T
T 0 'da
1
3 0 ve
2 0 olmak üzere iki eşitlik vardır. Bu eşitlikler, aşağıdaki indirgenmiş modeli verirler :
0 1 1 1 3
y x x
0
1( x
1 x
3)
0
1 1z
Bu örnekte, SS
Res( RM , ) n 2 serbestlik derecesine sahiptir. SS ise
Rn 2 ( n 4) 2 serbestlik derecesine sahiptir. F oranı, F
0 ( SS
H/ 2) / SS
Res( FM ) / ( n 4) olarak elde edilir.
Genel doğrusal hipotez için test istatistiği,
1 1
0
Re
ˆ ' ' ( ' ) ' ˆ /
( ) / ( )
s
T T X X T T r
F SS FM n p
(2.23)
biçiminde de yazılabilir. Test istatistiğinin bu şekli, Örnek 2.6 ve örnek 2.7'deki test işlemi için geliştirilebilir.
Genel doğrusal hipotezler,
H
0: T , c H
1: T (2.24) c olarak test edilmek istendiğinde, test istatistiği,
' 1 1
0
Re
ˆ ˆ
( ) ( ' ) ' ( ) /
( ) / ( )
s
T c T X X T T c r
F SS FM n p
(2.25)
şeklinde kullanılır. Eğer F
0 F
, ,r n pise H
0: T hipotezi reddedilir. Eğer c
0